スタンフォード大学の学者がストリートビューを開発

スタンフォード大学のコンピューター科学者 3 人が、Google ストリートビューの画像の位置を特定するディープラーニングモデルを開発しました。つまり、写真を見るだけで、その写真がどこで撮影されたかを大まかに把握できるということです。

このソフトウェアは、人気のオンライン位置推測ゲームである GeoGuessr でトッププレーヤーに勝つのに十分な機能を備えていると言われています。

とはいえ、学者のモデルが街頭写真が撮影された場所を正確に特定できるわけではない。その代わりに、多くの場合、正しい位置から 25 マイル以内で国を確実に特定し、適切な推測を行うことができます。ただし、その距離よりも離れていることの方が多いのです。

「PIGEON: Predicting Image Geolocations」というタイトルのプレプリント論文で、Lukas Haas、Michal Skreta、Silas Alberti が PIGEON を開発した方法について説明しています。

これは、StreetCLIP と呼ばれる独自の事前トレーニング済み CLIP モデルから派生した画像地理位置情報モデルです。技術的に言えば、このモデルは一連のセマンティックジオセル (道路標識、インフラストラクチャの品質、道路標識などの地域固有の詳細を考慮する、郡や州に似た土地の境界領域) と、プロトネット (以下を使用した分類手法) で強化されています。ほんの数例です。

PIGEON は最近、YouTube 上で単に Rainbolt として知られる GeoGuessr のトップランクプレーヤーである Trevor Rainbolt と対戦し、勝利しました。

論文の中で関係者らは、PIGEON が「GeoGuessr で人間のプレイヤーを常に上回り、プレイヤーの上位 0.01% にランクされている初の AI モデル」であると主張しています。およそ 5,000 万人以上の人が GeoGuessr をプレイしたと言われています。

スタンフォード大学の博士候補者であるアルバーティ氏はレジスターに対し、「ディープマインドの小規模なコンテストのようなものだった」と語った。これは、ディープマインド・アルファコード・システムが人間のプログラマーと同等のコードを書けるというグーグルの主張に言及したものだ。

GeoGuessr で AI が世界最高の人間に勝ったのはこれが初めてだったと思います

「GeoGuessr で AI が世界最高の人間に勝ったのはこれが初めてだったと思います」と彼は述べ、レインボルトが AI システムを使用した過去 2 回の試合で勝利したことを指摘しました。

Bellingcat のようなジャーナリズム研究組織の取り組みのおかげで、画像の位置情報を取得することは、オープンソース研究者の間では一種の芸術になりました。 PIGEON の成功は、それがプライバシーに重大な影響を与える科学でもあることを示しています。

PIGEON はストリートビュー画像の位置特定について訓練を受けていますが、アルベルティ氏は、この技術により、少なくとも屋外では、ほぼすべての画像の位置特定が容易になる可能性があると考えています。同氏は、同氏と同僚がストリートビュー画像を含まない画像データセットでこのシステムを試したところ、非常にうまく機能したと述べた。

アルベルティ氏は、地理位置情報技術に関心を示したオープンソースインテリジェンスプラットフォームの代表者との議論について詳しく語った。「われわれの手法はこうしたシナリオにも適用できる可能性が高いと考えている」と同氏は語った。

この技術により、画像が撮影された場所を隠すことがさらに難しくなるのかとの質問に対し、アルベルティ氏は、どこの通りにいる場合でも、自分がどこにいるのかを示す標識が非常に多いため、地理位置情報が取得される可能性が非常に高いと述べた。

「先日、『通りから離れた自然の真ん中だったらどうする？』と尋ねられたんです」と彼は語った。「そこでさえ、葉の様子、空、土の色など、自分がどこにいるのかを示す兆候がたくさんあります。これらは確かに、あなたがどの国、または国のどの地域にいるのかを示します。「しかし、おそらく特定の町を見つけることはできないでしょう。内部の写真を見つけるのはおそらく非常に困難なままになると思います。」

内部の写真はおそらく見つけにくいままになると思います

Alberti 氏は、PIGEON がうまく機能する主な理由の 1 つは、PIGEON が基盤モデルとして OpenAI の CLIP に依存していることだと述べました。

「これまでの他の地理位置情報モデルの多くは、モデルを最初からトレーニングするか、ImageNet ベースのモデルを使用するだけでした。しかし、CLIP を基礎モデルとして使用すると、より多くの画像やより多くの細かい詳細が表示されることに気づきました。したがって、このタスクにははるかに適しています。」