グーグルはGoogle I/O 2024を開催。基調講演では様々なAI技術やそれを使った製品が披露された。
出典:グーグル
グーグルは5月14日(現地時間)、サンフランシスコ・マウンテンビューで開発者向け年次イベント「Google I/O 2024」の基調講演を開催した。
基調講演は2時間弱の長丁場で、同社の生成AI技術やその製品群である「Gemini(ジェミニ)」に関するアップデートが相次いで発表された。
特に今回はグーグルが2月に発表した大規模言語モデル(LLM)「Gemini 1.5 Pro」などを使ったさまざまな機能が披露された。
その中から6つのトピックを取り上げて紹介する。
有料版「Gemini Advanced」が日本語でも利用可能に
日本語でも問題なく「Gemini Advanced」が利用できるようになった。
出典:グーグル
グーグルは2月に、「Bard(バード)」の名前で提供していた対話型生成AIサービスの名前を「Gemini」に統一。名称変更と同時に「Gemini Advanced」もリリースした。
日本でも「Google One AI Premium」(月額2900円)に加入すればGemini Advancedを利用できたが、当時ベースとなっていた「Gemini 1.0 Ultra」が英語のみの提供となっていた。Gemini Advancedで日本語での受け答えはできるものの、グーグルは当時「日本語非対応」とうたっていた。
今回のI/Oでグーグルは、Geminiの最新世代で標準サイズのLLM「Gemini 1.5 Pro」を日本語を含む35以上の言語で150カ国以上で提供すると発表し、合わせて対話型生成AIであるGemini Advancedも、Gemini 1.5 Proベースに切り替えた。
Gemini 1.5 Proは、35以上の言語に対応した。
出典:グーグル
Gemini 1.5 ProベースのGemini Advancedでは100万トークンにも及ぶコンテキストを処理できる。これは例えば、最大1500ページの書類や100件の電子メールを要約できることを意味するという。
グーグルは処理できるトークン数で競合サービスを比較。OpenAIの「GPT-4」は12万8000、Anthropicの「Claude 3」で20万トークン(Anthropicは一部顧客には100万超の処理能力を提供する可能性があるとしている)であるとし、Gemini 1.5 Proの処理性能をアピールした。
今後、Gemini Advancedは様々なファイル形式に対応する。
出典:グーグル
発表直後の日本時間5月15日時点では、Gemini AdvancedはPDFやGoogle ドキュメント、Wordなどのアップロードに対応。グーグルのヘルプページによると、近日中にCSVやExcelファイル、Googleスプレッドシートといった表形式のデータファイルの分析にも対応する。
また今後、Gemini 1.5 Proは1時間の動画や3万行を超えるソースコードを処理できるようになるという。
Geminiはさらに進化、GemsとGemini LiveはOpenAIを意識
「任意の役割」をプリセットしたGeminiを用意できる「Gems」。
出典:グーグル
また、Geminiの活用例は今後より増えていく。その具体的なサービスと言えるのが「Gems」と「Gemini Live」だ。
Gemsは、ユーザーの任意の設定にカスタマイズしたGeminiチャットのことだ。提供開始予定時期は「soon(間もなく)」。
デモでは「短編小説のストーリーテラーになりきって、Google Drive内の草稿を元にプロットを作成する」といった役割のGemsを作成できるとしていた。
つまり、よく使う役割や情報ソースを事前に設定しておき、あとは起動して適宜命令すれば時間短縮になる。そして、これもOpenAIが「GPTs」として提供している機能に近い。
AIとのリアルタイムコミュニケーションが可能になる「Gemini Live」。
出典:グーグル
もう1つのGemini LiveもOpenAIを意識している機能のようだ。
Gemini Liveはよりリアルタイムに音声でGeminiと対話する機能で、Geminiの返答スピードもアップしているほか、Geminiの回答中でも割り込んで質問などができるという。
サービス開始当初は音声での対話がベースになるが、2024年後半には周囲で見ているのものについての会話も可能になるという。機能としてはGoogle I/O 2024の前日に発表されたOpenAIの「GPT-4o」を用いたマルチモーダル機能に近いかもしれない。
動画生成AI「Sora」の対抗馬は「Veo」
Veoで制作された映像とそのメイキング。
出典:グーグル
OpenAIは2月に動画生成ができるAIモデル「Sora」を発表したが、グーグルも対抗となる「Veo」を発表した。
2月時点でOpenAIのSoraは最大1分間の動画が作れると発表しているが、グーグルのVeoは1分以上で、1080p品質の動画が作れるとしている。
VideoFXで「Alpacas wearing knit wool sweaters, graffiti background, sunglasses. Alpacas dancing to the beat.(ニットのセーターを着てサングラスをかけたアルパカたちが、落書きを背景に、ビートに合わせて踊っている)」とプロンプトで生成した動画。
出典:グーグル
Veoは「VideoFX」という名前でプライベートプレビューを実施しており、待機リストの登録が開始している。将来的にはVeoの機能の一部をYouTube Shortsなどのグーグル製品に導入する予定だという。
また、グーグルは生成AIが制作したコンテンツであることを示す電子透かし技術「SynthID」もアップデート。画像と音声に加えて、動画とテキストもサポートする。
Veoで生成された動画にもSynthIDは埋め込まれる。目には見えない形だが、生成された動画のすべてのフレームに電子的な透かしが付与されるという。
Google フォトにAI探索機能が搭載へ
GoogleフォトにもGeminiを元にしたAI機能が搭載される。
出典:グーグル
GmailやGoogleドキュメントなどと並んでグーグルの人気サービスである「Googleフォト」にも、Geminiを使った対話型AI機能が今後数カ月以内に搭載される。
「Ask Photos」というこの機能は、自分のライブラリに保存された写真を探索する機能で、例えば「Show me the best photo from each national park I’ve visited(今までに訪れた自然公園のベストショットを見せて)」と言うとAIが該当する写真を列挙。訪れたことのある公園の数や、それぞれどんな場所だったのかといった具体的な情報も示してくれる。
写真の内容に基づいた質問も可能だ。
例えば「What themes have we had for Lena’s birthday parties?(レナの誕生日会ではどんなテーマがありましたか)」と質問すると、「3歳の時はお姫様の祝典、4歳の時は深海のマーメイド……」といった回答をする。
また、基調講演では「What's my license plate number agein(車のナンバー何番だっけ?)」と聞いて、AIが「600 613」と答えるシーンも披露された。
グーグルによると、Googleフォトには毎日60億枚以上の写真がアップロードされているといい、こうした大量の写真を生かせる機能は非常に有用だ(グーグルはPhotoのデータを広告に利用したり、フォト以外の生成AI製品でのトレーニングに使用しない、としている)。
Pixelスマホには「詐欺を防ぐ」オンデバイスAI
電話中にAIが会話パターンをチェックして警告する。
出典:グーグル
これらの生成AI機能は基本クラウドを活用したものだが、より機密性を保ちたいデータを扱う時や応答スピードが求められるシチュエーションでは、端末上での処理、いわゆるオンデバイスAIの利用が近年注目されている。
グーグルが公開した具体的な機能が、2024年後半にPixelシリーズに導入予定の生成AI機能だ。
視覚障害者向けの音声補助機能「TalkBack」では、ECサイトの写真や家族や友人から送られてきた写真の内容を、ネットワークがない環境でもAIが説明してくれるようになる。
また、通話アプリでは通話中の内容に、架空の銀行の担当者がカードのPINやパスワードを求めるなどといった「詐欺と思われる会話パターン」を発見した際に、アラートを出す機能が実装される。
これらは小型のAIモデル「Gemini Nano」によって実装される。他のGeminiシリーズと同じくNanoもマルチモーダル対応をしており、テキストのほか風景や音、話し言葉などの多くのコンテキストを理解できるという。
グーグルのメガネ型デバイスの再来か「Project Astra」
今回のGoogle I/Oの基調講演では久しぶりにハードウェアの発表がなかった。新しいスマホである「Pixel 8a」も5月8日(日本時間)に発表済みだ。
それだけGeminiをはじめとするAI技術やそのサービスの説明に時間が割かれたということだが、ハードウェア関連という意味では、同社の実験的プロジェクト「Project Astra」に注目したい。
Project Astraのデモ映像。
出典:グーグル
Project AstraはグーグルのAI開発部門・Google DeepMindで鋭意開発が進められている未来のAIアシスタント機能だ。
デモ動画では、スマホのカメラで周囲を動画撮影しながら、リアルタイムでAIと対話をする様子が披露された。
詳しくは上記のデモ動画を見ていただきたいが、スマホを持つテスターが「音を出す何かを見つけたら教えて」と話し、オフィス内を写しているとAIが「スピーカーを見つけた」と回答。
今度はそのスピーカーに近づき、スマホの画面上に矢印を描き「このスピーカーの部分はなんていうの?」とテスターが聞くと「それはツイーターで高周波を発生させます」とテンポよく答えている。
これだけでも驚くべき内容だったが、注目すべきは後半のデモ内容だ。
デモ映像ではテスターが眼鏡型の端末をかけている様子が確認できる。
出典:グーグル
後半では、テスターがスマホではなく眼鏡型デバイスを装着している。
ホワイトボードの手書きのシステム構成図を見ながら「このシステムを高速化するには、ここに何を追加できますか?」とテスターが聞き、「キャッシュを追加すると高速化する可能性があります」とAIが答えている。
グーグルは過去に眼鏡型デバイス「Google Glass」をリリースしているが、現在では開発を終了している。
しかしデモ映像では、あくまでイメージにはなるだろうが、AIが音声で回答するだけではなく、半透明の文字でも回答内容を示していた。
「動画で写したものも用いてAIとコミュニケーションを取る」機能自体は、前述のGemini Live等でも実装される予定。
一方でグーグルは14日に公開したブログの中でProject Astraについて以下のように説明しており、AI技術に最適なハードウェアも今後変わってくる可能性を示唆した。
「With technology like this, it’s easy to envision a future where people could have an expert AI assistant by their side, through a phone or glasses.」
(このような技術があれば、スマートフォンやメガネを通して、専門的なAIアシスタントを身近に持つことができる未来を容易に想像できます)