昨今、目まぐるしい速度で進化しているChatGPTなどの生成AI。企業や学生はもはや当たり前のように活用しており、いかにAIをうまく取り扱うかが業務効率に大きく影響をおよぼしている。2023年12月7日(日本時間)に、Googleが生成AI「Gemini」を発表し、世界から注目を集めている。
画像や動画も処理できる、次世代生成AIが誕生
Google が開発した次世代生成AI「Gemini」は既存の生成AIツールと同様に、文章の要約やテキストの生成、プログラミングなどが可能。現時点では対応言語は英語のみだが、多言語対応のアップデートも予定されている。
特徴的なのはそのスペックで、同社はChatGPTなどにも活用されているモデル「GPT-4」より優れていることを明かした。また、高いスペックを誇るだけでなく、人間と同じようにテキストや音声、画像、動画などの複数の情報を統合して処理できる「マルチモーダル」を実現したという。マルチモーダルは、生成AIが目指すテーマのひとつであったが、技術的なハードルが高い代物であった。
しかし、Geminiは自社開発のサーバーを使って学習を進めたことで、文章だけでなく画像や動画を“論理的に”判断できるAI。
性能が異なる3つのモデルを用意
Geminiは「Ultra」「Pro」「Nano」の3つのモデルが用意される。Ultraは最も規模が大きく性能も高いモデルで、複雑なタスクにも対応。2024年初頭から一部パートナーに限定公開が予定されているが、本格的に利用できるようになるのは当分先のようだ。
中規模モデルのProは、同社の基盤AIになるとされており、Chromeや広告などでも展開を予定している。Googleが開発していた生成AIサービス「Bard」にも搭載予定で、多言語対応なども導入されるようだ。また、ProではなくUltraを組み込んだ上位版の「Bard Advanced」も提供される。
Nanoは、最もサイズが小さいモデルで、スマホ用の「オンデバイスAI」としての活用を目的に開発された。「Google Pixel 8 Pro」では、その性能の一端を垣間見ることができる。録音アプリでは、録音した内容の要約を作成できるようになり、テキスト入力アプリ「Gboard」の機能のひとつで返信候補をAIが提案してくれる「スマートリプライ」も強化。自然かつスムーズな返信を提案してもらえるという。
引用元:【Google Product and Technology News and Stories】
引用元:【Google Japan Blog】
※サムネイル画像は(Image:「Google Japan Blog」より引用)