自然な会話を可能にする音声対話機能「Gemini Live」とは

News

「Gemini Live」は、Googleが提供する、AIアシスタント「Gemini」の新機能で、ユーザーとリアルタイムで自然な会話を可能にする音声対話機能です。

Gemini Liveは、Android利用者、Gemini Advance加入者を対象に、2024年8月13日から英語版が提供されていて、徐々に、iOS対応や多くの言語に拡大する予定です。

特徴としては、Gemini Liveはハンズフリーで使用でき、バックグラウンドや画面ロック中でも会話を続けることが可能で、会話の途中で質問を深掘りしたり、会話を一時停止して、時間をおいて再開することもできます。

Gemini Liveは、音声応答のスピードが速く、自然な会話ができることが特徴で、ユーザーは10種類の異なる音声から選択することができます。

この機能は、日常のタスクを効率的に処理するために、Googleのアプリやツール(GmailやGoogleカレンダーなど)とシームレスな統合が可能で、日常のタスクを効率的に処理することができ、将来的にはマルチモーダルな体験を提供することも目指しています。

基本となるGeminiの無料版と有料版の違いは

無料版(Gemini): 日常的なタスクや、簡単な情報収集に適した基本的なAIモデルで、40ヵ国語に対応していて、翻訳、文章の要約、簡単な質問への回答などが可能です。

有料版(Gemini Advanced): 月額2,900円(2ヶ月間の無料トライアルあり)、より高度なタスクに対応できる高性能なAIモデルで、推論、理解、コーディングなどの能力が大幅に向上していて、プログラミングコードの生成など、専門的な知識や技術が必要なタスクに対応できます。

これにより、無料版は基本的な機能を提供し、有料版はより専門的で高度な機能を提供するという違いがあります。

Gemini Liveの音声対話機能は、高度な音声認識と生成技術を用いて、ユーザーが人間の専門家と話しているかのように、実際の会話とほぼ変わらない流れで、AIとのインタラクションが可能です。

Gemini Liveの課題として挙げられている事は、現在進められている多言語対応の強化が、どの程度まで実現されるか、異なる言語、異なるアクセントでの自然な会話を、どのように実現するか、実際の使用環境(特に雑音の多い環境など)で、どの程度の精度を維持できるか、これらの課題に対処することで、さらにユーザーにとって有用で信頼性の高いAIアシスタントになることが期待されています。