
新しい AI アシスタント、Zoom AI Companion が登場!
Zoom AI Companion で、生産性とチームのコラボレーションを向上させましょう。該当する有料の Zoom プランがあれば追加料金なしでご利用いただけます。
Zoom の CTO である Xuedong Huang が、AI エージェントがフェデレーテッド アプローチによって連携し、日常タスクを改善するというビジョンを、小規模言語モデル(SLM)がどのように推進するかについて語ります。
更新日 February 25, 2025
公開日 February 19, 2025
Xuedong Huang は弊社の最高技術責任者(CTO)です。Zoom に入社する前は、Microsoft に勤務し、Azure AI CTO 兼テクニカル フェローを務めていました。AI 分野でキャリアを積んできました。1993 年に Microsoft の音声テクノロジー グループを立ち上げ Microsoft AI チームを率いて、音声認識、機械翻訳、自然言語理解、コンピュータ ビジョンにおいて業界初の「人間に匹敵する画期的機能」を複数開発することに成功しました。IEEE および ACM のフェロー、全米技術アカデミーとアメリカ芸術科学アカデミーの選出メンバーでもあります。
1989 年、英国の ORS とエディンバラ大学からの奨学金支援によりエディンバラ大学で電気工学博士号を取得し、1984 年に清華大学でコンピュータ サイエンス修士号、1982 年に湖南大学でコンピュータ サイエンス学士号を取得しました。
Zoom では引き続きイノベーションに注力しており、Zoom AI Companion による AI ファーストの変革を継続的に探求しています。昨年は、Zoom のフェデレーテッド アプローチが高品質な成果を生み出す方法や、音声認識の品質に焦点を当てることでほかの AI 機能の優れた基盤作りになる方法について言及してきました。人工知能が進歩し続ける中で、エージェンティック AI の導入も加速させています。
これまで人工知能は、大規模言語モデル(LLM)を活用することでユーザー プロンプトに応答し、回答を生成してきました。ですが、SLM によって AI エージェントをカスタマイズできる仕組みについて考えると、さらにチャンスは広がります。AI Companion は、エージェンティック AI をサポートし、お客様に代わって一連のマルチステップ アクションを管理するよう構築されています。
AI をスタンドアロンのスキルや応答機能ではなくエージェントだと捉えれば、プロンプトを入力して簡単な結果を生成するだけのものではなく、自分自身やその目的の延長線上にあるべきものだと考えられます。そのために、Zoom の AI エージェントには次のような特徴があります。
こうした AI エージェントを実現させるための取り組みの中で、皆様にお知らせしたい重要なできごとがあります。Zoom が新しく開発した小規模言語モデル(SML)は、公開ベンチマーク リーダーボードにおける 20 億のパラメータ カテゴリ内で最先端のパフォーマンスを発揮しました。近日公開予定の Zoom AI Studio によるカスタマイズを通じて、Zoom の SLM は、特殊なワークロードにおいて業界をリードする LLM の品質に近づけるように設計されています。これにより AI Companion が、複数の AI エージェントが協力してこなす複雑なエージェンティック AI タスクを、比類ない費用対効果で実行できる道が開かれます。
Zoom のフェデレーテッド アプローチでは、単一の包括的な大規模モデルに依存するよりも、複数のカスタマイズ モデルをオーケストレーションすることを提唱しています。Zoom の SLM は、特殊なタスク向けに最適化することで、このアプローチを強化するよう設計されています。カスタマイズされた SLM とそれに対応するエージェントにワークロードを分散させると同時に、主要な LLM も活用することで、いくつかの重要な利点を享受することを目指しています。
この画期的な進歩が何を意味するのか、また、主要モデルと具体的に比較した結果はどのようなものなのかについてご紹介します。
Zoom の SLM 開発には、6 兆トークンの多言語データと 256 個の Nvidia H100 GPU が使用されました。トレーニング サイクルの開始から終了までの所要期間は約 30 日でした。以下の表は、Zoom の SLM 機能とほかのモデルとを、Zoom の内部テストに基づくいくつかの公開ベンチマークで比較したものです。
コミュニティの一般的な慣行に従って、Lighteval ツールを使用してこれらのベンチマークの精度を評価しました。このツールでは、MMLU と MMLU-Pro の例が 5 ショット、GPQA の例が 2 ショット、BBH の例が 3 ショット提供されています。
表 1: Zoom SLM と 2B カテゴリのほかの SLM との比較(スコアが高いほどよい)。
一般的に、SLM は特定のドメインやタスクのためにカスタマイズすることがなく、OpenAI の GPT 4o-mini のような主要 LLM に比べ、これらの品質指標における競争力は低いままです(表 2 を参照)。
表 2: カスタマイズなしの Zoom SLM は、OpenAI GPT 4o-mini などの 2B カテゴリを越える LLM との競争力が低くなります。
しかし、これらの SLM が専門的なタスクのためにカスタマイズされると、卓越した能力を発揮するという非常に興味深い結果があります。Zoom AI Studio でカスタマイズすることにより、より高価な LLM との品質差を効果的に縮めることができると期待されています。カスタマイズされた SLM は、LLM とのオーケストレーションにおいて各 AI エージェントの精度、スピード、費用対効果の向上を優先することで、主要なタスクを実行する専門エージェントとして機能できます。
カスタマイズされた SLM は、機械翻訳のようなタスクで優れた能力を発揮します。機械翻訳用に設計された 115 億トークン(合成データを含む)を SLM に適合させることで、中国語、英語、フランス語、日本語、ポルトガル語、スペイン語などの主要言語を含む 14 の言語ペアで、広く採用されている COMET-22 品質指標を大幅に改善しました(表 3 を参照)。
また、Zoom の SLM は、AI Companion のエージェンティック AI ベンチマークのスロット デコーディングをサポートするようにカスタマイズすることもできます。これは、モデルがアクション実行時にユーザー コマンドをどれぐらい解釈できるかを測定するものです。エージェンティック AI ドメインデータとして 20 億個の合成トークンを使用した場合、表 3 に示すように、カスタマイズされた SLM は GPT-4o-mini も上回りました。
この効率性と適応性の組み合わせにより、Zoom は大幅に改善された機械翻訳を世界中のお客様に提供できるだけでなく、Zoom AI Studio が特定のエージェンティック AI ワークロード用にカスタマイズするのをサポートできるように設計されています。
表 3: カスタマイズされた Zoom SLM と OpenAI GPT-4o-mini の比較(スコアが高いほどよい)。
これらのカスタマイズされた SLM は、Zoom の AI エージェントの基幹となり、現在人々が使用している高価な LLM に匹敵する成果を、さらに効率的にもたらします。Zoom のフェデレーテッド AI を使用することで、これらの AI エージェントとスキルは、比類のない効率性、コスト、精度を推進するのに役立ちます。
Zoom は進歩に誇りを持っていますが、これはまだ序章にすぎません。当社のビジョンは、費用対効果が高く、高パフォーマンスなソリューションを提供する AI エージェントをすべての組織に提供することです。AI エージェントと SLM の追加機能により、AI Companion は、より多くの成果をあげ、最高の仕事ができる職場作りをお手伝いします。