AI Companion

AI の次の時代に向けて準備を整える方法

Zoom の CTO である Xuedong Huang が、AI エージェントがフェデレーテッドアプローチによって連携し、日常タスクを改善するというビジョンを、小規模言語モデル（SLM）がどのように推進するかについて語ります。

更新日 February 25, 2025

公開日 February 19, 2025

本ブログの内容

01 エージェンティック AI とは - Jumplink to エージェンティック AI とは
02 新しい SLM と現在の LLM との比較 - Jumplink to 新しい SLM と現在の LLM との比較
03 エージェンティック AI 時代の Zoom セットアップ - Jumplink to エージェンティック AI 時代の Zoom セットアップ

Xuedong Huang

最高技術責任者

Xuedong Huang は弊社の最高技術責任者（CTO）です。Zoom に入社する前は、Microsoft に勤務し、Azure AI CTO 兼テクニカルフェローを務めていました。AI 分野でキャリアを積んできました。1993 年に Microsoft の音声テクノロジーグループを立ち上げ Microsoft AI チームを率いて、音声認識、機械翻訳、自然言語理解、コンピュータビジョンにおいて業界初の「人間に匹敵する画期的機能」を複数開発することに成功しました。IEEE および ACM のフェロー、全米技術アカデミーとアメリカ芸術科学アカデミーの選出メンバーでもあります。

1989 年、英国の ORS とエディンバラ大学からの奨学金支援によりエディンバラ大学で電気工学博士号を取得し、1984 年に清華大学でコンピュータサイエンス修士号、1982 年に湖南大学でコンピュータサイエンス学士号を取得しました。

Zoom では引き続きイノベーションに注力しており、Zoom AI Companion による AI ファーストの変革を継続的に探求しています。昨年は、Zoom のフェデレーテッドアプローチが高品質な成果を生み出す方法や、音声認識の品質に焦点を当てることでほかの AI 機能の優れた基盤作りになる方法について言及してきました。人工知能が進歩し続ける中で、エージェンティック AI の導入も加速させています。

これまで人工知能は、大規模言語モデル（LLM）を活用することでユーザープロンプトに応答し、回答を生成してきました。ですが、SLM によって AI エージェントをカスタマイズできる仕組みについて考えると、さらにチャンスは広がります。AI Companion は、エージェンティック AI をサポートし、お客様に代わって一連のマルチステップアクションを管理するよう構築されています。

AI をスタンドアロンのスキルや応答機能ではなくエージェントだと捉えれば、プロンプトを入力して簡単な結果を生成するだけのものではなく、自分自身やその目的の延長線上にあるべきものだと考えられます。そのために、Zoom の AI エージェントには次のような特徴があります。

推論と計画: 状況を分析し、戦略を立案します。先見性とインテリジェンスを駆使して自律的に目標を追求できます。
記憶と反省: 過去から学習して戦略を適応させ、人間の発達に似た自律的な成長を促進します。
行動の実行: 適切なツールを使用して、インテントを現実世界の効果に変えます。
マルチエージェントのコラボレーション: 目標を達成するために、スキルやマルチエージェントを委任および管理します。

こうした AI エージェントを実現させるための取り組みの中で、皆様にお知らせしたい重要なできごとがあります。Zoom が新しく開発した小規模言語モデル（SML）は、公開ベンチマークリーダーボードにおける 20 億のパラメータカテゴリ内で最先端のパフォーマンスを発揮しました。近日公開予定の Zoom AI Studio によるカスタマイズを通じて、Zoom の SLM は、特殊なワークロードにおいて業界をリードする LLM の品質に近づけるように設計されています。これにより AI Companion が、複数の AI エージェントが協力してこなす複雑なエージェンティック AI タスクを、比類ない費用対効果で実行できる道が開かれます。

Zoom のフェデレーテッドアプローチでは、単一の包括的な大規模モデルに依存するよりも、複数のカスタマイズモデルをオーケストレーションすることを提唱しています。Zoom の SLM は、特殊なタスク向けに最適化することで、このアプローチを強化するよう設計されています。カスタマイズされた SLM とそれに対応するエージェントにワークロードを分散させると同時に、主要な LLM も活用することで、いくつかの重要な利点を享受することを目指しています。

タスクに特化した卓越性: 各エージェントは、適切なドメインデータと、特定のパフォーマンス基準を満たすための微調整アプローチを使用して、正確に最適化できます。
スピードと拡張性: よりコンパクトなモデルになることでカスタマイズ、メンテナンス、スケーリングが簡単になり、より迅速な推論と更新が可能になります。
費用対効果: カスタマイズされた小規模モデルでは、必要な計算リソースが減り、開発コストも削減されます。

この画期的な進歩が何を意味するのか、また、主要モデルと具体的に比較した結果はどのようなものなのかについてご紹介します。

Zoom の SLM 開発には、6 兆トークンの多言語データと 256 個の Nvidia H100 GPU が使用されました。トレーニングサイクルの開始から終了までの所要期間は約 30 日でした。以下の表は、Zoom の SLM 機能とほかのモデルとを、Zoom の内部テストに基づくいくつかの公開ベンチマークで比較したものです。

MMLU: 数学、歴史、法律、倫理など、57 の異なる教科にまたがる多肢選択問題で言語モデルを評価し、事実や概念に関する幅広い理解をテストします。
MMLU-Pro: MMLU の拡張版であるこのベンチマークは、高品質の STEM 問題と専門的な推論の課題に焦点を当て、モデルがより深い技術的熟練度を示すよう促します。
GPQA: 生物学、物理学、化学の各分野の専門家によって作成された 448 の選択式問題で構成される難易度の高いデータセットで、分野固有の専門知識を厳密に評価するように設計されています。
BBH: 特に要求の厳しい認知および問題解決タスクに焦点を当て、言語モデルにおける高度な推論と理解能力を評価します。

コミュニティの一般的な慣行に従って、Lighteval ツールを使用してこれらのベンチマークの精度を評価しました。このツールでは、MMLU と MMLU-Pro の例が 5 ショット、GPQA の例が 2 ショット、BBH の例が 3 ショット提供されています。

*表 1: Zoom SLM と 2B カテゴリのほかの SLM との比較（スコアが高いほどよい）。*

一般的に、SLM は特定のドメインやタスクのためにカスタマイズすることがなく、OpenAI の GPT 4o-mini のような主要 LLM に比べ、これらの品質指標における競争力は低いままです（表 2 を参照）。

*表 2: カスタマイズなしの Zoom SLM は*、*OpenAI GPT 4o-mini などの 2B カテゴリを越える LLM との競争力が低くなります。*

しかし、これらの SLM が専門的なタスクのためにカスタマイズされると、卓越した能力を発揮するという非常に興味深い結果があります。Zoom AI Studio でカスタマイズすることにより、より高価な LLM との品質差を効果的に縮めることができると期待されています。カスタマイズされた SLM は、LLM とのオーケストレーションにおいて各 AI エージェントの精度、スピード、費用対効果の向上を優先することで、主要なタスクを実行する専門エージェントとして機能できます。

カスタマイズされた SLM は、機械翻訳のようなタスクで優れた能力を発揮します。機械翻訳用に設計された 115 億トークン（合成データを含む）を SLM に適合させることで、中国語、英語、フランス語、日本語、ポルトガル語、スペイン語などの主要言語を含む 14 の言語ペアで、広く採用されている COMET-22 品質指標を大幅に改善しました（表 3 を参照）。

また、Zoom の SLM は、AI Companion のエージェンティック AI ベンチマークのスロットデコーディングをサポートするようにカスタマイズすることもできます。これは、モデルがアクション実行時にユーザーコマンドをどれぐらい解釈できるかを測定するものです。エージェンティック AI ドメインデータとして 20 億個の合成トークンを使用した場合、表 3 に示すように、カスタマイズされた SLM は GPT-4o-mini も上回りました。

この効率性と適応性の組み合わせにより、Zoom は大幅に改善された機械翻訳を世界中のお客様に提供できるだけでなく、Zoom AI Studio が特定のエージェンティック AI ワークロード用にカスタマイズするのをサポートできるように設計されています。

*表 3: カスタマイズされた Zoom SLM と OpenAI GPT-4o-mini の比較（スコアが高いほどよい）。*

これらのカスタマイズされた SLM は、Zoom の AI エージェントの基幹となり、現在人々が使用している高価な LLM に匹敵する成果を、さらに効率的にもたらします。Zoom のフェデレーテッド AI を使用することで、これらの AI エージェントとスキルは、比類のない効率性、コスト、精度を推進するのに役立ちます。

Zoom は進歩に誇りを持っていますが、これはまだ序章にすぎません。当社のビジョンは、費用対効果が高く、高パフォーマンスなソリューションを提供する AI エージェントをすべての組織に提供することです。AI エージェントと SLM の追加機能により、AI Companion は、より多くの成果をあげ、最高の仕事ができる職場作りをお手伝いします。