AI

Zoom AI、Humanity’s Last Exam(HLE)ベンチマークで新たな最先端ベンチマークを達成

複雑なAI評価における「協調型イノベーション」でさらに躍進

更新日 December 10, 2025

公開日 December 10, 2025

Zoom AI、Humanity’s Last Exam(HLE)ベンチマークで新たな最先端ベンチマークを達成
Xuedong Huang
Xuedong Huang
最高技術責任者

Xuedong Huang は弊社の最高技術責任者(CTO)です。Zoom に入社する前は、Microsoft に勤務し、Azure AI CTO 兼テクニカル フェローを務めていました。AI 分野でキャリアを積んできました。1993 年に Microsoft の音声テクノロジー グループを立ち上げ Microsoft AI チームを率いて、音声認識、機械翻訳、自然言語理解、コンピュータビジョンにおいて業界初の「人間に匹敵する画期的機能」を複数開発することに成功しました。IEEE および ACM のフェロー、全米技術アカデミーとアメリカ芸術科学アカデミーの選出メンバーでもあります。

1989 年、英国の ORS とエディンバラ大学からの奨学金支援によりエディンバラ大学で電気工学博士号を取得し、1984 年に清華大学でコンピュータサイエンス修士号、1982 年に湖南大学でコンピュータサイエンス学士号を取得しました。

ZoomのCTOとして、当社のAIの歩みにおける重要な節目をご報告できることを光栄に思います。本日、ZoomはAI分野で最も難度の高いベンチマークの一つである「Humanity’s Last Exam(HLE)ベンチマーク」のフルセット評価において、48.1%という新たな最先端(SOTA)スコアを達成しました。これは、Google Gemini 3 Pro(ツール統合時)の45.8%を2.3ポイント上回る成果です。
 
この成果は単なる数値の更新ではなく、AI Companion 1.0から次世代のAI Companion 3.0への進化を体現するものです。業界リーダーとのコラボレーションによって、誰もが恩恵を受けるイノベーションを推進できることを示しています。

HLEチャレンジとは

Humanity’s Last Exam(HLE)ベンチマークは、AIモデルが専門知識と高度な推論力をどの程度備えているかを多様な分野で評価する、最も厳格なテストのひとつです。単純なパターン認識に依存するテストとは異なり、HLEベンチマークでは真の理解、多段階の推論、複雑で相互に関連する問題を統合的に解決する能力が求められます。
 
このHumanity’s Last Exam(HLE)ベンチマークは、世界各国の専門家によって開発され、AIが高度な知的課題において人間レベルの能力へと近づいているかを測定するための重要な指標となっています。今回の48.1%という成果により、ZoomのフェデレーテッドAIアプローチが、この競争の激しい分野において最前線に立つことになりました。

先人たちの知見を礎に

私たちは、AI研究コミュニティが築いてきた素晴らしい知見を礎に、新たなイノベーションを創出しています。OpenAIによる革新的な研究成果を高く評価しており、同社のGPTモデルは自然言語の理解と生成の可能性を新たに切り開きました。GoogleのGemini 3 ProはマルチモーダルAIの可能性を大きく広げ、AnthropicのClaude Opus 4.5はエージェント機能への理解を一段と深めました。
 
私たちは、こうした進歩を競い合いではなく、協調と共創のチャンスと捉えています。AIの未来は孤立ではなく、知的な連携と統合の中にあるのです。

フェデレーテッドAIアプローチの進化

AI Companion 1.0の初期段階から、どれほど高度なモデルでも、単一のモデルだけではすべてのタスクに対応できないことを認識していました。この洞察から、複数のモデルの強みを活かしつつ、新しいアーキテクチャ革新を取り入れた高度な「フェデレーテッドAI」アプローチを開発しました。
 
このフェデレーテッドAIアプローチでは、Zoom独自の小型言語モデルに加え、先進的なオープンソースおよびクローズドソースのモデルを統合。独自の「Z-scorer」システムを活用し、最適な出力を選択・精度を高めています。このアプローチにより、次の3つの領域に注力しています。
 
  • タスク特化の卓越性: Zoomは、小規模言語モデルをタスクや業界ごとに最適化することで、領域特化型の卓越した性能を発揮します。
  • スピードとスケーラビリティ: 軽量モデルで高速な推論とスムーズな更新を実現します。
  • コスト効率の向上: 小型モデルにより必要なリソースを抑え、計算コストを削減します。

フェデレーテッドAIで切り拓く卓越性

私たちがHumanity’s Last Exam(HLE)ベンチマークで達成した最先端(SOTA)の成果は、高性能なモデルとその活用方法を刷新する新たなアプローチの融合によって実現しました。成功の鍵は、探求・検証・統合を効果的に導く戦略にあります。これは、柔軟な推論と厳密な検証のバランスを最適化する革新的なエージェント型ワークフローです。膨大な推論プロセスを生成するのではなく、最も有用で精度を高める推論パスを戦略的に見極め、重点的に追求します。
 
私たちのアプローチの中核となるのが、複数のLLMを連携させた「フェデレーテッドマルチLLMフレームワーク」です。多様なモデルが相互に生成・検証・改良を行い、対話的なコラボレーションを通じて推論の精度を高めます。このフレームワークでは、それぞれのモデルが固有の強みを発揮し、包括的な検証フェーズが全体の文脈を統合して最も正確な解を導き出します。
 
目的に応じた推論、文脈に基づく検証、そして連携による統合を組み合わせることで、将来のZoom AIはより深い理解と高い正確性、堅牢な性能を実現します。こうしたアプローチにより、最も高度で難易度の高いAIタスクでも優れた成果を発揮し、Humanity’s Last Exam(HLE)ベンチマークで新たなSOTA結果を達成しました。

ベンチマーク結果

HLEフルセットベンチマークでの成果は、フェデレーテッドAIの力を実証しています。

AIC 1.0からAIC 3.0へ: イノベーションへの道

この進化は、Zoomが現実のビジネス課題を解決するお客様を支援するという揺るぎない使命を体現しています。
 
  • AI Companion 1.0: 会議要約やアクション項目抽出など、AIによる基本的な支援機能の基盤を構築しました。
  • AI Companion 2.0: GmailやOutlookとの外部データ連携、Perplexityとの連携によるWeb検索機能を導入し、クロスプラットフォームでの利用を実現しました。
  • AI Companion 3.0: 情報検索、文書生成、ワークフロー自動化といったエージェント機能を備えたフェデレーテッドAIアプローチをさらに発展させ、複雑な推論タスクにおいてこれまでにない高い性能を発揮します。

現実の課題に挑み、未来を先取り

Humanity’s Last Exam(HLE)ベンチマークは、現在のAI分野で最も難易度の高い課題の一つであり、高度な推論力、文脈理解力、問題解決能力が求められます。今回達成した48.1%という結果から、単一モデルでは対応が難しい課題に対しても、フェデレーテッドAIアプローチが有効であることが分かります。
 
この進歩により、Zoomですぐに次のメリットを実感いただけます。
 
  • ミーティング要約やアクション項目抽出の精度向上
  • クロスプラットフォームでの情報検索・統合機能の強化
  • 複雑な複数ステップの業務プロセスを処理できる、AIエージェントによるワークフロー自動化の高度化

AIと共に築く未来

今回の成果は、AIの未来は「競争」ではなく、共に築くものであるという揺るぎない信念を改めて示しています。私たちは、業界の優れたイノベーションとZoom独自の研究成果を融合させ、個々の枠を超えた新たな価値を生み出します。
 
Zoomの躍進を支えてくださったAnthropic、Google、OpenAIの革新的な取り組みに、心より感謝いたします。これらの画期的な研究成果が、現実の職場課題に最適化された高度かつ効率的なソリューションを支える基盤となっています。
 
今後もZoomは、AIの可能性をさらに広げながら、透明性・協調性・責任を重視したAI開発を推進していきます。今回のSOTA達成は、共通の目標に向けて英知を結集することで生まれる成果の一角にすぎません。
 
 
Xuedong Huangは、Zoomの最高技術責任者(CTO)です。以前はMicrosoftでテクニカルフェロー兼Azure AI CTOを務めていました。また、米国工学アカデミーおよび米国芸術科学アカデミーの選出メンバーでもあります。

ご愛顧いただいているお客様

Okta
NASDAQ
楽天
Logicool
Western Union
オートデスク
Dropbox
Okta
NASDAQ
楽天
Logicool
Western Union
オートデスク
Dropbox

Zoom - すべてのつながりをひとつのプラットフォームで