Zoom AI：拓展挑战边界，重新定义可能

Zoom 以多项重大 AI 突破为 2025 年画上句号。我们的联邦式架构研究现已在复杂推理与搜索基准测试中超越领先的前沿模型，证明通过协同调度多个系统，能够实现跨行业更深层次的准确性与可靠性。

7 阅读分钟数

更新日期 December 29, 2025

发布日期 December 29, 2025

在此博客中

01 DeepSearchQA - Jumplink to DeepSearchQA
02 借助新前沿模型实现规模扩展 - Jumplink to 借助新前沿模型实现规模扩展
03 对代理式 AI 的意义 - Jumplink to 对代理式 AI 的意义

黄学东

首席技术官

黄学东担任首席技术官 (CTO)。在加入 Zoom 之前，他曾在 Microsoft 担任 Azure AI 首席技术官和技术研究员。他在人工智能领域的职业生涯十分耀眼：1993 年，他组建了 Microsoft 的语音技术团队，带领 Microsoft 的人工智能团队在语音识别、机器翻译、自然语言理解和计算机视觉领域取得了多项业界首个达到人类水平的里程碑式成就，他还是电气与电子工程师协会 (IEEE) 和美国计算机协会 (ACM) 会士，并当选为美国国家工程院和美国艺术与科学院院士。

黄学东于 1989 年获得爱丁堡大学电子工程博士学位（获得英国 ORS 和爱丁堡大学奖学金资助），1984 年获得清华大学计算机科学硕士学位，1982 年获得湖南大学计算机科学学士学位。

2025 年即将结束，我自豪地回顾团队在推进 Zoom AI 能力方面取得的进展：这一切始于我们早期在“人类的最后一场考试”（HLE）基准测试上的工作 — 这是一项旨在检验 AI 推理与专家级理解能力的严格评估。如今，这一进展已转化为在多项评估中更广泛的性能提升，进一步证明我们的专有智能体联邦式 AI 能够在超出任何单一前沿模型能力边界的情况下带来显著改进。

我们在研究环境中，将 Zoom 的联邦式 AI 方法应用于 Google 全新的 DeepSearchQA 基准测试：该测试旨在评估 AI 智能体在 17 个不同领域执行复杂、多步骤信息检索任务的能力。该基准于 2025 年 12 月 11 日与新版 Gemini Deep Research 同步发布，其挑战性不再停留在单一答案检索或广泛事实性评估层面。

DeepSearchQA 则采用一组高难度、人工精心设计的任务数据集，用于评估智能体执行复杂搜索计划并生成详尽答案列表的能力。测试中，Zoom 的联邦式 AI 取得 76.3% 的准确率，超过此前的业界最佳 66.1%。

这一提升揭示了一个关键洞察：其核心价值在于 AI 如何被系统性地构建与应用。通过我们专有的、基于“探索-验证-联邦”工作流的智能体联邦框架，在内部测试中协同调度 OpenAI GPT-5 和 Gemini 3 Pro Preview，我们的目标是提供比单一模型更深入的推理覆盖与更可靠的事实综合能力。

模型/系统	DeepSearchQA 准确率
Zoom 联邦式 AI (GPT-5 + Gemini 3 Pro Preview)	76.3%
Google Gemini Deep Research 智能体	66.1%
OpenAI GPT‑5 Pro	65.2%
OpenAI GPT-5	59.4%
Google Gemini 3 Pro Preview	56.6%
Anthropic Claude Opus 4.5（思考模式）	24.0%

第三方基准测试结果，最后更新于 2025 年 12 月 10 日

此次飞跃表明，Zoom 的联邦系统并非普通的模型集成，而是一个可扩展的推理系统，能够适应不同难度与领域。推动我们“人类终极考试”取得突破的原理，同样适用于那些可靠性与推理深度比延迟更重要的企业级智能体应用场景。

我们的创新不在于再构建一个单体大模型，而在于将最优模型连接成一个更强调提升可靠性与协同调度能力的系统，而非单纯追求规模。 

随着新的前沿 AI 模型不断涌现，该架构也在持续扩展，能够在各类任务、行业与应用中提供更智能、更以人为本的智能能力。随着 OpenAI 发布新版 GPT-5.2，Zoom 联邦式 AI 研究将 HLE 全集准确率从 48.1% 提升至 53.0%，再次超越所有单一前沿模型。

模型/系统	HLE 全集准确率
Zoom 联邦式 AI (GPT-5.2 + Gemini 3 Pro Preview)	53.0%
OpenAI GPT‑5.2 Pro	50.0%
Zoom 联邦式 AI (GPT-5 + Gemini 3 Pro Preview)	48.1%
Google Gemini Deep Research 智能体	46.4%
Google Gemini 3 Pro Preview	45.8%
OpenAI GPT‑5.2	45.5%
Anthropic Claude Opus 4.5	43.2%
OpenAI GPT-5 Pro	42.0%
OpenAI GPT-5	35.2%

这些突破性成果表明，Zoom 的联邦式 AI 方法正在推动先进模型的编排方式发生重要变化。该方法突破单一模型的局限，构建了更稳健的框架，将对代理式 AI 以及 Zoom AI Companion、Zoom Virtual Agent 的演进带来重要影响。

Zoom 的专有智能体联邦技术，已为新一代能够应对人类最复杂挑战的 AI 智能体奠定了基础。尽管这些基准测试成绩是一项重要里程碑，我们仍将持续优化延迟，以帮助该联邦式架构在多样化的真实应用场景中释放更大的价值。

黄学东是 Zoom 的首席技术官。他此前曾任微软技术院士及 Azure AI 首席技术官。他是美国国家工程院及美国艺术与科学院院士。

基准测试结果说明：上述指标反映了 Zoom 基于前沿 AI 模型的持续研究成果。所引用的模型可能仍在测试中，以备未来集成至 Zoom 面向客户的联邦式 AI 部署方案。