AI Companion

我們如何準備好迎接 AI 的下一個時代

Zoom 的 CTO 黃學東討論了小型語言模型（SLM）如何推動我們的願景，讓 AI 代理透過聯合式協作，進而提升您的日常工作效率。

更新日期 February 25, 2025

發佈日期 February 19, 2025

在此網路日誌中

01 什麼是代理型 AI？ - Jumplink to 什麼是代理型 AI？
02 我們全新的小型語言模型（SLM）如何與現今的大型語言模型（LLM）匹敵 - Jumplink to 我們全新的小型語言模型（SLM）如何與現今的大型語言模型（LLM）匹敵
03 Zoom 準備好迎接代理型 AI 時代 - Jumplink to Zoom 準備好迎接代理型 AI 時代

黃學東

技術長

黃學東是技術長 (CTO)。加入 Zoom 之前，他曾在 Microsoft 擔任 Azure AI 技術長和技術研究員。他在人工智慧領域的職業生涯十分輝煌：於 1993 年創立了微軟語音技術小組，領導微軟人工智慧團隊在語音辨識、機器翻譯、自然語言理解和電腦視覺領域實現了多個業界首個堪與人類匹敵的里程碑，是 IEEE 會員和 ACM 院士，並當選為美國國家工程院和美國藝術與科學院院士。

學東於 1989 年獲得愛丁堡大學電子工程博士學位 (英國 ORS 和愛丁堡大學獎學金資助)，1984 年獲得清華大學電腦科學碩士學位，1982 年獲得湖南大學電腦科學學士學位。

在 Zoom，我們始終專注於創新，其推動我們不斷探索透過 Zoom AI Companion 進行 AI 優先轉型。在過去的一年裡，我分享了我們的聯合式方法如何提供高品質的結果，以及我們對語音辨識品質的關注，如何為我們其他的 AI 功能打下更紮實的基礎。隨著 AI 不斷進步，我們也正在加速採用代理型 AI。

截至目前為止，AI 一向依賴大型語言模型（LLM）回應使用者提示，並提供生成式回應。然而，當我們考慮小型語言模型（SLM）如何實現客製化 AI 代理時，便會發現當中蘊含許多機會。我們目前正在建立 AI Companion 支援代理型 AI，可望代表您管理一系列的多步驟操作。

當我們將 AI 視為代理，而非獨立的技能和回應時，便意味著它們不僅僅是輸入提示來提供簡單的結果，反而應該成為我們和自身目標的一種延伸。為了實現這項目標，我們的 AI 代理具有以下特徵：

推理和規劃：分析情況並制定策略。它能夠以充滿遠見和智慧的方式自主追求目標。
記憶與反思：從過去汲取經驗並調整策略，促進類似於人類發展的自主自我成長。
動作執行：使用正確的工具將意圖轉化為現實世界的效果。
多代理協作：委派和管理技能或透過多代理實現目標。

為了實現這些 AI 代理，我們很高興宣布在這段旅程中的重要里程碑：我們新開發的小型語言模型（SLM）在公開基準排行榜的 20 億參數類別中達到了最先進的性能。透過 Zoom 即將推出的 AI Studio 進行客製化，我們正在設計 Zoom 的 SLM，以在專業工作負載中達到業界領先的 LLM 品質。此舉將為 AI Companion 與多個 AI 代理一起，以無與倫比的成本效益執行複雜的代理型 AI 任務鋪路。

在 Zoom 的聯合式 AI 方法中，我們提倡協調多個客製化模型，而非依賴單一、全面的大型模型。Zoom 的 SLM 旨在透過針對特定任務進行最佳化來強化這種方法。透過在客製化的 SLM 與相應的代理之間分配工作負載，同時利用領先的 LLM，我們的目標是實現以下幾項重要的優勢：

特定任務的卓越性：每個代理都可以使用適當的領域資料和微調方法進行精確優化，以滿足特定的性能標準。
速度和可擴展性：更緊湊的模型更易於自訂、維護和擴展，進而加快推理和更新速度。
成本效益：客製化的較小模型僅需較少的運算資源，便能降低開發成本。

讓我們來討論這項突破的背後意義，以及它如何與領先模型匹敵。

為了創建 Zoom 的 SLM，我們使用了 6 兆個多語言資料權杖和 256 個 Nvidia H100 GPU。從開始到結束，整個訓練週期大約持續了 30 天。以下表格根據我們的內部測試，說明了 Zoom 的 SLM 功能如何在多個公共基準測試中與其他模型匹敵：

MMLU：透過涵蓋 57 個不同學科（從數學和歷史，到法律和倫理）的多項選擇題來評估語言模型，測試廣泛事實和概念理解。
MMLU-專業版：這項基準測試是 MMLU 的專業延伸，專注於高品質的 STEM 問題和專門的推理挑戰，進而推動模型展示更深層次的技術熟練度。
GPQA：這項具有挑戰性的資料集，包含 448 個由生物學、物理學和化學領域專家精心設計的多項選擇題，旨在嚴格評估特定領域的專業知識。
BBH：專注於極具挑戰性的認知和解決問題任務，進而評估語言模型的高階推理與理解能力。

根據社群的常見做法，我們使用 Lighteval 工具來評估這些基準的準確性，該工具在 MMLU 和 MMLU-專業版上提供了 5 個範例，在 GPQA 上提供了 2 個範例，在 BBH 上提供了 3 個範例。

*表 1：Zoom SLM 與 2B 類別中其他 SLM 的比較，分數越高越好。*

一般而言，SLM 在這些品質衡量標準的競爭力仍不如領先的 LLM（例如 OpenAI 推出的 GPT-4o-mini），且未針對特定領域或某項任務進行客製化，如表 2 所示。

*表 2：未進行客製化的 Zoom SLM*，*相較於 2B 類別以外的 LLM（例如 OpenAI 推出的 GPT-4o-mini）競爭力較低。*

然而，最有趣的結果是這些 SLM 在為專門任務進行客製化時，可以提供卓越的功能。透過 Zoom 的 AI Studio 客製化功能，我們期許能有效縮小與更昂貴的 LLM 之間的品質差距。客製化 SLM 可以作為專門的代理，與 LLM 協作執行關鍵任務，優先提升每個 AI 代理的準確性、速度和成本效益。

客製化的 SLM 可以在機器翻譯等任務中表現出色。透過使用專為機器翻譯設計的 115 億個權杖（包括合成資料）調整 SLM，我們顯著提升了廣泛採用的 COMET-22 品質指標，其中涵蓋 14 種語言配對，包括中文、英文、法文、日文、葡萄牙文和西班牙文等主要語言，如表 3 所示。

我們的 SLM 也提供客製化，以支援 AI Companion 的代理型 AI 基準用於插槽解碼，該基準衡量了模型在動作執行時詮釋使用者指令的能力。如表 3 所示，客製化的 SLM 擁有 20 億個用於代理型 AI 領域資料的合成權杖，其效能也優於 GPT-4o-mini。

這種效率與適應性的結合，旨在讓 Zoom 將我們大幅改進的機器翻譯廣泛造福全球客戶，並支援 Zoom AI Studio 為特定代理型 AI 工作負載進行客製化。