AI Companion 會議與聊天

將 AI 品質放在第一位，以增強無障礙存取和協作能力

Zoom 在語音辨識和 AI 生成會議智慧品質方面領先於受測競爭對手

發佈日期 2024年11月14日

在此網路日誌中

01 準確的語音辨識是 Zoom AI 的基礎 - Jumplink to 準確的語音辨識是 Zoom AI 的基礎
02 Zoom 提供更準確的轉錄文字以支援 AI 功能 - Jumplink to Zoom 提供更準確的轉錄文字以支援 AI 功能
03 堅實的轉錄文字功能可為下游 AI 功能創造更好的基礎 - Jumplink to 堅實的轉錄文字功能可為下游 AI 功能創造更好的基礎
04 Zoom 提供更好、更公平的會議體驗 - Jumplink to Zoom 提供更好、更公平的會議體驗

黃學東

技術長

黃學東是技術長 (CTO)。加入 Zoom 之前，他曾在 Microsoft 擔任 Azure AI 技術長和技術研究員。他在人工智慧領域的職業生涯十分輝煌：於 1993 年創立了微軟語音技術小組，領導微軟人工智慧團隊在語音辨識、機器翻譯、自然語言理解和電腦視覺領域實現了多個業界首個堪與人類匹敵的里程碑，是 IEEE 會員和 ACM 院士，並當選為美國國家工程院和美國藝術與科學院院士。

學東於 1989 年獲得愛丁堡大學電子工程博士學位 (英國 ORS 和愛丁堡大學獎學金資助)，1984 年獲得清華大學電腦科學碩士學位，1982 年獲得湖南大學電腦科學學士學位。

科技可成為強大的等化器，AI 也不例外。它能幫助我們完成以前無法完成的事情。隨著我們持續為 Zoom Workplace 打造 AI 特色和功能，我們始終關注產品如何幫助賦能客戶，並致力於提供最高品質的成果，以便客戶在工作中實現高效率和成功。

我們的客戶在金融服務、健康照護、教育、政府等產業中使用 Zoom Workplace 的 AI 功能。如今，在教育領域與大學中，學生和教師已使用 Zoom 的 AI 功能來提升課堂的無障礙存取能力。在健康照護領域，人們則透過虛擬預約，並使用轉錄文字和摘要功能來擴大健康照護的可及性。

AI 的運用讓科技更平易近人，不僅能用於聽障人士的字幕顯示，而且也可以打破語言障礙。當我 35 年前在蘇格蘭愛丁堡求學且還在學習英語時，我不僅在觀看 BBC 時受益於字幕功能，這種功能也向我展示了準確的字幕和翻譯，可以為世界各地的人們帶來什麼影響。AI 的使用已經非常廣泛，我們希望繼續提高品質，以為更多人開啟可能性。

我們在會議轉錄文字方面的成功是這趟旅程的一部分，它涉及 AI 如何增強個人自身的技能和經驗等方面，以幫助他們走得更長遠。這可能包含會議或網路研討會中的自動化生成即時字幕、將即時字幕翻譯為另一種語言，或用於會議轉錄以生成會議摘要、智慧錄製、行動要項等。在全球商業環境中打造更便利、更公平的會議體驗，將讓每個人都能受惠。

今年稍早，我分享了我們對 AI 的聯邦式方法如何以更少的費用達到或超越其他 AI 模型。今天，我很高興分享近期由 TestDevLab 委託的 Zoom AI 效能評估結果，相較於其他受測人工智慧工具，該評估進一步鞏固了 Zoom 成為語音識別和會議智慧領域的領導者。

我們的 AI 功能可順暢整合工作和網頁資訊，為 Zoom Workplace 體驗提供令人印象深刻的升級。雖然 AI 功能整合至 Zoom Workplace 有許多方式，但其中一個方面為我們最廣泛使用的 AI 功能提供了支援，包括會議摘要、行動要項和轉錄文字。

這些 AI 功能的有效性，取決於它們擷取的轉錄文字準確性。我們的許多熱門功能，例如提出會議中問題，都依賴高品質的語音辨識功能。可靠的轉錄文字可讓 AI 準確地擷取名稱、主題和意圖，構成摘要、重點和可據以行動見解的骨幹。

用於衡量轉錄文字準確性的產業標準為字詞錯誤率（WER），該標準可比較人工生成轉錄和 AI 生成轉錄間的差異百分比。近年來，Zoom 一直致力於將我們的 AI 架構現代化，以最大程度地降低 WER。透過最大程度地降低 WER，我們得以建立精準、可靠的轉錄文字，進而幫助我們的客戶推動有效、可執行的結果。

*在 WER 分析中，紅色文字代表錯失的字詞，藍色文字代表來源轉錄文字中找不到的字詞。*

結果很明確：Zoom 的表現優於 Microsoft Teams，具有明顯較低的 WER，並實現更高的轉錄文字準確度。在每個字詞都至關重要的會議中，即使是輕微的轉錄文字錯誤也可能會對會議期間的摘要、工作或問題的答案產生很大的影響。

以下是 TestDevLab 建立和執行這些測試的方式：

他們使用了三場錄製的會議，與會者人數從 2 至 16 名不等。
在連接到通話的個別電腦上同步播放檔案。
為了確保一致性，每場測試都在每個平台上重複五次。

在每場測試中，他們會比較 Zoom Workplace 和 Microsoft Teams，並測量每個會議的字詞錯誤率。

會議摘要和轉錄文字是許多 AI 平台上最受歡迎和最常用的功能之一。由於這種功能被廣泛使用，因此盡可能確保減少錯誤更為重要。該功能因為能節省時間而廣受歡迎，並且人們發現在閱讀、摘要和更理解重要資訊方面，這種功能非常有價值。

TestDevLab 也在會議摘要品質和對話式 AI (例如答案穩定性) 方面針對 Zoom Workplace 和 Microsoft Team 做了評鑑。為了評估摘要，他們建立了一個透過人工驗證結果的 LLM 助理。

TestDevLab 衡量的 AI 功能不僅限於轉錄文字。與轉錄文字不同，會議摘要等其他 AI 功能的目標並非提供逐字副本，而是提供符合使用者期望、量身打造的版本。

在此評估中，我們在 Microsoft Teams 中測試了兩項摘要功能：可搭配 Teams Premium 或 Microsoft 365 Copilot 授權使用的智慧型回顧功能，以及 Microsoft Copilot AI Assistant 在 Teams Meetings 中的提示型摘要產生功能。由於 Copilot AI 助理只能根據提示產生摘要，因此我們在會議結束時提示 Copilot 建立摘要和動作項目。

在對話式人工智慧方面，TestDevLab 衡量了 AI 平台在會議中回答問題的方式，包括與會議上下文相關的問題，也包括不相關的網路搜尋，例如「世界上最高的建築物是哪一棟？」。在回應時間和穩定性方面（所有會議與會者都能收到類似答案的能力），Zoom 的表現都優於 Microsoft。

*更高的穩定性顯示 Zoom 的 AI 始終能為所有與會者提供可靠的回應，進而在會議期間提供更流暢的體驗。*

這些成果彰顯了我們對 Zoom Workplace 品質的承諾。我們致力於創造一種方式，讓人們更輕鬆地彼此聯繫，提高日常工作效率，並有機會使用 AI 來支援他們的工作。由 AI 生成的會議轉錄文字僅是人們利用 Zoom Workplace 為許多人（包括失聰者、聽障者、神經多樣性者，以及可能與會議中其他與會者使用不同語言的人士）創造更公平體驗的其中一種方式。

由 TestDevLab 進行的這項評估顯示，Zoom Workplace 在 AI 效能領域位居領導地位，相較於受測競爭對手，具備更卓越的轉錄文字準確度、更快的會議中問題回應時間，以及更穩定的對話式人工智慧功能。

此外，Zoom Workplace 免費為付費 Zoom 帳戶提供許多 AI 功能，這與某些替代平台不同，它們會對每位取得 AI 功能的額外使用者另外收取費用。在 Zoom，我們認為將這些精確且具變革性的工具提供給更多的客戶使用至關重要。我們從建立高品質轉錄文字的基礎開始，並持續為我們所有客戶創造出色的 AI 體驗。