Zoom AI 服务：Scribe API

Zoom AI 服务：Scribe API

全球领先的高精度语音转文本 API

由 Zoom 的 ASR Model Pro 驱动，为您提供值得信赖的高质量转写服务。

Scribe API 在 HuggingFace Open ASR 排行榜上名列前茅，可提供快速同步和批量转写服务；并采用相同的 ASR 模型，每天支持数百万次 Zoom 会议。

试用演示获取 API 密钥

Zoom AI 服务：Scribe API

功能

语音转文本所需的一切

从近乎实时到批量处理，Zoom Scribe API 可提供便捷高效的高精度转写服务。

快速同步转写

访问单个音频文件的同步、低延迟转写文字。一次处理一个文件，完成后立即生成回复。

批量转写

大规模处理预先录制的音频和视频文件。支持 MP3、WAV、MP4、FLAC、OGG 等多种格式，且具备自动格式检测功能。

单词级时间戳

记录每个单词的精确起止时间，从而精准执行字幕生成、音频搜索和内容索引任务。

使用您的自有存储空间

将转写文字安全存储在专属 AWS S3 存储桶中，以强化数据控制权和合规性。

演讲者区分

在多方对话中自动、精准标注不同的演讲者。（即将推出）

多语言支持

利用基于不同数据集训练、可识别多种口音的稳健模型，进行多语言和方言转写。（即将推出）

立即试用

精准可鉴，眼见为实

点击麦克风，使用浏览器的音频输入来模拟转写。演示版仅提供英文版本。

Zoom Scribe API 测试平台

点击麦克风开始演示转写。

转写输出

Latency: — Confidence: —

转写文字将显示在此处…

性能

Zoom Speech 在 Open ASR 排行榜上名列前茅

我们自豪地宣布，Zoom 语音识别技术在自动语音识别 (ASR) 性能全球基准测试——Open ASR 排行榜中跻身主流模型之列。这一里程碑充分展现了我们对卓越语音技术的不懈追求，以及 Zoom AI 服务 Scribe API 的强大实力。
该模型的主要优势包括：

业界领先的准确性： 我们的可扩展创新框架能够持续提升模型质量，在对准确性与可读性要求严苛的场景中提供出色的转写结果。
精通企业术语：该模型已针对业务和技术环境进行优化，可准确处理企业名称、产品术语和特定领域词汇——这对于会议、客服通话和专业文档来说是一项关键优势。
减少“幻觉”：Zoom 先进的建模策略可最大限度减少转写“幻觉”，从而确保已识别的内容能够切实反映演讲者的意图，而非凭空生成无关词汇。

使用场景

专为每一次对话打造

从董事会议室到呼叫中心，Zoom Scribe API 可将口头交流转化为实用信息。

Contact Center 分析功能

转写客户通话、检测情绪、识别主题并生成洞察，以提高坐席绩效。
媒体处理

将录制文件转换为带时间戳的转写文字和字幕，便于编辑和搜索。
对话智能应用

将精准的语音转文本功能集成到任何对话平台或应用中，以支持虚拟助手和自动路由，从而打造顺畅无缝的客户自助服务。
企业知识管理

采集并转写成千上万场录制会议、全员大会和网络研讨会，从而构建可即时搜索的集中化企业知识库。
教育科技与课程归档

异步转写过往讲座和在线课程的完整资源库，以创建全面的学习指南，并确保用户严格遵守无障碍访问合规要求。
市场调研和定性分析

快速转写数百小时的录制焦点小组、用户访谈和实地研究内容，以加速主题分析和报告流程。

开发者优先

几分钟内开始转写

简单易用、管理完善的 API
REST API 和 OpenAPI 规范
全面的错误处理功能
适用于异步作业的 Webhook 回拨

查看 API 文档

定价

简单、透明的定价

选择透明的费率方案，将预付费额度应用于 Scribe API 服务。

Scribe API Fast

Scribe API Batch

开发者资源

通过 Zoom Scribe API，获取集成、构建和发布所需的各类资源。

包含各端点示例的 API 参考文档

快速入门指南

从零开始，完成首次转写

示例应用：探索即用型应用

Postman Collection：利用预构建请求即时测试端点

开发人员论坛：提问和分享技巧

开始使用

查看定价