查看排行榜
Zoom Speech 在 Open ASR 排行榜上名列前茅 查看排行榜
close banner
Zoom AI 服务:Scribe API
Zoom AI 服务:Scribe API

全球领先的高精度语音转文本 API

由 Zoom 的 ASR Model Pro 驱动,为您提供值得信赖的高质量转写服务。

 

Scribe API 在 HuggingFace Open ASR 排行榜上名列前茅,可提供快速同步和批量转写服务;并采用相同的 ASR 模型,每天支持数百万次 Zoom 会议。

Zoom AI 服务:Scribe API
功能
功能

语音转文本所需的一切

从近乎实时到批量处理,Zoom Scribe API 可提供便捷高效的高精度转写服务。

快速同步转写

快速同步转写

访问单个音频文件的同步、低延迟转写文字。一次处理一个文件,完成后立即生成回复。

批量转写

批量转写

大规模处理预先录制的音频和视频文件。支持 MP3、WAV、MP4、FLAC、OGG 等多种格式,且具备自动格式检测功能。

单词级时间戳

单词级时间戳

记录每个单词的精确起止时间,从而精准执行字幕生成、音频搜索和内容索引任务。

使用自有存储空间

使用您的自有存储空间

将转写文字安全存储在专属 AWS S3 存储桶中,以强化数据控制权和合规性。

演讲者区分

演讲者区分

在多方对话中自动、精准标注不同的演讲者。(即将推出)

多语言支持

多语言支持

利用基于不同数据集训练、可识别多种口音的稳健模型,进行多语言和方言转写。(即将推出)

立即试用

精准可鉴,眼见为实

点击麦克风,使用浏览器的音频输入来模拟转写。演示版仅提供英文版本。

Zoom Scribe API 测试平台
点击麦克风开始演示转写。
转写输出
Latency: Confidence:

转写文字将显示在此处…

性能
性能

Zoom Speech 在 Open ASR 排行榜上名列前茅

我们自豪地宣布,Zoom 语音识别技术在自动语音识别 (ASR) 性能全球基准测试——Open ASR 排行榜中跻身主流模型之列。这一里程碑充分展现了我们对卓越语音技术的不懈追求,以及 Zoom AI 服务 Scribe API 的强大实力。
该模型的主要优势包括:

  • 业界领先的准确性: 我们的可扩展创新框架能够持续提升模型质量,在对准确性与可读性要求严苛的场景中提供出色的转写结果。
  • 精通企业术语:该模型已针对业务和技术环境进行优化,可准确处理企业名称、产品术语和特定领域词汇——这对于会议、客服通话和专业文档来说是一项关键优势。
  • 减少“幻觉”:Zoom 先进的建模策略可最大限度减少转写“幻觉”,从而确保已识别的内容能够切实反映演讲者的意图,而非凭空生成无关词汇。
开发者优先
开发者优先

几分钟内开始转写

  • 简单易用、管理完善的 API
  • REST API 和 OpenAPI 规范
  • 全面的错误处理功能
  • 适用于异步作业的 Webhook 回拨
定价
定价

简单、透明的定价

选择透明的费率方案,将预付费额度应用于 Scribe API 服务。

Scribe API Fast

开发者资源

通过 Zoom Scribe API,获取集成、构建和发布所需的各类资源。

准备好使用高精度语音转文本 API 进行开发了吗?