| 模式 | 特点 | 延迟 | 适用场景 |
|---|---|---|---|
| 实时流式识别 | 边说边识别,流式返回文字 | 200ms 左右 | 智能客服、实时字幕、语音输入 |
| 录音文件转写 | 上传录音文件异步处理 | 录音时长的 1/5 左右 | 会议录音、电话回访、档案整理 |
中文通用场景识别准确率 98%+,英文 95%+,搭配热词定制可进一步提升行业术语准确率。
上传专业术语词表(医疗、法律、金融、公司名称),系统优先识别热词,行业准确率提升显著。
支持粤语、四川话、上海话、闽南话等主要方言,满足多地区业务场景。
录音文件转写时自动区分不同说话人,适合双方通话记录、多人会议转录。
实时识别自动检测语音停顿,合理断句,生成可读性强的文字。
支持英语、日语、韩语、法语等主流外语识别,满足跨境业务需求。
电话客服录音自动转文字,AI 分析服务质量、违规用语、客户情绪,质检效率提升 10 倍。
课程直播实时字幕生成,录播课程自动配字幕,提升听障学员和非母语用户的学习体验。
音频内容自动转文稿,配合 SEO 优化和内容二次创作,大幅提升内容生产效率。
App 内集成实时语音输入,用户说话即可快速完成表单填写、搜索输入,提升移动端体验。
ASR 是底层语音识别 API,提供纯转写功能,开发者通过代码集成到自己的系统;通义听悟是面向终端用户的完整产品,包含 AI 摘要、章节分析等增值功能。如果需要自定义集成,用 ASR API;如果直接使用,用通义听悟。
主要影响因素:录音质量(背景噪声、麦克风距离)、说话语速、方言程度、专业术语比例。建议开启热词功能提升行业术语准确率。
录音文件转写支持最长 5 小时的音频,超长文件可分段处理;实时流式识别理论上无时长限制。
联系远鸥云,告知每月使用时长和识别场景,我们出具含代理折扣的资源包报价。