xAI开放Grok STT与TTS音频API,STT整体词错率压到6.9%

快链头条 2026-04-18 11:08:55
阅读 7,348
二维码
微信扫一扫,分享此文章

据 动察 Beating 监测,xAI 上线两个独立音频 API:Grok Speech to Text 和 Grok Text to Speech。两者来自支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频栈,此次以独立 endpoint 形式开放,开发者可直接接入语音代理、实时转录、无障碍工具和播客等应用。

STT 提供两种模式。REST API 用于对大音频文件批量转录,毫秒级返回;WebSocket API 面向实时语音流。附带能力包括词级时间戳、说话人分离(diarization)、多通道分别识别,以及 Inverse Text Normalization,即把口语里的数字、日期、货币自动整形为规范的结构化文本。语种覆盖 25 种以上,可在对话中无缝切换。

xAI 同时公布一组词错率(WER,数值越低越好)对比:整体场景 Grok 6.9%,ElevenLabs 9.0%,Deepgram 11.0%,AssemblyAI 12.9%;「电话通话实体识别」差距被拉得更大,Grok 5.0%,对应三家分别为 12.0%、13.5%、21.3%。会议、视频播客、电话三类常见业务场景下 Grok 也都小幅领先。这组数字由 xAI 自行测试公布,尚无第三方复测。

定价上,STT 批处理 0.10 美元/小时、流式 0.20 美元/小时;TTS 为 4.20 美元/100 万字符。

TTS 支持用内联 Speech Tags 控制情感和韵律,例如 `[laugh]`、`[sigh]`、`[whisper]`、`

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。