xAI开放Grok STT与TTS音频API，STT整体词错率压到6.9% - 快链头条_区块链世界的入口_行情资讯_技术解读_独家深度

xAI开放Grok STT与TTS音频API，STT整体词错率压到6.9%

快链头条 2026-04-18 11:08:55

阅读 7,348

据动察 Beating 监测，xAI 上线两个独立音频 API：Grok Speech to Text 和 Grok Text to Speech。两者来自支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频栈，此次以独立 endpoint 形式开放，开发者可直接接入语音代理、实时转录、无障碍工具和播客等应用。

STT 提供两种模式。REST API 用于对大音频文件批量转录，毫秒级返回；WebSocket API 面向实时语音流。附带能力包括词级时间戳、说话人分离（diarization）、多通道分别识别，以及 Inverse Text Normalization，即把口语里的数字、日期、货币自动整形为规范的结构化文本。语种覆盖 25 种以上，可在对话中无缝切换。

xAI 同时公布一组词错率（WER，数值越低越好）对比：整体场景 Grok 6.9%，ElevenLabs 9.0%，Deepgram 11.0%，AssemblyAI 12.9%；「电话通话实体识别」差距被拉得更大，Grok 5.0%，对应三家分别为 12.0%、13.5%、21.3%。会议、视频播客、电话三类常见业务场景下 Grok 也都小幅领先。这组数字由 xAI 自行测试公布，尚无第三方复测。

定价上，STT 批处理 0.10 美元/小时、流式 0.20 美元/小时；TTS 为 4.20 美元/100 万字符。

TTS 支持用内联 Speech Tags 控制情感和韵律，例如 `[laugh]`、`[sigh]`、`[whisper]`、`

生成图片

快链头条登载此文本着传递更多信息的缘由，并不代表赞同其观点或证实其描述。
文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。
投资有风险，入市须谨慎。本资讯不作为投资理财建议。

推荐活动

【Amplify2026—Quantifying&Growth In Web 4.0】

2026-04-21 14:00

香港 Web3 嘉年华 2026

2026-04-20 18:34

【Amplify2026—VENTURE HORIZON】

2026-04-20 14:00

7*24小时快讯

比特币Ahr999「抄底」指标突破0.45，已越过「抄底线」，进入「定投区间」

04-18 13:03(1分钟前)

「币安人生」突破0.54美元，币价创历史新高

04-18 12:45(19分钟前)

Bitdeer本周出售177枚BTC，仍维持零持仓

04-18 12:36(28分钟前)

特朗普回应美伊信息不一致：伊朗也要迎合其他人

04-18 11:56(1小时前)

马斯克：Grok4.3 beta仍是0.5T训练中间版，1T旗舰还差5天完成初训

04-18 11:51(1小时前)

昨日比特币ETF净流入6.639亿美元，以太坊ETF净流入1.274亿美元

04-18 11:51(1小时前)

特朗普对「攻击古巴计划」不置可否

04-18 11:47(1小时前)

Zcash Zebra节点客户端4.3.1发布，包含多项关键安全修复

04-18 11:33(2小时前)

热门资讯

ChainTimes 将于4.19-21号香港嘉年华期间举办3场「Amplify 2026」系列主题峰会

2026-04-17 11:37:16

一文读懂代币化的关键问题

2026-04-17 08:42:10

加密溢价的终结？从 Gemini 上市后的困境看市场逻辑转变

2026-04-17 08:41:33

加密 VC 集体刷存在感，市场开始触底反弹？

2026-04-16 08:20:34

风险提示

根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件，请广大公众理性看待区块链，不要盲目相信天花乱坠的承诺，树立正确的货币观念和投资理念，切实提高风险意识；对发现的违法犯罪线索，可积极向有关部门举报反映。