Cartesia发布全新TTS与STT模型Sonic-3.5与Ink-2

快链头条 2026-06-16 19:00:16
阅读 2,940
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,AI 语音模型初创公司 Cartesia 宣布发布 Sonic-3.5 与 Ink-2,并推出由两款模型组成的统一实时语音智能体技术栈。Sonic-3.5 负责文本转语音(TTS),Ink-2 负责语音转文本(STT)。

Sonic-3.5 偏向于实时低延迟语音生成,首音输出时间缩短至 90 毫秒。出厂支持 42 种语言,无需预处理即可支持英文异音词和字母数字的发音。

Ink-2 的字错率(Word Error Rate)降至 3.6%,同时引入了原生轮次检测(Native Turn-Detection)和噪声处理机制,能基于句意和语义理解判定用户是否发言完毕,而不是仅依赖传统的安静时长。目前 Ink-2 仅提供英文版,多语言版本将在后续推出。

开发者可以通过单个 API 同时调用这两款模型。Sonic-3.5 与 Ink-2 在设计上进行双向流式协同,以减少由于「多供应商拼接」带来的传输延迟与系统损耗。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。