原文
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
原始链接: https://news.ycombinator.com/item?id=43426022
OpenAI发布了最新的最先进的音频模型,包括两个性能优于Whisper的语音转文本模型,以及一个可以通过openai.fm访问、支持自定义语音指令的新文本转语音模型。Agents SDK现在支持音频,从而使语音代理成为可能。这一公告在Hacker News上引发了讨论,用户称赞了演示的格式和语音质量,但也有人注意到某些语音中存在金属质感的声音。 用户测试了该模型的功能,包括其处理明确语言和各种口音的能力,发现不同语音的内容过滤存在不一致性。演示的用户界面让人联想到了Teenage Engineering的设计美学。一个关键的担忧是新的语音转文本模型缺乏开源可用性,这与Whisper的开源性质形成对比。用户强调了Piper、Kokoro和Orpheus等开源替代方案。
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
reply