(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=39036796
好问题! 这里有一些信息可以回答这些问题。 关于最近文字转语音技术的进步,我总结一下要点:
1. Whisper 是由 DeepMind 研究人员开发的流行的开源自动语音识别 (ASR) 系统。 最近,它被证明可以通过处理可变扬声器输入和更长的上下文窗口来实现最先进的 ASR 功能。 在语音质量和理解率方面,Whisper 的性能可与 Microsoft Azure Cognitive Services 和 Amazon Web Services Transcribe 等行业领先的系统相媲美。
2. 然而,Whisper 的优势包括其开源特性,可以灵活地根据特定任务定制性能。 此外,该模型完全开源的事实意味着它可以进一步扩展和适应不同的需求,包括实时和嵌入式应用程序。 此外,与专有解决方案不同,研究人员可以研究和分析模型成功背后的基本技术原理,这有助于未来的进步。
3. 另一个关键进展是引入了 ChatGPT,这是由 11 Labs 的工程师创建的人工智能语言模型。 ChatGPT 通过外语支持和情感感知变化支持提供更高质量的输出。 虽然 Eleven Labs 价格昂贵,而 OpenAI 的 TTS 系统更经济,但由于支持外语和定制词形变化,它在负担能力和有效性之间取得了平衡。
4. 为了增强 TTS 功能,开发人员转向了神经风格迁移等技术,这是一种机器学习技术,用于在语音生成过程中改变感知的说话者身份。 通过从 Primavera 等绘画修复项目中汲取灵感,开发人员可以调整发声器的音高和音调模式,并实施受名人、政治家和其他知名人物启发的演讲模式。 这些调整使 TTS 程序能够以更加坚定和真实的方式提供情感共鸣的演讲。
总体而言,TTS 技术的进步带来了新的可能性,特别是在对话交互、聊天机器人和交互式教育产品方面。 此外,语音合成的发展以及语音分析的进步意味着该领域已经成熟,可以进一步探索和创新。
The key here is that the Whisper multilingual ASR model has been trained on a huge amount of data, so its encoder output is a very good representation of the semantic content of speech. This can be used as an open-source, drop-in replacement for the semantic encoder in model architectures like SPEAR-TTS/VALL-E/etc (whose semantic encoders are not publicly available). This is then used to predict acoustic tokens (the output from the quantized/low-bandwidth Encodec audio codec) which is then upsampled/denoised/enhanced with the Vocos vocoder.
I know someone is working on Hindi but it would be great to see this extended to other languages for a properly open-source [1], multilingual TTS platform. I think the main bottleneck at the moment is finding people who can procure/clean compliant datasets.
[0] https://github.com/jpc [1] jpc/Collabora went to great efforts to ensure that they are only using properly licensed data to train this. I doubt Whisper itself was that compliant, so it's a bit muddy.
reply