稀宇科技推出基于AR Transformer模型的高质量文本转语音(TTS)系统——MiniMax Speech 02,该系统在多项全球权威测评中表现卓越。在Artificial Analysis Speech Arena和Hugging Face TTS Arena榜单中,MiniMax Speech 02超越OpenAI、ElevenLabs等知名模型,均位列第一。其核心优势在于独特的“会学习的音色提取器”,通过Zero-Shot技术实现任意语言、口音、音色的无限组合,仅需一段参考音频,无需对应文本,即可提取音色特征,生成媲美真人的语音。
在多语言支持方面,MiniMax Speech 02展现强大性能。它能高质量合成32种语言,且在粤语、泰语等亚洲语种上表现优于同类产品。技术上,采用Flow-VAE和Flow Matching模型优化音频表征,提升语音生成的质感与细节。值得关注的是,该系统不仅在专业指标上表现优异,更在用户体验上获得高度评价。其价格优势明显,为ElevenLabs同类产品的四分之一到一半,降低了使用门槛。
稀宇科技在海外市场已助力众多内容创作者,通过低门槛语音工具实现声音表演,赋能零工经济。同时,MiniMax Speech 02对小语种的支持,体现了其推动全球语言文化传播的愿景。该技术的推出,为个性化语音交互领域带来新突破,有望满足终端、客户及创作者日益增长的个性化需求。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!