豆包实时语音大模型上线：情商智商双在线

小哪吒

      2025年1月20日，字节跳动旗下的豆包大模型团队宣布豆包实时语音大模型正式上线，并在豆包APP全量开放。用户只需将APP升级至7.2.0版本，即可体验这一全新功能。该模型作为一款语音理解和生成一体化的端到端语音系统，具备低延迟、可打断、情绪表达自然等特点，整体满意度在真实用户测试中显著优于GPT-4o。

      豆包实时语音大模型突破了传统级联模式的限制，通过语音和语义联合建模，实现了语音指令的泛化理解和演绎生成。在技术实现上，该模型采用端到端框架，深度融合语音与文本模态，支持多模态输入输出。预训练阶段，团队对交织数据进行深度训练，高效压缩海量语音信息；后训练阶段，则通过高质量数据和强化学习算法优化模型，平衡智商与情商表现。
      在用户体验方面，豆包实时语音大模型展现出显著优势。其语音语气自然度和情绪饱满度远超同类产品，能够根据用户情绪进行拟人化的共情回应。模型不仅支持语音到语音、语音到文本等多种交互模式，还具备强大的声音控制和情感演绎能力，可实现方言模仿、角色扮演甚至唱歌等功能。此外，模型还具备实时联网功能，能够动态获取最新信息，回应时效性问题。
      在安全性方面，团队引入多种机制，对潜在非安全内容进行有效过滤，降低风险。评测结果显示，豆包实时语音大模型在拟人度、有用性、情商等多个维度表现优异，整体满意度评分达4.36分（满分5分），其中50%的测试者给出满分评价。

尽管该模型已展现出强大的交互能力，但团队也意识到其仍有提升空间，例如目前主要支持中文，对其他语种的支持有限。未来，豆包团队将继续优化算法、扩充数据，进一步拓展模型的能力边界，为用户提供更智能、更自然的语音交互体验。

[行业动态] 豆包实时语音大模型上线：情商智商双在线

浏览过的版块