首页 > 科技 >

豆包App灰度发布全新语音模式,抢先GPT-4o实现歌唱与角色扮演功能

发布时间:2025-01-21 09:01:14来源:网易

豆包App在2025年1月20日发布了最新的“端到端”语音大模型,并基于此更新了实时语音通话功能。此次更新将语音识别、理解和生成整合到一个模型中,大幅提升了对话的流畅度和情感表达。豆包新增的“灵魂歌手”和“百变大咖”模式,使其能在语音交互中唱歌和模仿各种角色,甚至包括明星、书中和影视中的角色,这一能力超越了GPT-4o。此外,豆包的情绪感知和表达也变得更加强大,能够根据对话情境切换语气,提供更自然的交互体验。此次更新标志着豆包在拟人化赛道上取得了重要进展,有望将AI的应用场景从专业领域扩展到情感陪伴、心理咨询等更广泛的领域。

另一方面,传统的ASR+LLM+TTS级联方案在语音交互的自然度上存在局限,而端到端方案逐渐成为主流。豆包此次的技术升级,正是从多个多模态模型合作的级联方案,转变为端到端的模型方案,从而在降低延时、提升自然度和情感表达等方面取得了显著效果。这一变化不仅提升了用户体验,也为AI语音交互的落地开辟了更广阔的市场空间。

免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。