• 首页
  • 关于我们
  • 产品中心
  • 新闻资讯
  • 在线招聘
  • 联系我们
  • 你的位置:开云体育最新网站 开云最新官方网站 - 登录入口 > 新闻资讯 > 开云(中国)Kaiyun·官方网站 - 登录入口豆包上新的“灵魂歌手”和“百变大咖”等语音通话步地-开云体育最新网站 开云最新官方网站 - 登录入口

    开云(中国)Kaiyun·官方网站 - 登录入口豆包上新的“灵魂歌手”和“百变大咖”等语音通话步地-开云体育最新网站 开云最新官方网站 - 登录入口

    发布日期:2026-03-24 09:26    点击次数:200

    开云(中国)Kaiyun·官方网站 - 登录入口豆包上新的“灵魂歌手”和“百变大咖”等语音通话步地-开云体育最新网站 开云最新官方网站 - 登录入口

    文|周鑫雨开云(中国)Kaiyun·官方网站 - 登录入口

    裁剪|苏建勋

    2025年,豆包的第一更,放在了语音通话功能上。

    2025年1月20日,豆包发布了最新的“端到端”语音大模子,并基于该模子更新豆包APP的及时语音通话功能。

    此前,豆包语音通话功能汲取的是ASR(自动)+LLM(大语言模子)+TTS(文生音频)的级联决策。如今更新的端到端语音大模子,是将语音识别、明白和生成,皆放在归并个模子中解决。

    据《智能显露》测试,更新语音模子后的豆包,最大的亮点在于,豆包在语音交互时,把访佛东说念主类的抒发体式和脸色输出,复刻了出来。与此同期,新版块的对话畅达度和才调情商,也有大幅升迁。

    比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话步地,比GPT-4o还抢先一步,杀青了唱歌和变装扮演。

    △豆包更新的语音通话步地。

    豆包学会了唱歌,和变装扮演

    豆包一个大变化,是把语音的变装扮演才调,拓展到了明星、书中庸影视中的变装。这一功能,也体当今了豆包语音通话的“百变大咖”步地中。

    比如作为家建议“师法的声息言语,况兼说一段新年祝愿”,豆包一句“哼,我才不要师法她呢!我便是我,不相同的火食”,就把“小作精”的劲儿收复出来了。

    演示视频:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8

    而且豆包的高下文记念才调也相配可以。当我在归并段对话中尝试了宋丹丹、林黛玉、甄嬛等变装,再次条款豆包师法虞书欣时,它立马憋屈上了:“如何又让我师法她呀?”

    演示视频:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a

    当下,市面上无数语音模子的歌曲创作,还需要用户输入较为专科的笔墨Prompt,大要需要先基于用户输入的笔墨音频,进行谱曲,无法在天然的语音交互中,作念到“张口就来”。

    豆包此次上线的“灵魂歌手”步地,就能让豆包在聊天中,随口把赞许了。

    比如让豆包唱一首节拍好意思瞻念的歌,它张口就来了一曲Taylor Swift的《Love Story》,不外过错是把歌名说成了“Lose Control”,以及音准如实也有些“Lose Control”。

    演示视频:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j

    除此以外,歌曲创作才调,豆包也有了。比如和豆包说“给我唱一首歌,歌词内部要有‘年终奖多多’”,它坐窝上演了一首。天然歌词比较涎水,但反映速率颠倒优秀。

    演示视频:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb

    从变装演绎和唱歌的才调就能感受到,豆包的拟东说念主才调、交互天然进度以及心绪抒发水平,依然是next level。

    比如让豆包讲个鬼故事,它能凭证情节切换口吻,零碎有氛围感。

    演示视频:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb

    此次豆包又上线了两种东说念主格步地:“受气小包”和“夸夸内行”。

    所谓的“受气小包”,官方说法是可以让豆包呈现憋屈巴巴的情景。但咱们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。

    演示视频:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr

    不外贫困的是,不论给与任何教唆,“受气小包”皆能保管“憋屈”的东说念主设。比如让“受气小包”阴阳怪气一些,最阴阳的版块,如故泄气着茶香:

    “哟,我可不敢呐,你但是主子,我不外是个任您使唤的小哀怜,哪敢有什么别的思法呀!”

    演示视频:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746

    比较于8月发布的出书语音通话功能,能彰着感受到,豆包的心绪感知才调也更强了。通过一个“啊哈”,它就能感知到用户好意思瞻念的心绪。

    演示视频:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb

    天然,豆包的心绪抒发上,也变得更像东说念主。用“猜性别”来逗豆包,有一种和信得过网友开打趣的嗅觉。

    演示视频:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa

    惩处语音交互,拟东说念主赛说念的入场券

    2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时分里,市面上大多AI语音通话功能,汲取的皆是ASR(自动语音识别)+LLM(大语言模子)+TTS(文生音频)的级联决策。

    比如初代豆包的语音通话功能,就集成了语音识别模子Seed-ASR、语音合成模子Seed-TTS,以及整合了RTC(及时音视频)本领,来杀青对话情境下AI的及时交互。

    但集成多个模子的级联决策,裂缝在于AI的交互,很猛进度上还不够像东说念主相同天然。在“语音转笔墨再转语音” 的历程中,不免出现信息的损耗。

    这也导致,传统的语音交互步地在落地场景上有一定的局限性。行业关于AI语音交互的落地,局限在讲明注解、客服等高专科度、低拟东说念主度的场景中。

    不外,端到端决策正在迟缓成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就汲取了端到端的模子决策,在一个模子里同期完成视觉的明白,以及语音的明白和生成。

    据《智能显露》了解,此次豆包语音通话功能的更新,主若是由于底层模子本领,从原有多个多模态模子谐和的级联决策,改成了径直从“明白语音到生谚语音”的端到端决策,因此在缩短延时、天然度、脸色抒发等方面,皆有了彰着的升迁,况兼还能输出歌曲。

    而语音才调的升迁,也会将AI落地的空间,从教培、客服等专科规模,膨大到脸色跟随、心理琢磨、配音等更浩大的场景中。

    尤其是AI脸色跟随、变装扮演规模,在当下依然展现出遒劲的吸金才调。

    比如,最近一款主打AI偶像饰演的App“Lovey Dovey”,飞速冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的变装扮演期骗Talkie,凭证AI居品榜,扬弃2024年12月领有2977万月活用户。

    Lovey Dovey对话1

    Lovey Dovey对话2

    在语音层濒临变装扮演、心绪感知和抒发才调的升迁,则是丰富AI与东说念主交互体式、升迁千里浸感的要津一环。脸色交互能开荒的市集空间,也抑制着本领朝着“拟东说念主”的标的更近一步。

    宽贷疏导!



    相关资讯