
最近,阶跃星辰放了个大招:新一代实时语音大模型StepAudio 2.5 Realtime正式上线,开发者可以直接去开放平台接入。这款模型最牛的地方,是它不光能听懂你说的话,还能“听出”你是怎么说的——比如你说话声音低沉,它猜你可能累了;语速变快,它觉得你在不耐烦。甚至你叹口气、轻笑一声,它都能捕捉到,并据此调整回答的语气和内容。
说白了,过去的语音AI更像一个“复读机”,只处理文字信息。而StepAudio 2.5 Realtime开始关注那些“非文字”的细节:语调、语速、停顿、叹息、轻笑……这些都是传递情绪的关键。技术圈管这叫“副语言感知”,普通人可以理解为:它像你身边一个很会察言观色的朋友。
另一个亮点是人设自定义。开发者可以通过API给AI角色设定性格、背景、说话习惯等。阶跃星辰先是用超过1万个高质量原生人设,再靠算法生成了上百万种人设组合,然后用海量真实对话数据训练,最后还用强化学习确保角色在极端情况下也不会“崩”。目前内置了5个预设人设,拿到就能直接用。
在对话能力上,StepAudio 2.5 Realtime强调“智商+情商”双在线。它既能当情感树洞,陪你聊心事,也能扮演专业HR,模拟面试场景,调用多领域知识跟你深度交流。根据官方评测,它在5个测试维度全面领先,用户体验得分高达80.41,远超GPT-Realtime-1.5和Gemini Live。
当AI开始听懂你的叹气、读懂你的沉默,人机对话的鸿沟正在变窄。下一个值得期待的事:你手机里的语音助手,什么时候也能这么“懂你”?
精选评论
评论加载中…