宇生月伴由钱彦旻 教授 创办,并获上海交大校方 千卡集群 算力资源支持。 联合创始人 梅杰系浙大背景的连 续创业者 , 曾成功创办多家科技公司,具备深厚的产品化与市场化经验,带领团队实现从技术原型到商业落地的快速闭环。
宇生月伴团队的技术研发体系可追溯至上海交大 听觉认知和计算声学研究中心 ,历经十余年在听觉人工智能方向的持续深耕,已构建起覆盖语音识别、语音 合成、对话理解、情感分析与 多模态交互的全栈技术体系。 是当前国内语音大模型赛道中技术体系最完整、科研深度最强、工程转化能力最突出的科研团队之一。
当前主流语音模型仍采用传统模块化架构,将语音活动检测( VAD )、语音识别( ASR )、大语言模型( LLM )与语音合成( TTS ) 级 联部署,各模块间缺乏协同优化,导致交互延迟高、节奏不自然、上下文理解受限,无法支撑情感化、人性化的多轮语音对话。然而, 宇生月伴语音大模型以Luna-1为核心,率先构建全球领先的端到端语音交互架构。 不仅能秒回问题,还能根据对话内容和场景理解用户的情绪,生成富有情感的回应。无论是幽默调侃、暖心安慰,还是专业建议,它都能恰到好处地表达。
除此之外 , 宇生月伴语音大模型 还同时具备多人对话与身份辨识,多语种和方言感知,角色切换与实时模仿等多项能力。 这在目前已知发布的语音对话大模型中,尚属首次。
在全球各大语音对话大模型性能的评测中, 宇生月伴刚发布的口语对话情感大模型 “交交” 获得了79.05的平均分,仅次于 OpenAI 发布的 GPT-4o 模型。 在中文语境下展现出强泛化、低延迟与稳定 性兼具的领先表现,成为全球语音大模型中的最优解之一。 评测结果显示,在通用知识、指令跟随、复杂问题理解、人工智能安全层面, “交交”都展现了极强的竞争力,不仅全面对标当前主流 SOTA 模型,还在多个关键任务上实现超 越。
“交交” 口语对话情感大模型技术框架
尤为突出的是, 宇生月伴语音大模型 低延迟流式交互能力( RTF<0.3 )显著领先业界主流语音模型。 相比之下, ElevenLabs 在语音对话交互上 仍以模块化拼接结构为主,在 “ 识别 + 理解 + 生成 ” 一体化上尚未实现端到端整合。 宇生月伴则在模型架构的完整性、流式响应能力 、 语音理解深度 和框架扩展灵活性 方面,具备实质性超越潜力。
同时 宇生月伴处理多人实时对话的能力也令人印象深刻。 过往的语音对话交互往往只能1对1,而且还无法模拟自然状态中的语音打断功能;而“交交”可同时处理6人以上的实时对话,通过端到端模型融合上下文信息,精准区分说话人身份并生成个性化响应,在对话打断的情况下,做到了回应几乎无延迟。
在训练与推理成本方面 , 宇生月伴通过端到端架构与轻量化优化策略,互联网爬虫技术抓取海量方言数据,结合小样本迁移学习,仅需50小时训练即可实现四川话、东北话等方言的精准识别,打破传统需千小时数据积累的瓶颈。无需大规模高质量数据微调,即可最大限度保持和利用文本大模型的基础泛化能力做到实时知识问答,而效果可以媲美大厂上百个人团队、上百张卡的效果。显著降低了模型参数量与推理资源占用,将模型的训练周期和推理延迟压缩至业内领先水平