超越GPT-Realtime-2，阿里语音大模型获三项第一-云计算·大数据专区

超越GPT-Realtime-2，阿里语音大模型获三项第一

作者：IT168 编辑：李代丽 2026-05-21 16:07 IT168网站原创

　　近日，阿里巴巴语音大模型Fun-Realtime-ASR和Fun-Realtime-AudioChat在全球权威AI评测平台Artificial Analysis登顶，超越GPT-Realtime-2等国际顶尖模型，在“听准（词错误率）”、“听懂（语音推理）”和“会聊（对话流畅度）”三项指标上斩获第一。作为新的人机交互入口，阿里语音大模型家族已深度融入千问App、高德地图、钉钉等应用，提供实时语音转文字、智能导航交互及会议纪要生成等服务。

　　WER（Word Error Rate，词错误率）考察了模型的听写能力，数值越低，识别越精准，Fun-Realtime-ASR1.8% 的 WER 意味着 100 个词中只听错不到 2 个字。目前，该模型支持毫秒级响应，覆盖三十多种语言和七大中文方言体系，可精准识别二十多个地区的口音。同时提供企业级定制接口，支持金融、医疗等行业场景的灵活适配。

　　Fun-Realtime-Audiochat模型在Artificial Analysis榜单斩获了两项冠军。其中语音推理能力（Speech Reasoning）考察的是“听懂”——理解语义、逻辑和隐含意图，分数越高，推理能力越强。Fun-Realtime-Audiochat 以 97.6% 登顶，意味着该模型在语音层能高效完成意图判断、情感分析、多步推理等复杂任务，端到端地实现了从声音到智能的跃升。

　　对话动态（Conversational Dynamics ）指标体现了对话的流畅度、“会聊”——模型不只是要把话说对，还要不抢话、被打断后能跟上，或是该回应的不能沉默。97.8% 的得分说明 Fun-Realtime-Audiochat 在处理真实对话中的各种突发情况时，已经接近人类水平。

关注我们