新一代音频编解码标准揭秘：AVS3P10突破实时语音编码性能极限-云计算·大数据专区

新一代音频编解码标准揭秘：AVS3P10突破实时语音编码性能极限

作者：李代丽编辑：李代丽 2024-07-04 18:30 IT168网站原创

　　千里眼、顺风耳……人类自诞生之日起，就在探索跨越距离的视听能力。究其本质，人们对遥远视界与声波的无限向往，都属于通信领域范畴，也是现代通信技术发展的基石与核心驱动力。

　　今天，在数字化浪潮席卷全球的办公场景中，会议通信凭借其在语音功能的跨越，已成为刚需中的“刚需”。它不仅承载着信息高效传递的重任，更是团队协作、决策制定的关键桥梁，已深度融入现代办公场景的每一个角落。

　　但是你知道吗？在有限的带宽条件下，要想把声音高质量地传递给对方，需要借助音频编解码技术对原始数据进行压缩、去除冗余信息后才能实现。只是，在当前基于EVS、OPUS等主流音频编解码标准下，存在着一个巨大挑战，当率降低到10kbps以下时，语音质量下降明显，影响用户体验。

　　为了进一步推进实时语音编码技术的发展，腾讯会议天籁实验室联合腾讯AI Lab自研了腾讯首款神经网络语音编解码器——Penguins。而最近刚刚发布的新一代实时语音编码行业标准AVS3P10，就以Penguins为原型，正式成为行业新标准。AVS3P10新一代实时语音编码行业标准由腾讯主导，经过AVS音频组多家成员单位共同参与推动，旨在将语音编解码器技术推向更高阶段。

　　“听得够清”与“压得够小”之间的博弈

　　AVS3P10标准虽然在去年3月份开始启动立项，但其实在腾讯内部的研发与相关应用已持续了4年多时间，是多个部门协作才有了今天的成果。那么，腾讯做这件事儿的动机是什么？为何一定要花大力气部署语音编码技术，致力于推动行业标准的发展？

　　“理想中的远距离通信，哪怕是通话者在地球的两端，也要能清楚地听到彼此的通话内容，并且延迟要在400毫秒以内。虽然，我们已经走进5G时代，正在向6G演进，但是在听得够清与压得够小的这一问题上，依然没有根本性解决。” 腾讯会议天籁实验室专家研究员、AVS3-P10标准起草人肖玮在媒体采访中表示，如何在算力能够接受的条件下实现低码率的高质量压缩，这是腾讯做这件事情的初衷。

　　AVS3P10标准之所以更具领先性，是因为有效解决了远程通信中语音传输的问题，通过最小化带宽将声音信号从A端传输到B端，同时保持高质量的语音通信。尽管，AVS3P10 不兼容之前的标准，但在实际应用中可以通过转码方式进行互通。目前，该标准已在腾讯会议和QQ等多个场景中落地应用，并计划向行业推广。

　　小而精的语音编解码技术

　　与传统纯信号处理方式不同的是，AVS3P10标准不仅实现了低码率下的高质量语音通信，还使用了 AI 技术来提高音频通信的效果和效率，并进行了多次优化以达到最佳表现。

　　“AI技术的引入，和传统意义上的大模型不一样，大模型是数据驱动，其实本身也是一个生成，我们也可以把编解码看作是生成，但在算法设计上要求更高。”腾讯AI Lab高级研究员阳珊表示，该团队通过采用独特的算法设计和架构设计，成功研发出一套适用于各种终端设备的小型音频编解码器，可以在不降低音质的情况下减少文件大小。

　　“利用人工智能技术助力码率降低，让通话质量更好，开发团队做了很多实验，低码率中等质量只是第一步。下一步，需要跟进业务需求，把目标更新，升级为高质量低码率。再之后，又做了低码率高质量下面的低算力，最终目标是让中档机型的手机跑出风火轮的速度。” 肖玮强调，在语音编解码技术升级过程中，不能简单地理解为引入了大模型，而是采用了更广阔的人工智能技术；同时，又与经典的信号处理和信息论技术系统性融合，形成新的方法论，解决实际问题。

　　在AVS3P10标准下，用户可以在相同音质的情况下将码率降低到原来的三分之一，从而提高音频传输的效率。此外，该技术还可以在低带宽情况下实现实时通话，并且具有良好的抗丢包能力。

　　“音视频流基本上是几个指标的平衡，包括带宽、音质和延迟，语音编解码技术需要再诸多指标之上突破现有的局限，表现出更好的效果，甚至要引领相关技术的迭代和发展。” 腾讯云副总裁、腾讯会议天籁实验室主任商世东表示。

　　虽然，目前尚未有其他厂商使用最新标准，但该标准下的音频编码器已经在腾讯会议驾驶模式、弱网模式及QQ语音通话等场景中投入规模应用。

　　“QQ的音视频和会议的音视频使用场景不同相同，QQ更多是好友之间的互动，比如跟家人、跟恋人的互动，更多关注的是一些比较细节的声音，包括呼吸、轻微的动作等，编码器和解码器要原封不动地去做保留和还原。” QQ音视频技术负责人刘天成表示，QQ在使用过程中更多是长时间通话场景，对持续性要求较高，所以做了很多优化工作，包括机器发热耗电情况、各种低端机型的匹配，或者在用户后台运行场景下如何更好地保障整个通讯的稳定性或者通讯的效果。

　　腾讯在制定标准时注重与业务的结合，只有在内部产品上应用并取得良好效果的情况下才会将其做成行业标准，并通过标准落地打造闭环。目前，腾讯在音视频领域、无线通信领域以及游戏业务等方面都有参与标准制定。虽然腾讯的产品基本上是以SDK纯软方式执行，但如果后续有特定的硬件采集装置，想要使用该技术服务于特定场景，腾讯也会持开放态度，考虑如何针对其底层芯片架构进行硬编码器优化，以实现低码率高质量的效果。

　　“要打造沉浸式体验，需要从头到尾考虑，包括采集、处理、编码等多个环节，并且需要针对具体的使用场景进行定制化设计。” 腾讯标准化高级工程师张亚军，介绍了声音采集和处理的技术细节，以及未来的发展方向。他还表示，将这套技术向行业开放，旨在推动整个行业在下一代语音编解码技术方面取得更大的进展。

　　写在最后：

　　腾讯积极参与行业标准的制定，不仅提升了公司在音频技术领域的影响力，也为整个行业的发展做出了贡献。而对于用户及合作伙伴来说，该标准的推出，真正引领实时音频通信技术的创新前沿，推动相关产业进一步发展，提升用户体验。总体来看，不断优化用户体验，力求实现“清晰如面、真实可感”的音频交互新境界，AVS3P10正在突破实时语音编码的性能极限。

关注我们