3月25日-26日,“2026中国国际音频产业大会(GAS)”在上海圆满落幕,本届大会吸引了90多位行业权威报告嘉宾、600余家消费电子与声学企业的近1000位精英参会,打造了全球音频产业创新交流平台。
在融媒体音频分论坛上,马栏山音视频实验室专家袁明山围绕“AI驱动下的端到端沉浸式音频技术”发表主题演讲。

随着沉浸式音频体验在人、家、车、场等多个场景逐渐普及,沉浸式音频技术从内容制作、传输到终端回放端到端各个环节在AI驱动下正在进行技术和解决方案的重塑,本次演讲阐述AI技术在沉浸式音频内容生产、高效传输、终端个性化体验所带来的技术发展趋势,并介绍实验室提供的技术方案。
核心技术驱动应用落地
马栏山音视频实验室已形成可落地的AI沉浸式音频技术解决方案:
2D转3D转制工具--AI驱动的沉浸式音频转制 离线沉浸式音频内容转制工具,将立体声音频片源通过目标识别分离和智能上混获得对象信号和声床信号,通过智能混音形成沉浸式音频的效果,实现批量的存量音频转制成多声道音频内容,支持音视频内容一键转制,提升内容生产效率。 AI情感识别--AI驱动的个性化体验 AI情感识别为沉浸式音频体验从“功能响应”升级为“情感交互个性化体验”。构建同理心决策引擎与仿生记忆架构,实现对用户情绪的持续理解与个性化响应。通过多模态感知、细粒度情感标签及动态调节机制,实现对用户情绪的持续理解与个性化响应。 音乐实时2D转3D技术--AI驱动的端侧智能音效 在端侧算力条件下进行音频的实时分离和智能混音处理,实现多声道音频输出(5.1至7.1.4),让普通立体声内容在播放过程中即可转化为沉浸式体验。该方案支持SoC/NPU集成,具备高实时性与稳定性,可广泛应用于车载空间音频、K歌音箱、全景声音箱及智能乐器等场景,推动AI沉浸式音频技术从内容制作走向端侧规模化落地。 端侧沉浸式音频回放方案 多场景端侧解决方案,构建了面向“人、车、家、场”的多场景端侧沉浸式音频解决方案体系,围绕可穿戴、车载空间音频、家庭影院及VR小空间等典型应用,提供统一的技术底座与差异化方案能力。通过双耳/扬声器渲染、音箱与听众定位、动态上混与声场校准等核心技术,并结合AI个性化音效、语义调音、自适应消人声与实时内容解析等能力,实现从声场构建到体验优化的全链路闭环,推动沉浸式音频在不同终端场景中的规模化落地。 此外实验室展位吸引了众多行业伙伴交流,围绕AI+音频的技术趋势与产业应用展开深入探讨。 未来展望 AI正重塑音频技术路径,沉浸式音频正从技术能力迈向规模化应用。马栏山音视频实验室将持续推进端到端技术演进,加速沉浸式音频在更多场景落地,为行业与用户带来更智能、更沉浸的音频体验。