马栏山音视频实验室亮相GAS大会:AI驱动五大场景重塑听觉新体验

发布时间:2026-03-25

3月25日-26日,中国国际音频产业大会在上海举行,马栏山音视频实验室在主旨论坛发表主题演讲,系统阐述了AI如何驱动音频技术迈向“听得 “有温度”的新阶段,并发布了覆盖“人、家、车、场、内容”五大核心场景的全栈技术方案。

主任演讲1.jpg

人类对声音的追求,经历听得清听得准听得真、听得好的三次重要跨越。实验室认为,AI技术的进步,不仅通过智能声场、实时2D3D、个性化渲染等技术大幅提升了沉浸式音频体验的质量与一致性更深层地推动音频从功能工具向情感化交互媒介演进。它使设备从语音,前进到听懂用户的意图、情绪和场景,从而让音频交互从执行指令的冰冷工具,升级为具备情感与个性化人格数字伴侣


双引擎驱动:AI+智能声场重构音频体系

针对传统音频工业面临“制作难、体验差、体验不一致”等挑战。马栏山实验室提出双引擎战略,以生成式AI降低创作门槛,以智能声场技术统一终端体验。

主任演讲3.jpg

在生产端,AI实现分轨、混音、空间化与情绪匹配的自动化处理,支持对存量内容进行结构化解析,一键升级为对象化空间音频,大幅提升效率、释放内容价值、降低创作门槛

在播放端,基于环境感知、声场测量与系统级校准,融合内容元数据与实时空间信息,实现声像定位与混响的动态自适应,同时结合个性化HRTF与用户偏好学习,打造“一人一声场”的沉浸式听觉体验,推动音频从标准化输出迈向智能化、个性化与场景化。

GAS大会发言稿——从提升保真度到定义新交互 马栏山音视频实验室 20260322 v1.2_06.png


构建全栈技术能力,从根技术到场景落地

实验室构建从底层根技术到顶层场景应用的全栈技术体系,实现了AI与音频技术深度融合,全面支撑“人、家、车、场、内容”全场景的智能化体验。

在底层,融合语音识别、理解、合成与情感计算等AI能力,以及音频增强、编码、传输与重建等音频核心技术,夯实技术底座;在中层,围绕“采、编、播、传、显”音频全链路,提供端到端的技术升级与系统化支撑;在顶层,聚焦 “人、家、车、场、内容”五大核心场景推动技术规模化落地

GAS大会发言稿——从提升保真度到定义新交互 马栏山音视频实验室 20260322 v1.2_07.png

1)实现极致的个人体验

面向耳机、手机、智能眼镜等多终端,融合语音增强、语义理解与情感感知能力,实现从听得清听得懂、自然交互的能力跃迁。

2)家:客厅里的声音艺术
基于Audio Vivid标准与国产化方案,通过自动建模、声场校准与空间渲染能力,实现低成本、高品质的沉浸式家庭音频系统。

3)车:移动的第二生活空间
依托个性化声场建模、多音区隔离与AI动态混音技术,构建可感知、可调度的车内声学系统,打造沉浸式移动娱乐空间。

4)场:捕获与展现沉浸式的音频场景
面向剧院、体育场、教室等复杂环境,提供三维音频采集、对象化表达与实时渲染能力,提升空间声像定位与整体听感一致性。

5)内容:激活沉睡的音频资产
通过AI 3D转制与空间重建技术,实现传统内容的对象化升级;结合专业制作工具链降低创作门槛,并以智能译制能力支撑内容的多语言、高效率全球化分发。


技术底座与行业突破

在本次大会上,实验室凭借核心技术能力,斩获多项行业奖项,体现了实验室在音频技术领域的技术沉淀:AI视频翻译荣获产品创新优秀案例,作为出海的神兵利器,以助力6000+部短剧走向海外,成为“文化出海”的技术标杆AI 陪伴解决方案获得技术创新优秀案例,它不仅是工具,更是具备同理心的数字百科全书菁彩家庭智能硬件解决方案获得技术创新优秀案例是国内首个落地的菁彩声量产方案让普通家庭无需重金更换设即可体验沉浸式声场。

获奖.png

同时,实验室围绕国产标准体系,持续构建核心技术底座,包括:双VividHDR & Audio VividGPMI星闪(SparkLink等技术标准,并逐步建立专业测评体系,推动行业标准化建设


未来展望

随着AI与音频技术的深度融合,声音不再只是信息载体,而将成为连接数字世界与人类情感的核心接口。未来实验室将继续深耕 AI 音视频处理、情感智能等前沿领域,深挖“人----内容”全场景潜力 。期待与更多行业伙伴携手,将“中国标准”推向全球,共同探索音频技术的无限可能。