3月23日,实时交互云服务商声网在北京举办“凤鸣AI引擎”发布会,正式发布包括AI降噪、AI回声消除、空间音效、最佳音效在内的新一代音频。 技术智能引擎。 开发者和企业可以像搭积木一样灵活调用相应组件,广泛应用于社交聊天、在线K歌、在线会议、游戏比赛、虚拟赛事等众多场景,为用户带来更纯净、更优美、更沉浸式的语音交互体验探索更多收入增长空间。

视频消除人声保留背景音乐_视频消除人声保留音乐_消除bgm保留人声

RTE场景不断丰富,高品质音频交互需求亟待满足

实时音视频技术的发展带来了大量的创新场景,从狼人杀、直播到直播电商、在线K歌、互动播客、元宇宙等。 随着场景的不断拓展,用户对实时音视频体验的要求也越来越高。

在传统的RTC概念中,从信息传输的角度来看,音频功能只提供简单的语音通信,满足单一场景和通话标准,对音质要求不高,也就是所谓的“沟通” . 声学发现,随着实时交互创新场景的出现,用户对音频体验的需求也从量变向质变演进,比如在线K歌、在线会议等场景。 脱离现实”,屏蔽外界干扰,实现纯粹的交流;对于虚拟世界、虚拟活动、游戏竞技等场景,用户希望从简单的交流中获得“极致真实”的沉浸式体验。

同时,声网也观察到,音频体验的提升可以提升平台用户的核心体验。 比如噪音的抑制可以提高语音聊天室用户的活跃度和留存率视频消除人声保留背景音乐,以及游戏黑场的通话时长; 回声消除可以显着改善用户的在线卡拉OK体验; 而立体、空间的音频体验,可以提高用户在元界社交、游戏竞技、线上会议、虚拟活动等场景中的临场感和沉浸感。

针对以上痛点和需求,声网凤鸣AI引擎应运而生。

3大音频能力+最佳音效实践,回归交互本真

通过AI驱动,声网打通了音频采集、前后处理、云端传输、编解码等环节,旨在在现有基础上,为用户打造更纯净、更动听、更沉浸的语音体验。实时互动游戏。 锦上添花,为行业开发者和企业赋能。

视频消除人声保留背景音乐_消除bgm保留人声_视频消除人声保留音乐

AI降噪强力抑制100+突发噪音,兼顾不损人声和混响抑制

想要在“脱离现实”的环境中工作娱乐,屏蔽外界干扰是基础。 相较于传统降噪算法,凤鸣AI降噪效果有明显提升,一次解决100+种突发噪音,如办公中经常遇到的击键、鼠标点击、手机铃声等场景; 环境中小孩的哭声、装修、厨房做饭的声音; 室外环境中的风声、雨声、汽车噪音。

凤鸣·AI降噪在强降噪的同时也能兼顾高保真度。 即使在人声密集的场景下,也能实现纯净的通话体验,甚至实现远场语音具有明显的混响抑制能力。 如果用户在房间里离麦克风很远,对方听到的声音会很模糊。 如果使用声网的AI降噪算法,对方也能清楚地听到用户的声音。

视频消除人声保留背景音乐_视频消除人声保留音乐_消除bgm保留人声

此外,声网研发的AI推理引擎还能让AI降噪算法在Android、iOS、Mac、Windows、Windows等主流平台上以低精度损伤、高性能、低功耗运行。 Web,让用户的设备不卡顿。 不热。根据数据测算,仅开启凤鸣·AI降噪功能,相应设备平均CPU消耗增加

2. AI回声消除强力抑制非线性回声,还原原音质

回声是影响音视频通话质量的主要因素之一。 尤其是在线会议、在线卡拉OK、多人麦克风连接等,不仅会损害通话质量,影响用户体验,还可能增加带宽。 凤鸣AI回声消除通过算法有效抑制环境中产生的回声和混响,智能适应各种环境,实现精准声源分离,从混杂的近端信号中剔除不需要的远端信号,留住近端人。 声音送至远端,完全消除回声,实现高保真音频体验。 比如在对唱等在线音乐场景中,AI回声消除可以使人声自然流畅,增益效果显着。

视频消除人声保留背景音乐_消除bgm保留人声_视频消除人声保留音乐

3.空间音效极致逼真,打造“声临其境”的互动玩法

凤鸣·Spatial Audio采用纯软件算法方案模拟头部球形区域的立体声场,利用音域音频、人声模糊、空气衰减模拟等能力,完美模拟逼真的听觉体验。 当用户操作相应角色在虚拟场景中移动时,可以根据虚拟角色的面部朝向、声源朝向、距离和高度呈现不同的音效。

视频消除人声保留音乐_视频消除人声保留背景音乐_消除bgm保留人声

空间音效是元界和3D场景玩法游戏的最佳搭档,如狼人杀、虚拟演唱会、虚拟赛事等场景,有效提升用户在线交互和听觉体验,重构用户在虚拟世界中的体验. 沉浸感和临场感。同时,开发者不用担心空间音频功能对用户设备的影响。 根据数据测算,开启凤鸣·空间音效功能后,相应设备的平均CPU消耗会增加。

那么如何结合以上的音频能力呢?

视频消除人声保留音乐_视频消除人声保留背景音乐_消除bgm保留人声

多年来,声学总结梳理了语音聊天领域各种头部APP的音频配置,整合了声学超过万亿分钟的用户音频偏好数据模型,并结合多年的沉淀和研究Acoustics音频专家,可为平台提供适合各种语音场景的最佳音频配置,帮助平台用户享受业界顶级的音频体验。 目前已推出的最佳音效包括社交聊天、K歌、游戏陪伴、专业主播等场景。 某国内顶级语音社交平台,采用声网提供的最佳音效配置方案,将空间音效、美声、电音等丰富的音效玩法融入到交互中,提升平台的留存和变现能力。

消除bgm保留人声_视频消除人声保留音乐_视频消除人声保留背景音乐

据声网音频娱乐产品负责人杨帆介绍,凤鸣AI引擎目前正在开发变声功能,用户将可以体验20+种变声风格,以及多种角色扮演风格来玩聊天场景。 声网算法专家徐冉指出,凤鸣AI引擎代表着声网在RTC音频领域核心技术的长期投入和输出,以及声网衍生各种复杂的决心。基于核心音频功能的功能和高端效果。 Net将基于凤鸣AI引擎形成新一代RTC音频解决方案,如探索更加个性化的语音解决方案、语音超解析、共体验场景等。

圆桌讨论:音频社交的下一站

发布会还邀请了先霸科技创始人兼CEO薛达、扬帆海外创始人兼CEO刘武华、科大讯飞海外解决方案产品部产品总监吴浩良、声网产品市场负责人朱超华、音频声网娱乐产品负责人杨凡就“音频社交行业现状及国内外趋势展望”、“音频技术与行业发展”等话题进行了圆桌讨论。

视频消除人声保留背景音乐_消除bgm保留人声_视频消除人声保留音乐

谈及当前的音频社交行业,杨帆指出,近年来音频社交市场规模持续增长,仍有广阔的发展空间。 一般来说,音频社交的主要玩法集中在多语言聊天室、1V1语言聊天、语音播客、游戏破解等场景。 雪达认为,语音作为用户之间的情感纽带,结合虚拟人和像ChatGPT这样的大模型,未来可能会带来新一波的社交热潮。

伴随着火热的市场前景,音频技术的提升对于行业来说可以说是如虎添翼。 正如薛达所说,降噪技术是实现虚拟空间用户体验的一个必不可少的因素,因为一般娱乐场景都会播放背景音乐,再加上人声和交互音效视频消除人声保留背景音乐,如果没有空间音效和降噪,那么用户体验就会很差。 吴浩良认为,声音是打造差异化社交玩法的重要能力。 在社交音频的赛道上,大致可以分为三种类型:音视频直播、音频内容生态、泛娱乐音频。 音频技术能力的提升,可以有效帮助业务提升用户体验。

不仅国内市场火爆,大量海外企业也纷纷押注音频社交赛道,并聚集在中东和东南亚市场。 刘五华认为,中东市场的大R市场天然契合音频社交的业务变现形式,而东南亚市场年轻用户较多。 需求旺盛,乐于尝试新鲜事物,这两个市场已经拥有成熟的产品形态和产业链。 此外,吴浩良提到,东南亚和中东市场仍处于快速发展阶段,市场机会大,用户基数大,但尚未形成绝对寡头。 相较于之前的传统社交类型,音频社交的留存能力也更高。 ,企业需要在用户兴趣的窗口期尽快实现转化。

谈及音频社交的未来趋势,刘五华表示,社交+游戏、社交+元宇宙、社交+AIGC都有很好的发展空间和前景。 杨帆也认为,元宇宙方向的场景会更受年轻人欢迎。 此外,AIGC连同语音转文字等应用,应该也会带来一波新的AI音频社交热潮。