DCASE 2023获三项冠军，机器怎样拥有更“灵敏”的耳朵？焦点热文

您现在的位置 : 网站首页 > 聚焦 > > 列表

2023-06-30 08:51:00 来源：科大讯飞

继2020年以及2022年在国际声学场景和事件检测及分类挑战赛（Challenge on Detection and Classification of Acoustic Scenes and Events，简称DCASE）中获得声音事件定位与检测冠军以及小样本动物声音检测冠军之后，今年，科大讯飞研究院联合中科大语音及语言信息处理国家工程研究中心（简称NERCSLIP）、国家智能语音创新中心和中国矿业大学智能信息处理团队再次展现不俗实力，获得三项冠军。

(资料图片)

DCASE是目前声音事件领域最权威的竞赛，自2013年组织发起以来已举办9届。DCASE 2023挑战赛设置了7个任务，吸引了全球123支队伍进行角逐； 在声音事件定位与检测任务上，本次赛事相较于去年的单音频赛道增设了音视频赛道 。 小样本动物声音事件检测任务则在今年增加了更多未知的动物类别，以及要求不能使用多系统融合策略 。

科大讯飞-中科大-创新中心联合团队在声音事件定位与检测任务上取得音频赛道以及音视频赛道双项第一的成绩，科大讯飞-中科大-中国矿业大学联合团队在小样本动物声音事件检测任务上也以显著领先优势夺得冠军，再次用实力证明了在智能音频技术领域的国际领先地位以及音视频算法技术的优势。

如何让机器像人耳一样分离、分辨声音？

本次声音事件定位与检测（简称SELD）任务的测试数据在真实场景下录制，不同类别的声音事件在时域重叠率较高，且时长分布存在较大差异，极大增加了比赛难度。

当多个声音混叠在一起时，人耳能够轻松分离出各个声源并且定位到感兴趣的声音。如何使得模型具有像人耳一样的声音分离能力，进而更准确地判断声音的来源？这也是本次团队的一个技术创新点。

Task3音频赛道联合团队提出的融合声音分离的方法

基于此前在DCASE 2022 Task3夺冠所提出的音频通道交换数据增强方法， 联合团队进一步提出了与声音分离任务相结合的框架 。具体来说，联合团队提出类别相关的声音分离模型来解决高重叠率情况下预测准确率不佳的问题，然后提取分离的声音特征并与混合的声音特征融合作为主干网络的输入来估计目标声音的位置。

融合声音分离模型的策略有效地降低了时长分布和声源距离分布不均带来的影响，减少了对远场、声音较小、出现频率较低的声音类别的检测误差。

最终联合团队在检测错误率、检测F-score、定位错误率以及定位召回率四项指标中全部斩获第一，夺得单音频赛道冠军。

联合团队在Task3音频赛道中夺冠

给机器安上“眼睛” 四重保障让听声辨位更准、更强

此次新增的音视频赛道中，官方发布了与音频数据对应的360o视频信息，但音视频数据时长仅有小时，本赛道的难点也呼之欲出：如何基于极小的数据集设计音视频融合方法？

针对此次比赛，联合团队提出多个有效的技术方法来解决真实场景下音视频声音事件定位与检测任务：

首先提出与音频通道交换相匹配的 视频像素交换数据增强 方法，显著增加空间方位信息的多样性，提高多模态模型在复杂环境下的鲁棒性；其次利用目标检测算法提取视频信息并生成 位置相关的类高斯向量 特征，来表示沿图像水平和垂直轴存在目标的可能性，该高斯特征与声学特征进行早期融合作为主干网络的输入；进一步提出 跨模态迁移学习 的策略使用音频赛道模型作为初始化，提高多模态模型在小数据集上的泛化能力；最后引入 音视频决策融合 的方法提高声源定位的准确性，即使用人体关键点检测算法估计发声目标的位置并与多模态模型预测的声源位置进行融合。

Task3音视频赛道联合团队提出的决策融合方法

通过上述方案，联合团队最终在新增的音视频赛道取得%的F-score, 以超越第二名绝对值15%的大幅优势获得冠军，也实现了全新突破。

联合团队在Task3音视频赛道中夺冠

解析动物交响乐方案再升级：

多任务学习框架

DCASE 2023挑战赛小样本动物声音事件检测赛道中，需要在给定一长段音频以及目标声音前5个片段时间信息的条件下，从这段音频剩余的部分查找出所有目标声音的起始及结束时间。目标声音均为动物发出的声音，例如美洲麻雀、北美红雀等。

Task5小样本动物声音事件检测任务说明

此项比赛有以下难点：一、 测试集与训练集关联度低 ，采集场地、设备、动物类别等均无重合，训练数据的动物叫声类别很少，动物叫声差异较大，很难完全依赖训练集进行目标声音检测；二、测试音频质量差，不但存在其他类别的动物叫声干扰、摩托引擎声等噪声，还 存在重叠音现象，同时给定的目标音频非常短 ，极大增加了比赛难度。

凭借多年技术积累与不断探索创新， 联合团队在去年夺冠的有监督和半监督相结合的帧级小样本检测方案基础上，进一步提出了与多任务学习框架相结合的方案。

在有监督方案中，区别于该类任务中普遍使用的段级别表征学习，联合团队提出帧级表征学习方案来解决不同动物叫声时长上的差异。引入半监督方案是为了尽可能充分地利用少量标注信息，不但有效利用训练数据，而且充分利用测试数据进行动态自适应学习。

在多任务学习框架中，团队创新性设计了基于目标先验的事件滤波任务优化目标检测区间的边界信息，该任务可以驱动模型去学习不同事件在时频域上的特性，提升自适应能力，并与事件分类任务联合优化。最终，结合多项技术打造的小样本动物声音事件检测系统在 测试集上F-score得分达到% ，以超越第二名绝对值%的显著优势再次获得冠军。

联合团队在Task5中夺冠

机器辨声应用落地助力工业AI检测

科大讯飞已将声音定位与检测技术应用于电力、矿山等领域，借助讯飞工业听诊器等产品，通过“全景听声”、24小时远程对工业设备声纹进行监测，定位到异常声音后智能化预警并可视呈现，避免设备故障导致生产中断，提高工业远程巡检效率。

工业听诊器就像检测机器故障的“工业医生”，已经在全国二十多个变电站、风电站、水电站等场景运行70000余小时，成功识别出铁芯接地故障和直流偏磁异常，精准捕捉到开关蓄能、操作刀闸放电、变电站异常操作、环境异常声等潜在风险，预计每年可节省50%以上的人工巡检工作量。

此外，科大讯飞还进一步将听觉与视觉、触觉、嗅觉、味觉及工业大脑相融合，融合“工业六感”技术研发出可以“看”到工业设备故障的声学成像仪，支持多维度智能感知监测、健康智能评估、故障辅助诊断的工业设备卫士，“耳聪目明”的工业巡检机器人等。这些产品都已经在电力、矿山、燃气等多领域发挥效用，助力工业AI检测。

让机器拥有更“灵敏”的耳朵，不仅能实现更自然的全新人机交互方式，也能让人工智能在更多领域发掘落地场景、更好实现应用。未来，科大讯飞将持续开展智能音频技术的研究与创新，也将不断探索和推动相关技术的应用。

标签：