机械设备多模态声源分离方法研究

时间:2023-09-16 08:54:13
作者:简 斌1,肖晓萍2*,李自胜1,张 楷3,袁 昊1
关键字:机械设备,多模态数据,特征融合,声源分离,卷积神经网络
DOI:10.3969/j.issn.1673-629X.2023.06.031
查看次数:659

如需要完整文档点击下方 "点击下载文档" 按钮

针对单模态混合信号分离方法存在的无法确定机械设备与声源对应关系的问题,提出一种多模态特征融合的机械设备声源分离方法。 首先,通过利用多组不同尺度的特征提取层,构建一种多尺度特征提取结构的 Res2Net18 网络,以提取机械设备细粒度视觉特征;再用坐标注意力机制模块替换 UNet 网络中直接跳跃连接,以增强编码器中不同音频特征的空间位置信息表达。 其次,将机械设备视觉特征融入混合音频特征中生成对应声源掩码,再利用掩码与混合音频频谱结合得到独立声源频谱,从而实现根据视觉特征分离对应机械设备声源,该方法有效解决了单模态混合信号分离方法存在的无法确定机械设备与声源对应关系的问题。 最后,在机械设备数据集上 SDR、SIR 和 SAR 分别达到 6. 14 dB、8. 59dB和 18. 33 dB,与现有三种多模态声源分离模型进行对比,所提多模态声源分离方法在 SDR 和 SAR 均取得最优结果,验证了多模态声源分离方法的有效性。

如需要完整文档点击下方 "点击下载文档" 按钮

机械设备多模态声源分离方法研究
《机械设备多模态声源分离方法研究》
完整文档 下载到本地,方便收藏和查阅
文件号:058212
机械设备多模态声源分离方法研究
点击下载文档
机械设备多模态声源分离方法研究

点击下载 文件号:058212(点击复制) 公众号(点击复制)

x