本文写于 2021年12月06日,距今已超过 1 年,距 2021年12月07日 的最后一次修改也已超过 3 个月,部分内容可能已经过时,您可以按需阅读。如果图片无法显示或者下载链接失效,请给我反馈,谢谢!


0 0 投票数
评分

CMU 18786 (Fall 2021) Team 1 Project: Speech Audio Denoising

To enhance the speech signal, one current state-of-the-art denoising algorithm is using the Large DCU-Net 20 with Phone-Fortified Perceptual Loss (PFPL). It can enhance the speech signal well under Gaussian noise. However, it fails to denoise the speech under the realistic environmental background noise, as the PFPL minimizes the Wasserstein Distance and can damage the human speech when it denoises. To solve this problem, we introduce a new ASR Boosted Perceptual Loss, which merges the criterion of the ASR speech to text outcome to the PFPL loss function to prevent the loss of the speech signal. The evaluation metric we are using is PESQ, CSIG, CBAK, COVL, and SegSNR. Our method (merging ABPL with PFPL) can supersede the original PFPL approach under the realistic environmental noise by approximately 10% on average for all the evaluation metrics.

0 0 投票数
评分
1条留言
订阅评论
提醒
guest

在点击发表评论按钮时,网络请求的数据包含浏览器版本、操作系统版本和 IP 地址;您的网络服务提供商、雇主或学校、政府机构可能会看到您的访问活动;根据浏览器默认行为、操作系统设置和安全防护软件的设置不同,您的浏览器可能会也可能不会在本地 Cookies 缓存您输入的用户名、邮箱以便下次评论使用。

请对自己的言行负责。

您想以什么身份发表评论
邮箱将在您的评论被回复时给您通知
(可选)如果您也有个人网站,不妨分享一下
我对这篇文章的评分
这篇文章给您带来多大帮助
1 评论
内联反馈
查看所有评论
荒野孤灯
荒野孤灯 (@guest_3734) Edge 99.0.1150.46 Windows 10
游客
2022年5月7日 14:18

通过虫洞穿梭至此,期待回访!