中文語音增強(去噪)

Chinese Speech Enhancement

找到描述特定聲音特徵,並將其去除以提高質量

POC (Proof of Concept) Contact: TonTon ( at ) TWMAN.ORG

本文努力編修更新中

Real Time Speech Enhancement in the Waveform Domain

特點

  • CPU Real-time執行速度。

  • End-to-end 模型。

  • 效果與當前 SOTA 相當。

  • 基於 DEMUCS 模型。


DEMUCS @By Facebook: https://github.com/facebookresearch/demucs

  • 原用於語音分離,基於 U-Net 設計,原架構與本論文稍有不同

  • DEMUCS 屬於可實際使用的套件,不一定只提供單一種模型,在官方 github 中提到使用的為 Conv-TasNet,但所放的架構圖為 TasNet 的另一種改良。Separator的部分與上圖基本相同,而 Encoder 與 Decoder 對應層數的部分新增了類似於 U-Net 的 Skip-connection 設計

  • 本論文便是基於上圖的 DEMUCS 類似 U-Net 的模型。但此模型原本設計是用於語音分離,在中間 Separator (LSTM) 的部分會有兩個輸出,在去噪的使用場景中並不需要。因此,在論文內提到 Separator 輸出後會用一層的 Linear layer 將兩個輸出合併為一個,便可維持單一語音輸入,單一語音輸出的模式。


TasNet v.s. DEMUCS v.s. Conv-TasNet v.s. This Paper

  • 主要可分為 Encoder、Separator 與 Decoder 三塊,重點在於中間的 Separator 會計算出對應要切出的音源數量(原論文與大部分評測都是兩個聲音的分離)的 Mask 並與編碼後的輸入音源計算出各個分離後的聲音,可想像成是 Ideal Binary Mask(IBM)的進階版。

  • Conv-TasNet 則是基於 TasNet 的再改良,中間的 Separator 放棄使用 LSTM,改成使用多個 Convolution block 來計算 Mask