Search this site
Embedded Files
TonTon Huang Ph.D. | 痛 痛
  • TonTon Huang Ph.D.
    • Blog
  • Experiences
  • Research (Cyber-Security)
    • R2-D2
    • C-3PO
    • TWMAN / MiT
  • AI/ASR/NLP/CV
    • AI-Companion-Robots
    • GenAI in Finance
    • ASR (語音識別)
      • 中文語者識別(聲紋)
      • 中文語音增強(去噪)
      • 中文語者分離(分割)
    • NLP (自然語言處理)
      • 中文文本糾錯
      • 中文機器閱讀理解
      • 中文實體識別
      • 中文文本分類
      • 中文文本相似度
    • CV (電腦視覺)
    • Instruction
  • Deep Learning 101
TonTon Huang Ph.D. | 痛 痛
  • TonTon Huang Ph.D.
    • Blog
  • Experiences
  • Research (Cyber-Security)
    • R2-D2
    • C-3PO
    • TWMAN / MiT
  • AI/ASR/NLP/CV
    • AI-Companion-Robots
    • GenAI in Finance
    • ASR (語音識別)
      • 中文語者識別(聲紋)
      • 中文語音增強(去噪)
      • 中文語者分離(分割)
    • NLP (自然語言處理)
      • 中文文本糾錯
      • 中文機器閱讀理解
      • 中文實體識別
      • 中文文本分類
      • 中文文本相似度
    • CV (電腦視覺)
    • Instruction
  • Deep Learning 101
  • More
    • TonTon Huang Ph.D.
      • Blog
    • Experiences
    • Research (Cyber-Security)
      • R2-D2
      • C-3PO
      • TWMAN / MiT
    • AI/ASR/NLP/CV
      • AI-Companion-Robots
      • GenAI in Finance
      • ASR (語音識別)
        • 中文語者識別(聲紋)
        • 中文語音增強(去噪)
        • 中文語者分離(分割)
      • NLP (自然語言處理)
        • 中文文本糾錯
        • 中文機器閱讀理解
        • 中文實體識別
        • 中文文本分類
        • 中文文本相似度
      • CV (電腦視覺)
      • Instruction
    • Deep Learning 101

Automatic Speech Recognition, ASR (語音識別)

通過語音信號處理和模式識別讓機器自動識別和理解人類的口述
主要用來自己做記錄,看到那測試到那就寫到那

中文語音識別、中文語音去噪、中文文本分類、中文文本糾錯、中文機器閱讀理解、中文實體識別、中文文本相似度、中文聲紋識別、中文語者分離
Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成) | ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策
那些自然語言處理 (Natural Language Processing, NLP)踩的坑| 那些語音處理 (Speech Processing) 踩的坑
那些大型語言模型要踩的坑 | 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧 | 白話文手把手帶你科普 GenAI  
Call for Partner or POC (Proof of Concept), Contact: TonTon ( at ) TWMAN.ORG
https://deep-learning-101.github.io/ | DEMO | https://huggingface.co/DeepLearning101

早期發展主要基於隱馬爾可夫模型(HMM)和高斯混合模型(GMM),這些統計模型雖然在處理連續語音上有所突破,但受限於模型容量,難以應對中文的多樣性。

深度學習的崛起,基於端到端的模型,Transformer逐漸成為語音識別的主流技術。Whisper已經能夠在中文語音識別領域取得非常優異的表現;這些模型能夠直接從原始語音數據中學習特徵,並進行語音到文本的轉換。

在語音識別中,GPT和其他大規模模型正在被探索應用。這些模型的多模態能力(如語音和文本的融合)使它們有可能在語音識別和文本生成中實現更加自然的交互。那些ASR和TTS可能會踩的坑 (2024/10)

  • Whisper

  • WeNet

  • FunASR

語音辨識(speech recognition)技術,也被稱為自動語音辨識(英語:Automatic Speech Recognition, ASR)、電腦語音識別(英語:Computer Speech Recognition)或是語音轉文字識別(英語:Speech To Text, STT),其目標是以電腦自動將人類的語音內容轉換為相應的文字;跟小夥伴們一起嘗試過NEMO還有Kaldi、MASR、VOSK,wav2vec以及Google、Azure等API,更別說後來陸續又出現SpeechBrain、出門問問的WeNet跟騰訊PIKA等。目前已知可訓練聲學模型(AM)中文語音(中國發音/用語,可惜還沒臺灣較靠譜的)公開數據如:Magic-Data_Mandarin-Chinese-Read-Speech-Corpus、aidatatang、aishell-1 、aishell-2等約2000多小時(aishell目前已到4,但想商用至少得破萬小時較靠譜);再搭配語言模型(LM),然後基於各種演算法架構優化各有優缺點,效果也各有優劣。與說話人辨識及說話人確認不同,後者嘗試辨識或確認發出語音的說話人而非其中所包含的詞彙內容。 語音辨識技術的應用包括語音撥號、語音導航、室內裝置控制、語音文件檢索、簡單的聽寫資料錄入等。語音辨識技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加複雜的應用,例如語音到語音的翻譯。語音辨識技術所涉及的領域包括:訊號處理、圖型識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。

Self-Supervised Speech Representation Learning: A Review

語音識別長篇研究 (一)、語音識別長篇研究 (二)、語音識別長篇研究 (三)、語音識別長篇研究 (四)、語音識別長篇研究 (五)

Deep Learning for Human Language Processing (2020,Spring) @ 李宏毅 (Hung-yi Lee)、语音交互:聊聊语音识别-ASR

WeNet: Production First and Production Ready End-to-End Speech Recognition Toolkit:https://github.com/mobvoi/wenet/

Speech Brain:A PyTorch-based Speech Toolkit      K2 (Kaldi2)

QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions

Self-training and Pre-training are Complementary for Speech Recognition

中文版 Wav2vec 2.0和HuBERT (github) | PaddleSpeech (github)| WenetSpeech的流式模型 (github)

Kaldi-ASR Install Guide & error

https://zhuanlan.zhihu.com/p/148524930

https://zhuanlan.zhihu.com/p/44483840

  1. 下載Kaldi原始碼

    • git clone https://github.com/kaldi-asr/kaldi.git

  2. 安裝相關套件,會發現很多相依套件沒安裝

cd kaldi/tools/extras

./check_dependencies.sh

tools/extras/check_dependencies.sh: sox is not installed.
tools/extras/check_dependencies.sh: gfortran is not installed.
tools/extras/check_dependencies.sh: subversion is not installed

    • 根據結果安裝相依套件

sudo apt-get install zlib1g-dev automake autoconf sox gfortran subversion

    • 安裝 intel-mkl 很常報錯,像是下面這樣

sudo tools/extras/install_mkl.sh -sp debian intel-mkl-64bit-2020.0-088

Err:9 http://ppa.launchpad.net/jonathonf/python-3.6/ubuntu xenial Release 403 Forbidden [IP:91.189.95.85 80]
Reading package lists... Done
W: GPG error: http://dl.google.com/linux/chrome/deb stable InRelease:
The following signatures couldn't be verified because the public key is not available: NO_PUBKEY 78BD65473CB3BD13
E: The repository 'http://dl.google.com/linux/chrome/deb stable InRelease' is not signed. N: Updating from such a repository can't be done securely, and is therefore disabled by default. N: See apt-secure(8) manpage for repository creation and user configuration details. E: The repository 'http://ppa.launchpad.net/jonathonf/python-3.6/ubuntu xenial Release' does not have a Release file. N: Updating from such a repository can't be done securely, and is therefore disabled by default. N: See apt-secure(8) manpage for repository creation and user configuration details.

    • 打開Software & Updates,切換到Other Software選項,找到如下方右圖的選項,把前面的勾去掉 (但是我只有 terminal 怎辦 ?)

直接把相關的安裝源刪除,然後再安裝一次 intel-mkl

/etc/apt/sources.list.d
sudo rm /etc/apt/sources.list.d/jonathonf-ubuntu-python-3_6-xenial.list
sudo rm /etc/apt/sources.list.d/google-chrome.list
sudo apt update

    • sudo tools/extras/install_mkl.sh -sp debian intel-mkl-64bit-2020.0-088

    • 安裝第三方工具及語言模型

    • cd kaldi/tools
      sudo apt-get install libtool

sudo make openfst
sudo make cub

    • sudo extras/install_irstlm.sh
      sudo extras/install_openblas.sh

  1. 編譯安裝與測試

    • cd kaldi/src
      ./configure --shared
      make depend -j 8
      make -j 8

    • cd ../egs/yesno/s5/
      ./run.sh
      %WER 0.00 [ 0 / 232, 0 ins, 0 del, 0 sub ] exp/mono0a/decode_test_yesno/wer_10_0.0

Taiwan's front-line battle against mobile phone fraud @ bbc.com
AI Improves the Frequency and Quality of Mobile App Notifications @ nvidia.com
ComfyUI + Multimodal Model + Segment Anything Model 2 + Stable Diffuision + FLUX
那些自然語言處理 (Natural Language Processing, NLP)踩的坑 | 那些ASR和TTS可能會踩的坑 | 那些語音處理 (Speech Processing) 踩的坑
那些大型語言模型要踩的坑 | 那些檢索增強生成 (Retrieval-Augmented Generation, RAG) 要踩的坑 | 白話文手把手帶你科普 GenAI  
Career - 十大熱門人才系列報導: 機器學習專家 | 科技抗疫: 提高聲紋辨識正確率,添防疫新利器
https://huggingface.co/DeepLearning101 | Google Scholar | ScholarGPS  | https://github.com/Deep-Learning-101

© 2010-2025 TonTon H.-D. Huang Ph.D. ALL RIGHTS RESERVED | TonTon (at) TWMAN.ORG
M.S., OASE Lab., Dept. of Information and Learning Technology (數位學習科技學系), National University of Tainan (國立臺南大學), Taiwan;Prof. Chang-Shing Lee
Ph.D., IKMLab., Dept. of Computer Science and Information Engineering (資訊工程學系), National Cheng Kung University (國立成功大學), Taiwan;Prof. Hung-Yu Kao
Over 10 years of academic research and industry hands-on experiences in Cyber-Security, Speech Processing, Natural Language Processing & Computer Vision

Report abuse
Page details
Page updated
Report abuse