中文文本糾錯

Chinese Text Correction
適用於針對輸入文本(對話)，特別是語音識別同音異字等進行改錯
中文語音識別、中文語音去噪、中文文本分類、中文機器閱讀理解、中文實體識別、中文文本相似度、中文聲紋識別、中文語者分離

Diffusion Model 完全解析：從原理、應用到實作 (AI 圖像生成) | ASR/TTS 開發避坑指南：語音辨識與合成的常見挑戰與對策
那些自然語言處理 (Natural Language Processing, NLP)踩的坑| 那些語音處理 (Speech Processing) 踩的坑
那些大型語言模型要踩的坑 | 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧 | 白話文手把手帶你科普 GenAI
Call for Partner or POC (Proof of Concept), Contact: TonTon ( at ) TWMAN.ORG
https://deep-learning-101.github.io/ | DEMO | https://huggingface.co/DeepLearning101

主要應用於拼寫錯誤、語法錯誤及語義錯誤的檢測與糾正 (像是在 ASR後的一些改錯糾正)。早期的糾錯系統多基於規則的方法，如詞典比對和簡單的語法規則，這些方法對簡單的拼寫錯誤有效，但覆蓋面有限，難以處理多樣的錯誤類型無法處理語境依賴的錯誤。

統計語言模型和基於機器學習的方法隨後出現，將上下文納入考量，學習錯誤模式和上下文信息，通過學習大量文本數據中的共現模式來提高糾錯能力。然而，中文具有高度靈活的語序和詞彙組合，這讓糾錯成為一個更為複雜的問題。

再來是Seq2Seq 模型、Transformer 模型等深度學習模型在文本糾錯任務中取得了顯著進展。這些模型可以學習更複雜的錯誤模式，並生成更準確的糾正結果。

而基於預訓練語言模型，例如，BERT的遮罩語言模型(Masked Language Model)可以預測缺失或錯誤的詞，從而實現高效的糾錯效果。

大型語言模型的生成能力更是賦予了中文文本糾錯全新的發展方向，作為文本糾錯的生成模型，直接生成糾正後的文本；可以更好地處理多種錯誤類型，例如拼寫錯誤、語法錯誤、語義錯誤等。這些模型能夠根據上下文語義進行更加智能的糾正，結合上下文信息，生成更符合語境的糾正結果；並且大幅減少了對人工標註數據的依賴。(2024/10)

2019/11/20-2020/02/29，投入約100天，早期上線成本資源頗高，現在就沒這問題；這個項目堪稱是在NLP這個坑裡投入第二多的，記得當時的場景是機器人在商場裡回答問題所顯示出來的文字會有一些ASR的錯字，但是問題一樣卡在數據集，還因此讓小夥伴們花了好長時間辛苦去標註 XD，但看看現在效果，我想這是值得的 ! 記得一開始是先依賴 pycorrector，然後再換 ConvSeq2Seq，當然 bert 也做了相關優化實驗，中間一度被那三番二次很愛嗆我多讀書，從RD轉職覺得自己很懂做產品的PM拿跟百度對幹，從一開始的看實驗結果輸，到後來贏了，卻又自己亂測說還是不夠好之類的叭啦叭啦，說實話，你最後不也人設垮了然後閃人 ~ 攤手 ~

現在看看這截圖效果，不是蠻勵害的嗎 ? 真的想說這社會真的充滿一堆人設嚇死人的人，無敵愛嘴砲 ! 搞的為了滿足那位人設比天高的需求，真的是想了像是用拼音還兼NER來整合的好幾種方法 ! 那文本糾錯會有什麼坑呢？：數據啊、格式啊 !!! 還有幾個套件所要處理的目標不太一樣，有的可以處理疊字有的可以處理連錯三個字，還有最麻煩的就是斷字了，因為現有公開大家最愛用的仍舊是Jieba，即便它是有繁中版，當然也能試試 pkuseg，但就是差了點感覺。

Cui, Y., Che, W., Liu, T., Qin, B., Wang, S., & Hu, G. (2020). Revisiting Pre-Trained Models for Chinese Natural Language Processing. Findings of the EMNLP, 657–668

github

Page updated

Report abuse