主要應用於拼寫錯誤、語法錯誤及語義錯誤的檢測與糾正 (像是在 ASR後的一些改錯糾正)。早期的糾錯系統多基於規則的方法,如詞典比對和簡單的語法規則,這些方法對簡單的拼寫錯誤有效,但覆蓋面有限,難以處理多樣的錯誤類型無法處理語境依賴的錯誤。 

統計語言模型和基於機器學習的方法隨後出現,將上下文納入考量,學習錯誤模式和上下文信息,通過學習大量文本數據中的共現模式來提高糾錯能力。然而,中文具有高度靈活的語序和詞彙組合,這讓糾錯成為一個更為複雜的問題。

再來是Seq2Seq 模型、Transformer 模型等深度學習模型在文本糾錯任務中取得了顯著進展。這些模型可以學習更複雜的錯誤模式,並生成更準確的糾正結果。

而基於預訓練語言模型,例如,BERT的遮罩語言模型(Masked Language Model)可以預測缺失或錯誤的詞,從而實現高效的糾錯效果。 

大型語言模型的生成能力更是賦予了中文文本糾錯全新的發展方向,作為文本糾錯的生成模型,直接生成糾正後的文本;可以更好地處理多種錯誤類型,例如拼寫錯誤、語法錯誤、語義錯誤等。這些模型能夠根據上下文語義進行更加智能的糾正,結合上下文信息,生成更符合語境的糾正結果;並且大幅減少了對人工標註數據的依賴。(2024/10)

2019/11/20-2020/02/29,投入約100天,早期上線成本資源頗高,現在就沒這問題;這個項目堪稱是在NLP這個坑裡投入第二多的,記得當時的場景是機器人在商場裡回答問題所顯示出來的文字會有一些ASR的錯字,但是問題一樣卡在數據集,還因此讓小夥伴們花了好長時間辛苦去標註 XD,但看看現在效果,我想這是值得的 ! 記得一開始是先依賴 pycorrector,然後再換 ConvSeq2Seq,當然 bert 也做了相關優化實驗,中間一度被那三番二次很愛嗆我多讀書,從RD轉職覺得自己很懂做產品的PM拿跟百度對幹,從一開始的看實驗結果輸,到後來贏了,卻又自己亂測說還是不夠好之類的叭啦叭啦,說實話,你最後不也人設垮了然後閃人 ~ 攤手 ~ 

現在看看這截圖效果,不是蠻勵害的嗎 ? 真的想說這社會真的充滿一堆人設嚇死人的人,無敵愛嘴砲 ! 搞的為了滿足那位人設比天高的需求,真的是想了像是用拼音還兼NER來整合的好幾種方法 ! 那文本糾錯會有什麼坑呢?:數據啊、格式啊 !!! 還有幾個套件所要處理的目標不太一樣,有的可以處理疊字有的可以處理連錯三個字,還有最麻煩的就是斷字了,因為現有公開大家最愛用的仍舊是Jieba,即便它是有繁中版,當然也能試試 pkuseg,但就是差了點感覺。