中文文本分類
Chinese Text Classification
適用針對輸入文本(對話/語音識別後)進行分類以供下一步對話搜尋
中文語音識別、中文語音去噪、中文文本糾錯、中文機器閱讀理解、中文實體識別、中文文本相似度、中文聲紋識別、中文語者分離
那些自然語言處理踩的坑 | 御守臺灣・科技抗疫:提高聲紋辨識正確率 更添防疫新利器 | 那些語音處理踩的坑
大型語言模型要踩的坑 | 那些ASR和TTS可能會踩的坑 | 白話文手把手帶你科普 GenAI
坑都踩完一輪,大型語言模型直接就打完收工?
那些檢索增強生成 (Retrieval-Augmented Generation, RAG) 要踩的坑
Call for Partner or POC (Proof of Concept), Contact: TonTon ( at ) TWMAN.ORG
https://github.com/Deep-Learning-101 | https://huggingface.co/DeepLearning101
Insurance (壽險) FAQ - High Entropy Alloys (材料) FAQ - Cryptocurrency Exchange (交易所) FAQ
語音質檢/噪音去除 (語音增強) - 多模態大型語言模型之單據核銷- 診斷書醫囑擷取分析
ASR 語音語料辨識修正工具 - 客服ASR文本AI糾錯系統 - 逐字稿文本內容比對工具 - 線上語音合成;GPT-SoVITS Speaker:TWMAN
首先就從所謂的情感分析也就是文本分類來聊聊,文本分類是 NLP 中最早取得顯著進展的領域且之一。從垃圾郵件分類、新聞分類到社交媒體評論的情感分析,文本分類技術都有著關鍵作用。 一開始還得依靠人工制定的規則,例如關鍵詞匹配、正則表達式等。這些方法需要大量的人工干預,且難以應對複雜的語義和多變的語言現象。接著就是依賴於人工設計的特徵和傳統的機器學習方法,如支持向量機 (SVM)和隨機森林(Random Forest)。這些模型的效果在一定程度上取決於特徵的選取,如詞袋模型(Bag of Words)或 TF-IDF,方法雖然簡單但在語言結構複雜的中文文本上往往捉襟見肘。 隨著深度學習的興起,卷積神經網絡(CNN)和長短期記憶網絡(LSTM)等方法在文本分類中的應用開始流行。這些模型能夠自動學習文本的語義表示,顯著提高了分類的準確性。 而在最近幾年,大型預訓練模型如BERT、RoBERTa和XLNet等的出現,徹底改變了文本分類的格局。這些模型可以理解上下文中的語義關係,並通過微調來適應各種特定任務,顯著提升了中文文本分類的性能。 更讓人意外的則是GPT等大型語言模型的問世,進一步推動了文本分類的進步。這些模型具有極強的生成能力,能夠基於大量未標註的文本數據進行預訓練,再通過少量標註數據進行任務微調,實現精確分類。與早期的特徵工程相比,這些模型不僅簡化了流程,還提高了分類的精確度和適應性。另外,通過微調 (Fine-tuning) 即可在特定任務上更好地處理複雜的分類場景。 回頭想想那些你得先想辦法做爬蟲,從Facebook、Twitter及Telegram上搜集用戶評論,是不是連最麻煩的是爬蟲的開發跟數據的清洗都不用了呢?(2024/10)
最早我們是透過 Hierarchical Attention Networks for Document Classification (HAN) 的實作,來修正並且以自有數據進行訓練;但是這都需要使用到騰訊放出來的近16 GB 的 embedding:Tencent_AILab_ChineseEmbedding_20190926.txt,如果做推論,這會是個非常龐大需載入的檔案,直到後來 Huggingface 橫空出世,解決了 bert 剛出來時,很難將其當做推論時做 embedding 的 service (最早出現的是 bert-as-service);同時再接上 BiLSTM 跟 Attention。CPU (Macbook pro):平均速度:約 0.1 sec/sample,總記憶體消耗:約 954 MB (以 BiLSTM + Attention 為使用模型)。
引用 Huggingface transformers 套件 bert-base-chinese 模型作為模型 word2vec (embedding) 取代騰訊 pre-trained embedding
優點
API 上線時無須保留龐大的 Embedding 辭典,避免消耗大量記憶體空間
BERT 相較於傳統辭典法能更有效處理同詞異義情況
更簡單且明確的使用 BERT 或其他 Transformers-based 模型
缺點
Embedding後的結果不可控制
BERT Embedding 維度較大,在某些情況下可能造成麻煩
BiLSTM介紹及代碼實現:https://www.jiqizhixin.com/articles/2018-10-24-13
詳解Transformer (Attention Is All You Need):https://zhuanlan.zhihu.com/p/48508221
The Illustrated Transformer:http://jalammar.github.io/illustrated-transformer/
這麼多年,終於有人講清楚Transformer了:https://mp.weixin.qq.com/s/SJXxeTsqn9RoaVu66MISXQ
NLP概述和文本自動分類算法詳解:https://www.jiqizhixin.com/articles/2018-07-25-5
後來騰訊出了個 NeuralClassifier: An Open-source Neural Hierarchical Multi-label Text Classification Toolkit 有興趣的可以試試
https://github.com/Tencent/NeuralNLP-NeuralClassifier
另外就是還有一篇蠻有趣的應用:使用TextCNN模型探究惡意軟件檢測問題
01.洽談合作 Business
02.課程推銷 CourseSales
03.債務 Debt
04.房產推銷 EstateSales
05.快遞 Express
06.金融理財 Financial
07.獵頭 Hunter
08.保險推銷 InsuranceSales
09.貸款推銷 LoanSales
10.外賣 Takeaway
11.閒聊 Talk
12.通訊客服 TelCustom
Loss: 0.3855638945861429 Accuracy: 0.9133586468760787 Precision:0.8223703116934916 Recall: 0.8625087607824592
F1-Score: 0.8353070424463046 Confusion matrix:
[[186 6 4 4 4 2 10 0 4 2 2 0]
[ 6 122 0 0 0 0 0 0 0 0 1 0]
[ 6 0 506 0 0 12 4 2 16 0 22 4]
[ 4 2 0 136 0 0 0 2 0 0 0 0]
[ 0 0 4 2 546 0 0 2 0 6 12 0]
[ 4 0 0 2 0 172 0 38 8 0 2 2]
[ 0 0 2 0 0 0 140 0 0 0 4 0]
[ 2 0 0 2 0 0 0 70 0 0 0 0]
[ 4 0 5 1 0 2 1 1 562 0 0 1]
[ 0 0 0 0 6 0 0 0 0 134 4 0]
[ 0 0 2 0 0 0 0 2 0 0 68 2]
[ 8 0 0 0 1 0 0 0 0 0 0 4]]
商業洽談,1,餵你好哎你好打擾一下我這邊是奶茶飲品招商中心的就您前段時間有諮詢我們的一些項目請問您現在還考慮到這一塊嗎,就是
課程銷售,2,哎您好,哦我們是中小學在線保中心的現在我們這個幼兒園到高中的學生推出免費線上試聽的耽誤您一分鐘給您做個介紹您先了解一下好吧,哦不好意思啊剛才沒有聽清能在重複一下嗎,嗯這樣子的我們是聽課是免費的如果後期想報班的話會有專業的老師給您做詳細的解答的哦您這邊現在還是了解一下好吧,哦是這樣的我們這邊只需邀請您免費體驗一下現在是孩子提升成績的黃金時期您可以帶孩子先試聽一下嘛小學初中高中都有的在家就可以聽耽誤您一分鐘時間您先了解一下好吧
債務告警,3,您在快貸平台申請的借款已發生逾期咱請您立刻清償借款感謝您的接聽再見重聽請按一退出請挂機,重慶請代軍退出請挂機,重聽請按一退出請挂機,嗯謝謝您的接聽再見
房產銷售,4,哦餵你好姐我這邊是大卷的想問一下你們這區還考慮買房嗎,嗯暫時個超洪區錄像,男士您這邊,他這邊的均價的話是在一萬三千五到一萬七千多是精裝修的高層然後這個月月裝一點再說一個星期左右會推出洋房那個均價稍高一點是一萬八千多人請裝修陽光小戶型方式收取的保一百七十左右現在賣的高層的話有一百多的,三房還計劃
快遞通知,5,為,哎您好,嗯快遞下來拿一下,嗯,嗯嗯好的好拜拜嗯,一,哦嗯
金融推銷,6,餵你好,嗯你好我這邊是綜合股票投資的小萱為了提高我們公司的知名度呢我們每天在盤中時間呢免費給您推薦兩支短線優質個股稍後呢我加一下您微信把您午代碼發給您驗證我們的實力可以吧
獵頭招聘,7,嗯嗯餵你好哎您好我這邊是看到您的這個簡歷了瀋陽,嗯,嗯,為嗯,嗯好的那您有意思做
保險推銷,8,哎餵,嗯嗯,嗯你好是這樣我這邊是這個新一站保險網的就是有看到他有預留信息想了解終極鮮的,好拜拜那就不打擾了啊再見
貸款銷售,9,您好,您好我看您在我們鴻運當頭申請的貸款但是資料沒有填全您盡快填填資料啊就可以拿到額度了方便的話花費兩分鐘時間填寫一下,我們放款金額在三千元區一萬萬之間您可以根據個人需求來申請但是您首先要交但是您首先要資料填寫齊後提交才能審核借款呢,c率先生可以查看到不用有顧慮座機申請就可以了好的我們會為您優先審核的先不打擾了再見
外賣通知,10,呃餵你好外賣到了麻煩像拿一下,給您放樓下了
聊天對話,11,呀,哎您好這邊打擾到您這事擔心,你是誰呀,你是誰誰的助理是,嗯,我這邊的話是他們在公司的,再見您好
電信客服,12,哦餵你好就是你不是在那個平台上買了一個手機殼嗎,嗯就是不是在平台上買了一個手機殼嗎,嗯