中文文本分類
Chinese Text Classification
適用針對輸入文本(對話/語音識別後)進行分類以供下一步對話搜尋
那些自然語言處理 (Natural Language Processing, NLP) 踩的坑
中文文本糾錯、中文文本相似度、中文實體識別、中文機器閱讀理解
#naturallanguageprocessing_deeplearning101
最早我們是透過 Hierarchical Attention Networks for Document Classification (HAN) 的實作,來修正並且以自有數據進行訓練;但是這都需要使用到騰訊放出來的近16 GB 的 embedding:Tencent_AILab_ChineseEmbedding_20190926.txt,如果做推論,這會是個非常龐大需載入的檔案,直到後來 Huggingface 橫空出世,解決了 bert 剛出來時,很難將其當做推論時做 embedding 的 service (最早出現的是 bert-as-service);同時再接上 BiLSTM 跟 Attention。CPU (Macbook pro):平均速度:約 0.1 sec/sample,總記憶體消耗:約 954 MB (以 BiLSTM + Attention 為使用模型)。
引用 Huggingface transformers 套件 bert-base-chinese 模型作為模型 word2vec (embedding) 取代騰訊 pre-trained embedding
優點
API 上線時無須保留龐大的 Embedding 辭典,避免消耗大量記憶體空間
BERT 相較於傳統辭典法能更有效處理同詞異義情況
更簡單且明確的使用 BERT 或其他 Transformers-based 模型
缺點
Embedding後的結果不可控制
BERT Embedding 維度較大,在某些情況下可能造成麻煩
BiLSTM介紹及代碼實現:https://www.jiqizhixin.com/articles/2018-10-24-13
詳解Transformer (Attention Is All You Need):https://zhuanlan.zhihu.com/p/48508221
The Illustrated Transformer:http://jalammar.github.io/illustrated-transformer/
這麼多年,終於有人講清楚Transformer了:https://mp.weixin.qq.com/s/SJXxeTsqn9RoaVu66MISXQ
NLP概述和文本自動分類算法詳解:https://www.jiqizhixin.com/articles/2018-07-25-5
後來騰訊出了個 NeuralClassifier: An Open-source Neural Hierarchical Multi-label Text Classification Toolkit 有興趣的可以試試
https://github.com/Tencent/NeuralNLP-NeuralClassifier
另外就是還有一篇蠻有趣的應用:使用TextCNN模型探究惡意軟件檢測問題
01.洽談合作 Business
02.課程推銷 CourseSales
03.債務 Debt
04.房產推銷 EstateSales
05.快遞 Express
06.金融理財 Financial
07.獵頭 Hunter
08.保險推銷 InsuranceSales
09.貸款推銷 LoanSales
10.外賣 Takeaway
11.閒聊 Talk
12.通訊客服 TelCustom
Loss: 0.3855638945861429 Accuracy: 0.9133586468760787 Precision:0.8223703116934916 Recall: 0.8625087607824592
F1-Score: 0.8353070424463046 Confusion matrix:
[[186 6 4 4 4 2 10 0 4 2 2 0]
[ 6 122 0 0 0 0 0 0 0 0 1 0]
[ 6 0 506 0 0 12 4 2 16 0 22 4]
[ 4 2 0 136 0 0 0 2 0 0 0 0]
[ 0 0 4 2 546 0 0 2 0 6 12 0]
[ 4 0 0 2 0 172 0 38 8 0 2 2]
[ 0 0 2 0 0 0 140 0 0 0 4 0]
[ 2 0 0 2 0 0 0 70 0 0 0 0]
[ 4 0 5 1 0 2 1 1 562 0 0 1]
[ 0 0 0 0 6 0 0 0 0 134 4 0]
[ 0 0 2 0 0 0 0 2 0 0 68 2]
[ 8 0 0 0 1 0 0 0 0 0 0 4]]
商業洽談,1,餵你好哎你好打擾一下我這邊是奶茶飲品招商中心的就您前段時間有諮詢我們的一些項目請問您現在還考慮到這一塊嗎,就是
課程銷售,2,哎您好,哦我們是中小學在線保中心的現在我們這個幼兒園到高中的學生推出免費線上試聽的耽誤您一分鐘給您做個介紹您先了解一下好吧,哦不好意思啊剛才沒有聽清能在重複一下嗎,嗯這樣子的我們是聽課是免費的如果後期想報班的話會有專業的老師給您做詳細的解答的哦您這邊現在還是了解一下好吧,哦是這樣的我們這邊只需邀請您免費體驗一下現在是孩子提升成績的黃金時期您可以帶孩子先試聽一下嘛小學初中高中都有的在家就可以聽耽誤您一分鐘時間您先了解一下好吧
債務告警,3,您在快貸平台申請的借款已發生逾期咱請您立刻清償借款感謝您的接聽再見重聽請按一退出請挂機,重慶請代軍退出請挂機,重聽請按一退出請挂機,嗯謝謝您的接聽再見
房產銷售,4,哦餵你好姐我這邊是大卷的想問一下你們這區還考慮買房嗎,嗯暫時個超洪區錄像,男士您這邊,他這邊的均價的話是在一萬三千五到一萬七千多是精裝修的高層然後這個月月裝一點再說一個星期左右會推出洋房那個均價稍高一點是一萬八千多人請裝修陽光小戶型方式收取的保一百七十左右現在賣的高層的話有一百多的,三房還計劃
快遞通知,5,為,哎您好,嗯快遞下來拿一下,嗯,嗯嗯好的好拜拜嗯,一,哦嗯
金融推銷,6,餵你好,嗯你好我這邊是綜合股票投資的小萱為了提高我們公司的知名度呢我們每天在盤中時間呢免費給您推薦兩支短線優質個股稍後呢我加一下您微信把您午代碼發給您驗證我們的實力可以吧
獵頭招聘,7,嗯嗯餵你好哎您好我這邊是看到您的這個簡歷了瀋陽,嗯,嗯,為嗯,嗯好的那您有意思做
保險推銷,8,哎餵,嗯嗯,嗯你好是這樣我這邊是這個新一站保險網的就是有看到他有預留信息想了解終極鮮的,好拜拜那就不打擾了啊再見
貸款銷售,9,您好,您好我看您在我們鴻運當頭申請的貸款但是資料沒有填全您盡快填填資料啊就可以拿到額度了方便的話花費兩分鐘時間填寫一下,我們放款金額在三千元區一萬萬之間您可以根據個人需求來申請但是您首先要交但是您首先要資料填寫齊後提交才能審核借款呢,c率先生可以查看到不用有顧慮座機申請就可以了好的我們會為您優先審核的先不打擾了再見
外賣通知,10,呃餵你好外賣到了麻煩像拿一下,給您放樓下了
聊天對話,11,呀,哎您好這邊打擾到您這事擔心,你是誰呀,你是誰誰的助理是,嗯,我這邊的話是他們在公司的,再見您好
電信客服,12,哦餵你好就是你不是在那個平台上買了一個手機殼嗎,嗯就是不是在平台上買了一個手機殼嗎,嗯