中文文本分類

Chinese Text Classification (DEMO)

適用針對輸入文本(對話/語音識別後)進行分類以供下一步對話搜尋

POC (Proof of Concept) Contact: TonTon ( at ) TWMAN.ORG

本文由 Ian Wang 撰寫初稿後再進行編修,且持續更新中

先點一下對話框再輸入想進行分類的文本;目前僅暫開放購物中心類

curl -i -X POST \

-H "Content-Type:application/json" \

-d \

'{"message":"帶我去麥當勞"}' \

'http://Your_Server_IP'

curl -i -X POST \

-H "Content-Type:application/json" \

-d \

'{"message": ["洛杉磯的凌晨四點"]}' \

'http://Your_Server_IP/result'

Transformers: State-of-the-art Natural Language Processing for Pytorch and TensorFlow 2.0.

https://github.com/huggingface/transformers

01.洽談合作     Business
02.課程推銷     CourseSales
03.債務        Debt
04.房產推銷     EstateSales
05.快遞        Express
06.金融理財     Financial
07.獵頭        Hunter
08.保險推銷     InsuranceSales
09.貸款推銷     LoanSales
10.外賣        Takeaway
11.閒聊        Talk
12.通訊客服     TelCustom
Loss: 0.3855638945861429 Accuracy: 0.9133586468760787 Precision:0.8223703116934916 Recall: 0.8625087607824592 F1-Score: 0.8353070424463046 Confusion matrix: 
[[186   6   4   4   4   2  10   0   4   2   2   0]
 [  6 122   0   0   0   0   0   0   0   0   1   0]
 [  6   0 506   0   0  12   4   2  16   0  22   4]
 [  4   2   0 136   0   0   0   2   0   0   0   0]
 [  0   0   4   2 546   0   0   2   0   6  12   0]
 [  4   0   0   2   0 172   0  38   8   0   2   2]
 [  0   0   2   0   0   0 140   0   0   0   4   0]
 [  2   0   0   2   0   0   0  70   0   0   0   0]
 [  4   0   5   1   0   2   1   1 562   0   0   1]
 [  0   0   0   0   6   0   0   0   0 134   4   0]
 [  0   0   2   0   0   0   0   2   0   0  68   2]
 [  8   0   0   0   1   0   0   0   0   0   0   4]]
商業洽談,1,餵你好哎你好打擾一下我這邊是奶茶飲品招商中心的就您前段時間有諮詢我們的一些項目請問您現在還考慮到這一塊嗎,就是
課程銷售,2,哎您好,哦我們是中小學在線保中心的現在我們這個幼兒園到高中的學生推出免費線上試聽的耽誤您一分鐘給您做個介紹您先了解一下好吧,哦不好意思啊剛才沒有聽清能在重複一下嗎,嗯這樣子的我們是聽課是免費的如果後期想報班的話會有專業的老師給您做詳細的解答的哦您這邊現在還是了解一下好吧,哦是這樣的我們這邊只需邀請您免費體驗一下現在是孩子提升成績的黃金時期您可以帶孩子先試聽一下嘛小學初中高中都有的在家就可以聽耽誤您一分鐘時間您先了解一下好吧
債務告警,3,您在快貸平台申請的借款已發生逾期咱請您立刻清償借款感謝您的接聽再見重聽請按一退出請挂機,重慶請代軍退出請挂機,重聽請按一退出請挂機,嗯謝謝您的接聽再見
房產銷售,4,哦餵你好姐我這邊是大卷的想問一下你們這區還考慮買房嗎,嗯暫時個超洪區錄像,男士您這邊,他這邊的均價的話是在一萬三千五到一萬七千多是精裝修的高層然後這個月月裝一點再說一個星期左右會推出洋房那個均價稍高一點是一萬八千多人請裝修陽光小戶型方式收取的保一百七十左右現在賣的高層的話有一百多的,三房還計劃
快遞通知,5,為,哎您好,嗯快遞下來拿一下,嗯,嗯嗯好的好拜拜嗯,一,哦嗯
金融推銷,6,餵你好,嗯你好我這邊是綜合股票投資的小萱為了提高我們公司的知名度呢我們每天在盤中時間呢免費給您推薦兩支短線優質個股稍後呢我加一下您微信把您午代碼發給您驗證我們的實力可以吧
獵頭招聘,7,嗯嗯餵你好哎您好我這邊是看到您的這個簡歷了瀋陽,嗯,嗯,為嗯,嗯好的那您有意思做
保險推銷,8,哎餵,嗯嗯,嗯你好是這樣我這邊是這個新一站保險網的就是有看到他有預留信息想了解終極鮮的,好拜拜那就不打擾了啊再見
貸款銷售,9,您好,您好我看您在我們鴻運當頭申請的貸款但是資料沒有填全您盡快填填資料啊就可以拿到額度了方便的話花費兩分鐘時間填寫一下,我們放款金額在三千元區一萬萬之間您可以根據個人需求來申請但是您首先要交但是您首先要資料填寫齊後提交才能審核借款呢,c率先生可以查看到不用有顧慮座機申請就可以了好的我們會為您優先審核的先不打擾了再見
外賣通知,10,呃餵你好外賣到了麻煩像拿一下,給您放樓下了
聊天對話,11,呀,哎您好這邊打擾到您這事擔心,你是誰呀,你是誰誰的助理是,嗯,我這邊的話是他們在公司的,再見您好
電信客服,12,哦餵你好就是你不是在那個平台上買了一個手機殼嗎,嗯就是不是在平台上買了一個手機殼嗎,嗯

BERT+BiLSTM+Attention

Epoch: 66

Training time: 1h 34m 33s

Accuracy: 0.9267

loss: 0.5153

Confusion matrix:

[[5162, 341],

[83, 202]]

BERT+TextCNN

Epoch: 175

Training time: 2h 18m 16s

Accuracy: 0.9155

loss: 0.9044

Confusion matrix:

[[5091, 412],

[77, 208]]

Tencent Embedding + BiGRU + Attention

Epoch: 17

Training time: 6h 1m 18s

Accuracy: 0.8944

loss: 0.5656

Confusion matrix:

[[4946, 557],

[54, 231]]

引用 Huggingface transformers 套件 bert-base-chinese 模型作為模型 word2vec (embedding) 取代騰訊 pre-trained embedding

  • 優點
    • API 上線時無須保留龐大的 Embedding 辭典,避免消耗大量記憶體空間
    • BERT 相較於傳統辭典法能更有效處理同詞異義情況
    • 更簡單且明確的使用 BERT 或其他 Transformers-based 模型
  • 缺點
    • Embedding後的結果不可控制
    • BERT Embedding 維度較大,在某些情況下可能造成麻煩