中文文本相似度

Chinese Text Similarity

針對輸入文本(對話)或候選詞比較是否語義相似

那些自然語言處理 (Natural Language Processing, NLP) 踩的坑

中文文本糾錯、中文文本分類、中文實體識別、中文機器閱讀理解
https://github.com/Deep-Learning-101

投入約45天，那時剛好遇到 albert，但最後還是被蒸溜給幹掉；會做文本相似度主要是要解決當機器人收到ASR識別後的問句，在進到關鍵字或正規表示式甚至閱讀理解前，藉由80/20從已存在的Q&A比對，然後直接解答；簡單來說就是直接比對兩個文句是否雷同，這需要準備一些經典/常見的問題以及其對應的答案，如果有問題和經典/常見問題很相似，需要可以回答其經典/常見問題的答案；畢竟中文博大精深，想要認真探討其實非常難，像是廁所在那裡跟洗手間在那，兩句話的意思真的一樣，但字卻完全不同；至於像是我不喜歡你跟你是個好人，這就是另一種相似度了 ~ xDDD ! 那關於訓練數據資料，需要將相類似的做為集合，這部份就需要依賴文本分類；你可能也聽過 TF-IDF 或者 n-gram 等，這邊就不多加解釋，建議也多查查，現在 github 上可以找到非常的範例程式碼，建議一定要先自己動手試試看 !

基于 ALBERT 的文本相似度解决方案常見的文本相似度算法
 中文预训练ALBERT模型来了：小模型登顶GLUE，Base版模型小10倍速度快1倍

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
https://arxiv.org/abs/1909.11942
https://github.com/huggingface/transformers
Pytorch版：https://github.com/lonePatient/albert_pytorch
Tensorflow版：https://github.com/brightmart/albert_zh

中文文本相似度

中文文本糾錯、中文文本分類、中文實體識別、中文機器閱讀理解https://github.com/Deep-Learning-101

ALBERT: A Lite BERT for Self-supervised Learning of Language Representationshttps://arxiv.org/abs/1909.11942https://github.com/huggingface/transformers Pytorch版：https://github.com/lonePatient/albert_pytorch Tensorflow版：https://github.com/brightmart/albert_zh

中文文本糾錯、中文文本分類、中文實體識別、中文機器閱讀理解
https://github.com/Deep-Learning-101

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
https://arxiv.org/abs/1909.11942
https://github.com/huggingface/transformers
Pytorch版：https://github.com/lonePatient/albert_pytorch
Tensorflow版：https://github.com/brightmart/albert_zh