Search this site
Embedded Files
TonTon Huang Ph.D. | 痛 痛
  • TonTon Huang Ph.D.
    • Blog
  • Experiences
  • Research (Cyber-Security)
    • R2-D2
    • C-3PO
    • TWMAN / MiT
  • AI/ASR/NLP/CV
    • AI-Companion-Robots
    • GenAI in Finance
    • ASR (語音識別)
      • 中文語者識別(聲紋)
      • 中文語音增強(去噪)
      • 中文語者分離(分割)
    • NLP (自然語言處理)
      • 中文文本糾錯
      • 中文機器閱讀理解
      • 中文實體識別
      • 中文文本分類
      • 中文文本相似度
    • CV (電腦視覺)
    • Instruction
  • Deep Learning 101
TonTon Huang Ph.D. | 痛 痛
  • TonTon Huang Ph.D.
    • Blog
  • Experiences
  • Research (Cyber-Security)
    • R2-D2
    • C-3PO
    • TWMAN / MiT
  • AI/ASR/NLP/CV
    • AI-Companion-Robots
    • GenAI in Finance
    • ASR (語音識別)
      • 中文語者識別(聲紋)
      • 中文語音增強(去噪)
      • 中文語者分離(分割)
    • NLP (自然語言處理)
      • 中文文本糾錯
      • 中文機器閱讀理解
      • 中文實體識別
      • 中文文本分類
      • 中文文本相似度
    • CV (電腦視覺)
    • Instruction
  • Deep Learning 101
  • More
    • TonTon Huang Ph.D.
      • Blog
    • Experiences
    • Research (Cyber-Security)
      • R2-D2
      • C-3PO
      • TWMAN / MiT
    • AI/ASR/NLP/CV
      • AI-Companion-Robots
      • GenAI in Finance
      • ASR (語音識別)
        • 中文語者識別(聲紋)
        • 中文語音增強(去噪)
        • 中文語者分離(分割)
      • NLP (自然語言處理)
        • 中文文本糾錯
        • 中文機器閱讀理解
        • 中文實體識別
        • 中文文本分類
        • 中文文本相似度
      • CV (電腦視覺)
      • Instruction
    • Deep Learning 101

中文文本相似度

Chinese Text Similarity
針對輸入文本(對話)或候選詞比較是否語義相似
中文語音識別、中文語音去噪、中文文本分類、中文文本糾錯、中文機器閱讀理解、中文實體識別、中文聲紋識別、中文語者分離

Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成) | ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策
那些自然語言處理 (Natural Language Processing, NLP)踩的坑| 那些語音處理 (Speech Processing) 踩的坑
那些大型語言模型要踩的坑 | 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧 | 白話文手把手帶你科普 GenAI  
Call for Partner or POC (Proof of Concept), Contact: TonTon ( at ) TWMAN.ORG
https://deep-learning-101.github.io/ | DEMO | https://huggingface.co/DeepLearning101

早期的相似度計算方法大多基於詞語重疊率、詞向量或編碼模型(如TF-IDF)來評估兩段文本之間的相似性。然而,這些方法無法充分理解文本的語義結構,特別是在中文這樣結構複雜的語言中。 

隨著深度學習的發展,句子編碼模型(如BERT、Siamese-BERT)逐漸成為計算文本相似度的主流技術。這些模型能夠將文本轉化為高維語義向量,並通過向量距離來衡量文本之間的相似度。

大型語言模型的影響:GPT等生成式模型在文本相似度計算中也展現了潛力,特別是在多語言場景下,它們能夠有效地捕捉語義相似性,並應用於各種文本比較任務中;更令人意外的就是,已經能瞭解文本的深層語義,例如隱喻、反諷等,從而更準確地判斷文本相似度。(2024/10)

投入約45天,那時剛好遇到 albert,但最後還是被蒸溜給幹掉;會做文本相似度主要是要解決當機器人收到ASR識別後的問句,在進到關鍵字或正規表示式甚至閱讀理解前,藉由80/20從已存在的Q&A比對,然後直接解答;簡單來說就是直接比對兩個文句是否雷同,這需要準備一些經典/常見的問題以及其對應的答案,如果有問題和經典/常見問題很相似,需要可以回答其經典/常見問題的答案;畢竟中文博大精深,想要認真探討其實非常難,像是廁所在那裡跟洗手間在那,兩句話的意思真的一樣,但字卻完全不同;至於像是我不喜歡你跟你是個好人,這就是另一種相似度了 ~ xDDD ! 那關於訓練數據資料,需要將相類似的做為集合,這部份就需要依賴文本分類;你可能也聽過 TF-IDF 或者 n-gram 等,這邊就不多加解釋,建議也多查查,現在 github 上可以找到非常的範例程式碼,建議一定要先自己動手試試看 !

基于 ALBERT 的文本相似度解决方案  常見的文本相似度算法
中文预训练ALBERT模型来了:小模型登顶GLUE,Base版模型小10倍速度快1倍

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
https://arxiv.org/abs/1909.11942
https://github.com/huggingface/transformers
Pytorch版:https://github.com/lonePatient/albert_pytorch
Tensorflow版:https://github.com/brightmart/albert_zh

Taiwan's front-line battle against mobile phone fraud @ bbc.com
AI Improves the Frequency and Quality of Mobile App Notifications @ nvidia.com
ComfyUI + Multimodal Model + Segment Anything Model 2 + Stable Diffuision + FLUX
那些自然語言處理 (Natural Language Processing, NLP)踩的坑 | 那些ASR和TTS可能會踩的坑 | 那些語音處理 (Speech Processing) 踩的坑
那些大型語言模型要踩的坑 | 那些檢索增強生成 (Retrieval-Augmented Generation, RAG) 要踩的坑 | 白話文手把手帶你科普 GenAI  
Career - 十大熱門人才系列報導: 機器學習專家 | 科技抗疫: 提高聲紋辨識正確率,添防疫新利器
https://huggingface.co/DeepLearning101 | Google Scholar | ScholarGPS  | https://github.com/Deep-Learning-101

© 2010-2025 TonTon H.-D. Huang Ph.D. ALL RIGHTS RESERVED | TonTon (at) TWMAN.ORG
M.S., OASE Lab., Dept. of Information and Learning Technology (數位學習科技學系), National University of Tainan (國立臺南大學), Taiwan;Prof. Chang-Shing Lee
Ph.D., IKMLab., Dept. of Computer Science and Information Engineering (資訊工程學系), National Cheng Kung University (國立成功大學), Taiwan;Prof. Hung-Yu Kao
Over 10 years of academic research and industry hands-on experiences in Cyber-Security, Speech Processing, Natural Language Processing & Computer Vision

Report abuse
Page details
Page updated
Report abuse