TonTon Huang Ph.D. | 痛痛 - NLP (自然語言處理)

Natural Language Processing, NLP (自然語言處理)

那些自然語言處理 (Natural Language Processing, NLP) 踩的坑

中文文本糾錯、中文文本分類、中文文本相似度、中文實體識別
Call for Partner or POC (Proof of Concept) Contact: TonTon ( at ) TWMAN.ORG
中文文本摘要、手把手安裝設定、中文機器閱讀理解

自然語言處理（英語：Natural Language Processing，縮寫作 NLP）是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言；自然語言處理包括多方面和步驟，基本有認知、理解、生成等部分。自然語言認知和理解是讓電腦把輸入的語言變成有意思的符號和關係，然後根據目的再處理。自然語言生成系統則是把計算機數據轉化為自然語言。最後，放眼望去想入門 Attention、Transformer、Bert 等，絕對不能錯過李宏毅老師的教學影片。

分享這些踩過的坑還有免費DEMO跟API其實我想不到有啥好處，但至少不用為了要營利而去亂喊口號也更不用畫大餅，能做多少就是說多少；如同搞 Deep Learning 101 搞那麼久，搬桌椅、直播場佈其實比想像中麻煩，只希望讓想投入的知道 AI 這個坑其實很深，多分享總是比較好 !

基於機器閱讀理解(MRC)的指令微調(Instruction-tuning)的統一信息抽取框架之診斷書醫囑擷取分析
https://blog.twman.org/2023/07/HugIE.html

關於自然語言處理，如果你在臺灣，那你第一時間應該會想到俗稱Chatbot的聊天機器人 (就是要人工維運關鍵字跟正規表示式的機器人)吧？目前為止，從最早的中英文的情感分析，陸續接觸過文本糾錯(校正)、文本分類、文本相似度、命名實體識別、文本摘要、機器閱讀理解等 (語音部份擇日另篇分享)，當然自然語言處理其實博大精深，還有像是分詞、詞性標註、句法分析、語言生成等，傳說中的知識圖譜 (Ontology？) 更是大魔王了；這邊僅先匯整接觸過的做說明，當然在深度學習還未爆紅前，已經有非常多的演算法，未來也盡量針對各個項目與領域持續更新簡單介紹，就當近幾次專題演講的摘要，也算是這幾年跟小夥伴們奮鬥NLP充滿血與淚的回憶；另外，根據經驗，論文當然要追，更要實作跟實驗，但算法模型其實效果已經都差不多，如果你想將算法實際落地，別懷疑，請好好的處理你的數據，這會是蠻關鍵的地方。另外，你一定也要知道 BERT家族，早在2018年11月，Google 大神釋出 BERT 後，就差不多屌打各種自然語言處理應用 (在這之前，你想搞自然語言處理，勢必用到騰訊所開源需要16GB記憶體的Tencent_ChineseEmbedding)，再後來還有像是 transformer 跟 huggingface，所以你一定要花點時間瞭解；當然，如果你真的沒太多時間投入去換跟處理數據然後重新訓練，那歡迎聯絡一下，用我們還持續迭代開發的臺灣深度大師啦，不然公開數據都是對岸用語或簡體跟英文還要擠GPU計算資源，你會很頭痛 ! 對啦，你也可以試試 NVIDIA GTC 2021 介紹的Javis等對話式AI等東西，但我想你還是會覺得不容易上手就是，除非你想自己從頭硬幹去瘋狂的標註適合自己場景的數據，然後瞭解怎樣重新訓練模型。

The NLP Index：https://index.quantumstat.com/

ExplainaBoard：http://explainaboard.nlpedia.ai/

Jasper: An End-to-End Convolutional Neural Acoustic Model

中文自然語言處理數據集：https://github.com/InsaneLife/ChineseNLPCorpus

俄勒岡大學：最新輕量級多語言NLP工具集Trankit發布1.0版本：http://nlp.uoregon.edu/trankit

單模型可完成6項NLP任務，哈工大SCIR LTP再度升級，4.0版本面世：https://github.com/HIT-SCIR/ltp

ELECTRA: 超越BERT, 19年最佳NLP预训练模型：https://github.com/liuwei1206/LEBERT

高效Transformer層出不窮，谷歌團隊綜述文章一網打盡

詳解Transformer （Attention Is All You Need）

Transformer 李宏毅深度學習 HackMD

Hugging Face官方課程，Transformers庫維護者之一授課，完全免費：https://huggingface.co/course/chapter0

Natural Language Processing, NLP (自然語言處理)

中文文本糾錯、中文文本分類、中文文本相似度、中文實體識別Call for Partner or POC (Proof of Concept) Contact: TonTon ( at ) TWMAN.ORG中文文本摘要、手把手安裝設定、中文機器閱讀理解

中文文本糾錯、中文文本分類、中文文本相似度、中文實體識別
Call for Partner or POC (Proof of Concept) Contact: TonTon ( at ) TWMAN.ORG
中文文本摘要、手把手安裝設定、中文機器閱讀理解