Search this site
Embedded Files
TonTon Huang Ph.D. | 痛 痛
  • TonTon Huang Ph.D.
    • Blog
  • Experiences
  • Research (Cyber-Security)
    • R2-D2
    • C-3PO
    • TWMAN / MiT
  • AI/ASR/NLP/CV
    • AI-Companion-Robots
    • GenAI in Finance
    • ASR (語音識別)
      • 中文語者識別(聲紋)
      • 中文語音增強(去噪)
      • 中文語者分離(分割)
    • NLP (自然語言處理)
      • 中文文本糾錯
      • 中文機器閱讀理解
      • 中文實體識別
      • 中文文本分類
      • 中文文本相似度
    • CV (電腦視覺)
    • Instruction
  • Deep Learning 101
TonTon Huang Ph.D. | 痛 痛
  • TonTon Huang Ph.D.
    • Blog
  • Experiences
  • Research (Cyber-Security)
    • R2-D2
    • C-3PO
    • TWMAN / MiT
  • AI/ASR/NLP/CV
    • AI-Companion-Robots
    • GenAI in Finance
    • ASR (語音識別)
      • 中文語者識別(聲紋)
      • 中文語音增強(去噪)
      • 中文語者分離(分割)
    • NLP (自然語言處理)
      • 中文文本糾錯
      • 中文機器閱讀理解
      • 中文實體識別
      • 中文文本分類
      • 中文文本相似度
    • CV (電腦視覺)
    • Instruction
  • Deep Learning 101
  • More
    • TonTon Huang Ph.D.
      • Blog
    • Experiences
    • Research (Cyber-Security)
      • R2-D2
      • C-3PO
      • TWMAN / MiT
    • AI/ASR/NLP/CV
      • AI-Companion-Robots
      • GenAI in Finance
      • ASR (語音識別)
        • 中文語者識別(聲紋)
        • 中文語音增強(去噪)
        • 中文語者分離(分割)
      • NLP (自然語言處理)
        • 中文文本糾錯
        • 中文機器閱讀理解
        • 中文實體識別
        • 中文文本分類
        • 中文文本相似度
      • CV (電腦視覺)
      • Instruction
    • Deep Learning 101
避開 AI Agent 開發陷阱:常見問題、挑戰與解決方案 (那些 AI Agent 實戰踩過的坑)
檢索增強生成 (Retrieval-Augmented Generation, RAG) 不是萬靈丹之優化挑戰技巧
大型語言模型 (LLM) 入門完整指南:原理、應用與未來
什麼是大語言模型,它是什麼?想要嗎?(Large Language Model,LLM)
白話文手把手帶你科普 GenAI

這個頁面是匯整從 LLM 到 RAG 再到 AI Agent 的文章摘要,更多細節請參閱各標題連結

Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成) | ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策
那些自然語言處理 (Natural Language Processing, NLP)踩的坑| 那些語音處理 (Speech Processing) 踩的坑
那些大型語言模型要踩的坑 | 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧 | 白話文手把手帶你科普 GenAI  
Call for Partner or POC (Proof of Concept), Contact: TonTon ( at ) TWMAN.ORG
https://deep-learning-101.github.io/ | DEMO | https://huggingface.co/DeepLearning101
中文語音識別、中文語音去噪、中文文本分類、中文文本糾錯、中文機器閱讀理解、中文實體識別、中文文本相似度、中文聲紋識別、中文語者分離

避開 AI Agent 開發陷阱:常見問題、挑戰與解決方案 (那些 AI Agent 實戰踩過的坑)

https://deep-learning-101.github.io/agent

  • 探討多種 AI 代理人工具的應用經驗、體驗與挑戰,分享實用經驗與工具 (部分在安裝過程存在挑戰) 推薦

AI Search Has A Citation Problem

  • 大多數無法準確搜尋文章,以至於做了不準確的回答

  • 當所提供答案是錯誤時,會表現出極度自信

  • 付費並不會因為正確率可能較高,錯誤率就比較少

  • 忽略robots.txt協議,存取被禁止的內容

  • 引用的文章通常是錯的版本,引用被聚合或複製的內容

  • 甚至,連結是偽造的或無效的,導致無法驗證資訊來源

suna (它是manus 倒過來寫):www.suna.so
2025-04-23,3週時間,就打造出Manus開源平替!貢獻原始碼,免費用

  • 範例:B2C人工智慧市場研究

  • https://github.com/kortix-ai/suna

  • 由Kortix AI 團隊打造,開源且完全免費

  • 符合大多數AI工具左側是對話窗口,右側是提取的內容的交互模式

  • 完全開源的AI 助手,旨在幫助用戶輕鬆完成現實世界中的各種任務。

  • 整合了包括用於網頁瀏覽與資料提取的瀏覽器自動化、文件創建與編輯的文件管理功能、網頁爬取與增強搜尋能力,以及與多種API 和服務整合能力。

GenSpark:www.genspark.ai

  • 範例:台灣台北的金融壽險業如何應用GenAI

  • 從網頁提取生成式AI應用報告的功能,並對提取的內容進行結構化總結

  • 符合大多數AI工具的介面設計,左側是導航欄(包含「項目」「AI 筆記」「聊天生產」「深度研究」等),右側是提取與總結的內容

DeepSite:https://huggingface.co/spaces/enzostvs/deepsite

  • 範例:金融壽險業的GenAI+LLM整合方案

  • 基於 DeepSeek V3 模型開發的 AI 工具,無需編碼即可通過自然語言描述生成網站和應用程式

  • 支援創建商業網站、電子商務平台、博客、遊戲等多種應用,提供即時預覽、SEO 優化和快速部署功能

字節釦子空間 (Coze Space):space.coze.cn

  • 字節跳動推出的一款生成式AI平台,旨在幫助用戶和企業進行AI應用開發與生成式內容創作

  • 強調低門檻的AI應用開發,特別是Bot開發功能,對於有技術需求的用戶來說非常友好

OpenManus:openmanus.github.io

  • 2025-04-03:一文讀懂:OpenManus 智能體

  • MetaGPT 團隊在 Manus 發布後僅用三小時復刻的開源項目

  • MetaGPT 由國內投資的 DeepWisdom(深度賦智)開發的多智能體框架

Agent Development Kit (ADK):github.com/google/adk-python

Cline:github.com/cline/cline

Model Context Protocol(MCP):github.com/modelcontextprotocol

檢索增強生成 (Retrieval-Augmented Generation, RAG) 不是萬靈丹之優化挑戰技巧

https://deep-learning-101.github.io/RAG

  • 分享在本地端部署大型語言模型 (LLM) 經驗,並強調了硬體資源的重要性

  • 如何有效地將文檔拆分為片段 (chunk),並使用嵌入模型和重新排序器 (Reranker)來提升檢索結果的準確性

  • 多種開源工具的推薦,如 Ollama、xinference 和 MinerU、pdf-craft、markitdown,來協助處理 PDF 等非結構化資料

  • Embedding (嵌入)

    • 將文本、圖像或其他類型的數據轉換為密集的數值向量的過程

    • 能夠捕捉語義信息,使得相似的文本在向量空間中距離較近

  • Rerank (重排序)

    • 在初步檢索結果的基礎上,對候選文檔進行更精確排序的過程

    • 包括: 使用更複雜的模型或算法對初步檢索的文檔進行二次評分

  • GraphRAG

    • RAG 的變體,將圖結構引入到檢索過程中

    • 包括將文檔和其中的實體、關係表示為圖結構

    • 在檢索時不僅考慮文本相似度,還考慮實體間的關係和連接;進行多跳推理,找到間接相關的信息

  • 第一步用嵌入模型 (Embedding Model)快速篩選出一組可能相關的文件;第二用重新排序器 (Reranker)來更精確地排序這些文件

    • 向量檢索:透過生成查詢嵌入並查詢與其向量表示最相似的文字分段 

    • 全文檢索:索引文件中的所有詞彙,從而允許使用者查詢任意詞彙,並返回包含這些詞彙的文字片段 

      • TopK:這是用來找到與使用者輸入的問題相似度最高的文字片段。 

      • Score 閾值:這是設定文字片段的相似度閾值,也就是只召回超過設定分數的文字片段。 

    • 混合檢索:同時全文檢索和向量檢索,並使用ReRANK重新排序,從兩類查詢結果中選擇匹配使用者問題的最佳結果,需配置 Rerank 模型 API。 

      • ReRANK:計算候選文件清單與使用者問題的語意匹配度,根據語意匹配度重新進行排序,進而改善語意排序的結果。

大型語言模型 (LLM) 入門完整指南:原理、應用與未來

https://deep-learning-101.github.io/0204LLM

  • 大型語言模型API平台價格比較

  • Ollama、Dify、LangFlow、Flowise、XInference

  • 7B (Billion 縮寫,10億,即10^9) 表示70億個可訓練參數

    • Optimizing your LLM in production (以生產為導向的LLM 優化)

    • 模型參數大多數都是 float32,佔4個位元組 (bytes, 1 bytes = 8 bits)

    • 每10億 (B) 個參數,佔用 4GB GPU VRAM,精度每減半如fp16,VRAM也會減半(實際上是 10^9*4/1024/1024/1024=3.725G,方便就先記為4GB)


Dify:https://dify.ai/zh:github.com/langgenius/dify

  • 生成式AI 應用創新引擎,開源的LLM 應用開發平台;比LangChain 更容易用

  • 全面應用開發與管理;多模型支持,全面工作流與模型管理;適合需要全面管理 LLM 應用的開發者或企業

  • 提供從Agent 建置到AI workflow 編排、RAG 檢索、模型管理等能力,輕鬆建置和運作生成式AI 原生應用

  • 類似流程圖的任務編排視圖,能直接拖放節點來串聯對話及資料處理邏輯


Ollama:ollama.ai:github.com/ollama/ollama

  • 本地模型推理與管理,提供命令列介面,支援多種 Llama 模型於本地 (有隱私或離線需求的場景) 運行

  • curl https://ollama.ai/install.sh | sh

  • /etc/systemd/system/ollama.service

    • Environment="OLLAMA_MODELS=/path/to/ollama/models" (在最下方的service加上這行你要的路徑)

    • OLLAMA_HOST=0.0.0.0 ollama serve

    • ngrok http 11434 --host-header="localhost:11434"


Xinference:https://inference.readthedocs.io:github.com/xorbitsai/inference

  • 分散式推理與部署,與 Hugging Face 等模型相容,支援雲端及本地等多種部署環境

  • 大規模模型推理與雲端部署,需快速搭建可擴展的推理服務時

什麼是大語言模型,它是什麼?想要嗎?(Large Language Model,LLM)

https://deep-learning-101.github.io/GPU

  • 為什麼我們不可以自己訓練一個?

    • 一個3,000億個Token的公開網路資料集,訓練1,750億參數的GPT-3模型,若採用1,024張A100 GPU,還是要花上24天

    • Llama 2:包含 760 個 NVIDIA DGX A100 系統作為其計算節點,總共 6,080 個 GPU,花費了330萬個GPU小時

    • 一個月內訓練出參數量和ChatGPT相當的自有GPT-3模型,得採購128臺DGX A100超級電腦 (單臺8卡),硬體費約新臺幣7.68億元

    • 一年訓練一次,也至少要投資5千多萬元採購9套

    • 按月租用的超級電腦服務,以月租費113萬元X128個超級電腦VM,則約新臺幣1.4億元

    • GCP/Azure,V100*8 應該也要60W+/月?據可靠消息 4卡A100的80GB報價約300萬台幣

  • Llama 2-7B 做全參數微調需求30GB,做LoRA/PEFT 需求12GB,GPU 小時估算約20~50 小時 

  • Llama 2-13B 做全參數微調需求60GB,做LoRA/PEFT 需求24GB,GPU 小時估算約40~100 小時 

  • Llama 2-70B 做全參數微調需求180GB,做LoRA/PEFT 需求48GB+,GPU 小時估算約150~300 小時

白話文手把手帶你科普 GenAI

https://deep-learning-101.github.io/GenAI

  • 淺顯介紹生成式人工智慧核心概念,強調硬體資源和數據的重要性

    • Llama 3.1 405 在一個包含16384 塊Nvidia H100 80GB GPU 叢集上訓練了整整54 天

    • 以每小時每張卡3 美金的H100 租賃成本,加上CPU、記憶體、磁碟、網路等硬體資源每小時預計5 美金的成本來算,需要1 億美金的硬體成本

  • 大型語言模型 (LLM)

    • If you are a student interested in building the next generation of AI systems, don't work on LLMs @ Yann LeCun

    • 大型語言模型API平台價格比較

    • 語音識別 / 合成平台價格比較

    • An Awesome Collection for LLM in Chinese

  • 提示詞設計 (Prompt)

    • 輸入給 LLM 的文本指令或上下文。它指導模型生成特定類型的輸出或執行特定任務

    • 好的 prompt 設計可以顯著提高 LLM 的性能和準確性

  • 檢索增強生成 (RAG)

    • 結合了信息檢索和文本生成的技術 

    • 給大模型它原本資料集中沒有的知識,比如截止模型訓練時使用的數據之後的更為實時的數據,或者是沒公開的內部數據及特殊領域的垂直應用

    • 允許 LLM 在生成回應時訪問和利用外部知識庫,而提高回答的準確性和信息量

  • 微調 (Fine-Tuning)

    • 使模型能夠適應特定領域,是在預訓練的 LLM 基礎上,使用特定領域的數據集進行進一步訓練的過程

    • 大神李沐的創業一年人間三年的文章中也證實了微調客製化模型的成本為GPT系列成本的十分之一

    • RAG 不會被限制基於訓練數據,而微調是對預訓練模型進行特定任務的再訓練,難以應對新的或動態變化的資訊,所以看是想解決可能需要的即時檢索到最新資訊的需求,或者是增強其在該任務上的表現

  • 功能調用 (Function Calling)

    • 允許 LLM 識別使用者的語義,轉化其為結構化的指領,瞭解何時需要調用預定義的函數,並且模型會接收到具體的函數調用指令並執行,返回結果來完成單一、明確的特定任務

  • 工作流程 (Workflow)

    • 允許 LLM 識別使用者的語義,轉化其為結構化的指領,瞭解何時需要調用預定義的函數

    • 模型會接收到具體的函數調用指令並執行,返回結果來完成單一、明確的特定任務

  • 代理人 (Agentic)

    • 結合多個工具和策略來自主地做出決策、規劃行動完成一系列任務的 AI 系統

    • Agent 能自主完成多步驟的任務,具有一定的決策能力和靈活性

  • 多模態 (Multimodal)

    • 可以處理/理解和生成如文本、圖像、音頻和視頻等多種類型的數據

    • 多模態 LLM 能夠理解和生成跨多種感官模式的信息,使其能夠執行更複雜和綜合的任務

Taiwan's front-line battle against mobile phone fraud @ bbc.com
AI Improves the Frequency and Quality of Mobile App Notifications @ nvidia.com
ComfyUI + Multimodal Model + Segment Anything Model 2 + Stable Diffuision + FLUX
那些自然語言處理 (Natural Language Processing, NLP)踩的坑 | 那些ASR和TTS可能會踩的坑 | 那些語音處理 (Speech Processing) 踩的坑
那些大型語言模型要踩的坑 | 那些檢索增強生成 (Retrieval-Augmented Generation, RAG) 要踩的坑 | 白話文手把手帶你科普 GenAI  
Career - 十大熱門人才系列報導: 機器學習專家 | 科技抗疫: 提高聲紋辨識正確率,添防疫新利器
https://huggingface.co/DeepLearning101 | Google Scholar | ScholarGPS  | https://github.com/Deep-Learning-101

© 2010-2025 TonTon H.-D. Huang Ph.D. ALL RIGHTS RESERVED | TonTon (at) TWMAN.ORG
M.S., OASE Lab., Dept. of Information and Learning Technology (數位學習科技學系), National University of Tainan (國立臺南大學), Taiwan;Prof. Chang-Shing Lee
Ph.D., IKMLab., Dept. of Computer Science and Information Engineering (資訊工程學系), National Cheng Kung University (國立成功大學), Taiwan;Prof. Hung-Yu Kao
Over 10 years of academic research and industry hands-on experiences in Cyber-Security, Speech Processing, Natural Language Processing & Computer Vision

Report abuse
Page details
Page updated
Report abuse