TonTon Huang Ph.D. | 痛痛

避開 AI Agent 開發陷阱：常見問題、挑戰與解決方案 (那些 AI Agent 實戰踩過的坑)

檢索增強生成 (Retrieval-Augmented Generation, RAG) 不是萬靈丹之優化挑戰技巧

什麼是大語言模型，它是什麼？想要嗎？(Large Language Model，LLM)

這個頁面是匯整從 LLM 到 RAG 再到 AI Agent 的文章摘要，更多細節請參閱各標題連結

Diffusion Model 完全解析：從原理、應用到實作 (AI 圖像生成) | ASR/TTS 開發避坑指南：語音辨識與合成的常見挑戰與對策
那些自然語言處理 (Natural Language Processing, NLP)踩的坑| 那些語音處理 (Speech Processing) 踩的坑
那些大型語言模型要踩的坑 | 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧 | 白話文手把手帶你科普 GenAI
Call for Partner or POC (Proof of Concept), Contact: TonTon ( at ) TWMAN.ORG
https://deep-learning-101.github.io/ | DEMO | https://huggingface.co/DeepLearning101
中文語音識別、中文語音去噪、中文文本分類、中文文本糾錯、中文機器閱讀理解、中文實體識別、中文文本相似度、中文聲紋識別、中文語者分離

避開 AI Agent 開發陷阱：常見問題、挑戰與解決方案 (那些 AI Agent 實戰踩過的坑)

https://deep-learning-101.github.io/agent

探討多種 AI 代理人工具的應用經驗、體驗與挑戰，分享實用經驗與工具 (部分在安裝過程存在挑戰) 推薦

AI Search Has A Citation Problem

大多數無法準確搜尋文章，以至於做了不準確的回答
當所提供答案是錯誤時，會表現出極度自信
付費並不會因為正確率可能較高，錯誤率就比較少
忽略robots.txt協議，存取被禁止的內容
引用的文章通常是錯的版本，引用被聚合或複製的內容
甚至，連結是偽造的或無效的，導致無法驗證資訊來源

suna (它是manus 倒過來寫)：www.suna.so
2025-04-23，3週時間，就打造出Manus開源平替！貢獻原始碼，免費用

範例：B2C人工智慧市場研究
https://github.com/kortix-ai/suna
由Kortix AI 團隊打造，開源且完全免費
符合大多數AI工具左側是對話窗口，右側是提取的內容的交互模式
完全開源的AI 助手，旨在幫助用戶輕鬆完成現實世界中的各種任務。
整合了包括用於網頁瀏覽與資料提取的瀏覽器自動化、文件創建與編輯的文件管理功能、網頁爬取與增強搜尋能力，以及與多種API 和服務整合能力。

GenSpark：www.genspark.ai

範例：台灣台北的金融壽險業如何應用GenAI
從網頁提取生成式AI應用報告的功能，並對提取的內容進行結構化總結
符合大多數AI工具的介面設計，左側是導航欄（包含「項目」「AI 筆記」「聊天生產」「深度研究」等），右側是提取與總結的內容

DeepSite：https://huggingface.co/spaces/enzostvs/deepsite

範例：金融壽險業的GenAI+LLM整合方案
基於 DeepSeek V3 模型開發的 AI 工具，無需編碼即可通過自然語言描述生成網站和應用程式
支援創建商業網站、電子商務平台、博客、遊戲等多種應用，提供即時預覽、SEO 優化和快速部署功能

字節釦子空間 (Coze Space)：space.coze.cn

字節跳動推出的一款生成式AI平台，旨在幫助用戶和企業進行AI應用開發與生成式內容創作
強調低門檻的AI應用開發，特別是Bot開發功能，對於有技術需求的用戶來說非常友好

OpenManus：openmanus.github.io

2025-04-03：一文讀懂：OpenManus 智能體

MetaGPT 團隊在 Manus 發布後僅用三小時復刻的開源項目
MetaGPT 由國內投資的 DeepWisdom（深度賦智）開發的多智能體框架

Agent Development Kit (ADK)：github.com/google/adk-python

Cline：github.com/cline/cline

Model Context Protocol（MCP)：github.com/modelcontextprotocol

檢索增強生成 (Retrieval-Augmented Generation, RAG) 不是萬靈丹之優化挑戰技巧

https://deep-learning-101.github.io/RAG

分享在本地端部署大型語言模型 (LLM) 經驗，並強調了硬體資源的重要性
如何有效地將文檔拆分為片段 (chunk），並使用嵌入模型和重新排序器 (Reranker）來提升檢索結果的準確性
多種開源工具的推薦，如 Ollama、xinference 和 MinerU、pdf-craft、markitdown，來協助處理 PDF 等非結構化資料
Embedding (嵌入)
- 將文本、圖像或其他類型的數據轉換為密集的數值向量的過程
- 能夠捕捉語義信息，使得相似的文本在向量空間中距離較近
Rerank (重排序)
- 在初步檢索結果的基礎上，對候選文檔進行更精確排序的過程
- 包括: 使用更複雜的模型或算法對初步檢索的文檔進行二次評分
GraphRAG
- RAG 的變體，將圖結構引入到檢索過程中
- 包括將文檔和其中的實體、關係表示為圖結構
- 在檢索時不僅考慮文本相似度，還考慮實體間的關係和連接；進行多跳推理，找到間接相關的信息
第一步用嵌入模型 (Embedding Model）快速篩選出一組可能相關的文件；第二用重新排序器 (Reranker）來更精確地排序這些文件
- 向量檢索：透過生成查詢嵌入並查詢與其向量表示最相似的文字分段
- 全文檢索：索引文件中的所有詞彙，從而允許使用者查詢任意詞彙，並返回包含這些詞彙的文字片段
  - TopK：這是用來找到與使用者輸入的問題相似度最高的文字片段。
  - Score 閾值：這是設定文字片段的相似度閾值，也就是只召回超過設定分數的文字片段。
- 混合檢索：同時全文檢索和向量檢索，並使用ReRANK重新排序，從兩類查詢結果中選擇匹配使用者問題的最佳結果，需配置 Rerank 模型 API。
  - ReRANK：計算候選文件清單與使用者問題的語意匹配度，根據語意匹配度重新進行排序，進而改善語意排序的結果。

大型語言模型 (LLM) 入門完整指南：原理、應用與未來

https://deep-learning-101.github.io/0204LLM

大型語言模型API平台價格比較
Ollama、Dify、LangFlow、Flowise、XInference
7B (Billion 縮寫，10億，即10^9) 表示70億個可訓練參數
- Optimizing your LLM in production (以生產為導向的LLM 優化)
- 模型參數大多數都是 float32，佔4個位元組 (bytes, 1 bytes = 8 bits)
- 每10億 (B) 個參數，佔用 4GB GPU VRAM，精度每減半如fp16，VRAM也會減半(實際上是 10^9*4/1024/1024/1024=3.725G，方便就先記為4GB)

Dify：https://dify.ai/zh：github.com/langgenius/dify

生成式AI 應用創新引擎，開源的LLM 應用開發平台；比LangChain 更容易用
全面應用開發與管理；多模型支持，全面工作流與模型管理；適合需要全面管理 LLM 應用的開發者或企業
提供從Agent 建置到AI workflow 編排、RAG 檢索、模型管理等能力，輕鬆建置和運作生成式AI 原生應用
類似流程圖的任務編排視圖，能直接拖放節點來串聯對話及資料處理邏輯

Ollama：ollama.ai：github.com/ollama/ollama

本地模型推理與管理，提供命令列介面，支援多種 Llama 模型於本地 (有隱私或離線需求的場景) 運行
curl https://ollama.ai/install.sh | sh
/etc/systemd/system/ollama.service
- Environment="OLLAMA_MODELS=/path/to/ollama/models" (在最下方的service加上這行你要的路徑)
- OLLAMA_HOST=0.0.0.0 ollama serve
- ngrok http 11434 --host-header="localhost:11434"

Xinference：https://inference.readthedocs.io：github.com/xorbitsai/inference

分散式推理與部署，與 Hugging Face 等模型相容，支援雲端及本地等多種部署環境
大規模模型推理與雲端部署，需快速搭建可擴展的推理服務時

什麼是大語言模型，它是什麼？想要嗎？(Large Language Model，LLM)

https://deep-learning-101.github.io/GPU

為什麼我們不可以自己訓練一個？
- 一個3,000億個Token的公開網路資料集，訓練1,750億參數的GPT-3模型，若採用1,024張A100 GPU，還是要花上24天
- Llama 2：包含 760 個 NVIDIA DGX A100 系統作為其計算節點，總共 6,080 個 GPU，花費了330萬個GPU小時
- 一個月內訓練出參數量和ChatGPT相當的自有GPT-3模型，得採購128臺DGX A100超級電腦 (單臺8卡)，硬體費約新臺幣7.68億元
- 一年訓練一次，也至少要投資5千多萬元採購9套
- 按月租用的超級電腦服務，以月租費113萬元Ｘ128個超級電腦VM，則約新臺幣1.4億元
- GCP/Azure，V100*8 應該也要60W+/月？據可靠消息 4卡A100的80GB報價約300萬台幣
Llama 2-7B 做全參數微調需求30GB，做LoRA/PEFT 需求12GB，GPU 小時估算約20~50 小時
Llama 2-13B 做全參數微調需求60GB，做LoRA/PEFT 需求24GB，GPU 小時估算約40~100 小時
Llama 2-70B 做全參數微調需求180GB，做LoRA/PEFT 需求48GB+，GPU 小時估算約150~300 小時

白話文手把手帶你科普 GenAI

https://deep-learning-101.github.io/GenAI

淺顯介紹生成式人工智慧核心概念，強調硬體資源和數據的重要性
- Llama 3.1 405 在一個包含16384 塊Nvidia H100 80GB GPU 叢集上訓練了整整54 天
- 以每小時每張卡3 美金的H100 租賃成本，加上CPU、記憶體、磁碟、網路等硬體資源每小時預計5 美金的成本來算，需要1 億美金的硬體成本
大型語言模型 (LLM)
提示詞設計 (Prompt)
- 輸入給 LLM 的文本指令或上下文。它指導模型生成特定類型的輸出或執行特定任務
- 好的 prompt 設計可以顯著提高 LLM 的性能和準確性
檢索增強生成 (RAG)
- 結合了信息檢索和文本生成的技術
- 給大模型它原本資料集中沒有的知識，比如截止模型訓練時使用的數據之後的更為實時的數據，或者是沒公開的內部數據及特殊領域的垂直應用
- 允許 LLM 在生成回應時訪問和利用外部知識庫，而提高回答的準確性和信息量
微調 (Fine-Tuning)
- 使模型能夠適應特定領域，是在預訓練的 LLM 基礎上,使用特定領域的數據集進行進一步訓練的過程
- 大神李沐的創業一年人間三年的文章中也證實了微調客製化模型的成本為GPT系列成本的十分之一
- RAG 不會被限制基於訓練數據，而微調是對預訓練模型進行特定任務的再訓練，難以應對新的或動態變化的資訊，所以看是想解決可能需要的即時檢索到最新資訊的需求，或者是增強其在該任務上的表現
功能調用 (Function Calling)
- 允許 LLM 識別使用者的語義，轉化其為結構化的指領，瞭解何時需要調用預定義的函數，並且模型會接收到具體的函數調用指令並執行，返回結果來完成單一、明確的特定任務
工作流程 (Workflow)
- 允許 LLM 識別使用者的語義，轉化其為結構化的指領，瞭解何時需要調用預定義的函數
- 模型會接收到具體的函數調用指令並執行，返回結果來完成單一、明確的特定任務
代理人 (Agentic)
- 結合多個工具和策略來自主地做出決策、規劃行動完成一系列任務的 AI 系統
- Agent 能自主完成多步驟的任務，具有一定的決策能力和靈活性
多模態 (Multimodal)
- 可以處理/理解和生成如文本、圖像、音頻和視頻等多種類型的數據
- 多模態 LLM 能夠理解和生成跨多種感官模式的信息，使其能夠執行更複雜和綜合的任務

Page updated

Report abuse