Token 有兩個很常見的意思:在 AI 對話裡,它是文字被拆成的小字塊;在系統認證裡,它是拿來證明你有權限的通行證。像同一個詞在超商可以指代幣,也可以指取貨碼,場景不同,意思就不同。看到 token 時,先看它出現在費用、上下文,還是登入授權附近。
🔍 為什麼叫這個名字Token 原本有代幣、票券、憑證的意思,所以很適合拿來指一小片可計算的單位,也適合拿來指一張可通行的數位憑證。
①AI 對話時= 詞元 / 字塊
AI 讀文字時,通常會把一句話切成一小塊一小塊來處理,這些小塊就叫 token。像郵局分揀長信時先拆成一格格可處理的郵件,系統常用 token 數來估算你塞了多少內容、會花多少費用。
- 📍 在 OpenAI API usage 頁看到 prompt tokens 和 completion tokens
- 📍 在 OpenRouter 帳單明細看到某次對話用了多少 input tokens
- 📍 在 Claude Console 測試長文件時看到 token count 提醒
②系統認證時= 令牌 / 存取金鑰
登入或呼叫 API 時,token 像飯店房卡或公司門禁卡,用來證明這個請求有權限進來。它通常不是拿來閱讀內容,而是拿來讓系統判斷你是不是可以使用某個服務。
- 📍 在 Slack App 的 OAuth & Permissions 頁看到 Bot User OAuth Token
- 📍 在 GitHub 建立 Personal Access Token 給自動化工具使用
- 📍 在 Zapier 或 Make 串接自家 API 時填入 Bearer token
⚠️ 容易搞混Token 最常混淆的是 AI 對話裡的文字單位,和系統認證裡的存取金鑰;前者影響內容長度與費用,後者影響誰能登入或呼叫服務。
Context Window 是 AI 一次能放在工作檯上參考的內容容量。像開會時桌面只能攤開幾份文件,放太多時,前面的資料可能被擠出去或被壓縮。它會影響長對話、多份 PDF、整個程式碼專案丟進去時,AI 還能不能顧到前面講過的事。
🔍 為什麼叫這個名字叫 window 是因為它像一扇視窗,只看得到目前框進來的那一段內容;窗外的東西不代表不存在,只是這次回答時不太容易被拿來參考。
📍 你在哪會撞到- 在 Claude 模型頁看到 200K context window
- 在 ChatGPT 長對話上傳多份 PDF 後,工具提示對話太長
- 在 Cursor 或 Windsurf 看到 context window full 或 compact conversation
- 在 OpenRouter 模型列表比較 context length
⚠️ 容易搞混Context Window 常被跟 Memory 混在一起;前者像這次會議桌上攤開的文件,後者比較像產品幫你保留的長期偏好或個人資料。
System Prompt 是藏在前台對話背後的工作規則,通常由產品或開發者先寫好。像會議主持人手上的內部小抄,會提醒 AI 要用什麼語氣、扮演什麼角色、哪些話題要避開。使用者看到的是聊天框,但 AI 回答時常常也在參考這份幕後規範。
📍 你在哪會撞到- 在 OpenAI Playground 的 System 欄位輸入客服機器人的規則
- 在 ChatGPT 自訂 GPT 的 Instructions 欄位設定角色與限制
- 在 Claude Projects 的 custom instructions 裡放團隊寫作規範
- 在公司客服 bot 規格書看到 system prompt 要求不得承諾退款
⚠️ 容易搞混System Prompt 常被跟使用者輸入的 prompt 混在一起;使用者 prompt 像你在櫃台提出需求,System Prompt 則像櫃台人員背後那本公司服務手冊。
Temperature 是控制 AI 回答時敢不敢選比較少見說法的旋鈕。調低像照食譜煮,口味比較穩;調高像讓主廚自由加料,靈感可能多一點,跑題或亂編的機會也可能變高。
🔍 為什麼叫這個名字這個名字借用了溫度的感覺:溫度低時比較冷靜、變化少,溫度高時比較活躍、變化多。
📍 你在哪會撞到- 在 OpenAI Playground 右側設定看到 temperature 滑桿
- 在 OpenRouter 的模型設定裡調整 temperature
- 在 Zapier AI Action 的 advanced settings 看到 temperature
- 在公司文案產生器後台看到創意度對應 temperature
⚠️ 容易搞混Temperature 常被跟 Top-p 混在一起;兩者都會影響回答的變化,但 Temperature 比較像調整主廚敢不敢自由發揮,Top-p 比較像先限制主廚只能從哪些食材籃裡挑。
Top-p 是讓 AI 只在最有可能的一群候選答案裡挑選,p 代表這群候選答案合計要涵蓋多少可能性。像開會投票時,主持人先把得票加起來已經占 90% 的提案放進籃子,再從籃子裡挑,而不是讓很冷門的提案也一直進場。
🔍 為什麼叫這個名字p 來自 probability,也就是可能性;Top-p 指的是從可能性最高的那一群裡做選擇。
📍 你在哪會撞到- 在 OpenAI API 文件的 request parameters 看到 top_p
- 在 OpenRouter 的模型參數設定看到 Top P
- 在 LM Studio 本機模型設定頁看到 top_p 滑桿
- 在公司 AI 寫作工具後台看到 top-p 與 temperature 並排
⚠️ 容易搞混Top-p 常被當成 Temperature 的另一種說法;比較好記的差別是,Temperature 調的是發揮幅度,Top-p 調的是候選範圍。
Hallucination 是 AI 把缺的資訊補成看起來很像真的內容。像會議紀錄員沒聽清楚,卻把公司名、數字、引用來源寫得很完整;它的語氣可能很有把握,但內容需要回頭查證。
🔍 為什麼叫這個名字這個詞借用了人把不存在的東西看成真的那種比喻,用來提醒大家:AI 的流暢語氣不等於內容已經被驗證。
📍 你在哪會撞到- 在 ChatGPT 要求列論文來源時,出現查不到的 DOI
- 在 Perplexity 或 Gemini 摘要產品資訊時,把價格或規格寫錯
- 在客服 chatbot 查不到條款時,卻回覆一段不存在的退款規則
- 在主管要求 AI 報告加來源後,發現連結內容對不上引用
⚠️ 容易搞混Hallucination 常被說成 AI 在說謊,但說謊通常帶有故意欺騙的意思;這裡比較像店員沒查庫存就憑印象回答,結果講得很像真的。
Embedding 是把一段文字、一張圖或一個商品,轉成電腦好比較的「位置碼」。像超商把相似商品放在鄰近貨架,之後你搜尋「低糖早餐」時,系統比較容易找出燕麥、無糖優格這類意思接近的東西,而不是只抓一模一樣的字。
🔍 為什麼叫這個名字Embedding 有「嵌入」的意思,可以想成把內容嵌進一張看不見的意義地圖裡,讓相近的東西靠得比較近。
📍 你在哪會撞到- 在 OpenAI Dashboard 選用 Embeddings API 做搜尋功能
- 在 Notion AI 或 Slack 搜尋介紹裡看到 semantic search
- 在 RAG 專案文件看到 create embeddings for documents
- 在 Pinecone 或 Chroma dashboard 看到 vectors / embeddings 數量
⚠️ 容易搞混Embedding 常被跟 Fine-tune 混在一起;Embedding 比較像幫資料做索引和找相似內容,Fine-tune 比較像調整模型回話的習慣。
Fine-tune 是拿一個已經會很多事的模型,再用較聚焦的範例調成更像你要的做法。像新同事已經會寫信,你再拿 200 封公司過去的客服回覆給他看,讓語氣、格式、處理方式更貼近你的團隊。
🔍 為什麼叫這個名字Fine-tune 字面上就是細調,不是從空地蓋一棟新大樓,而是把已經蓋好的辦公室重新調燈光、動線和標示。
📍 你在哪會撞到- 在 OpenAI Dashboard 的 Fine-tuning jobs 建立微調任務
- 在 Azure AI Foundry 建立 fine-tuned model
- 在客服 bot 專案會議聽到用 500 筆標準回覆微調
- 在 Hugging Face model card 看到 fine-tuned on customer support data
⚠️ 容易搞混Fine-tune 常被拿來解決所有客製化需求,但很多時候只是要把公司文件拿來查,Embedding 或加上可搜尋資料庫就夠用;Fine-tune 比較適合調整固定格式、語氣或分類習慣。
Pre-training 是模型正式被拿來做客服、寫文案之前的大量打底。像駕訓班先教方向盤、煞車、路標,之後到某家公司開貨車才學那家路線;這個階段通常決定它的基本語言能力和常識底子。
🔍 為什麼叫這個名字Pre 是「之前」的意思,所以 Pre-training 指的是後面微調、上線、回答問題之前,先做的基礎訓練。
📍 你在哪會撞到- 在 Meta Llama 模型介紹看到 pre-trained models
- 在 Hugging Face model card 看到 pretraining data
- 在 AI 新聞看到某模型 pre-trained on licensed data
- 在公司採購簡報比較 pre-training 與 fine-tuning 成本
⚠️ 容易搞混Pre-training 常被跟 Fine-tune 混在一起;Pre-training 像通才教育,Fine-tune 像進公司後學部門 SOP。
Inference 是模型真的開始回答你問題的那一刻。像廚師已經受過訓練,現在照著你點的菜、冰箱裡有的材料和店內規則,把一道菜端出來;API 帳單裡的費用通常就在這個階段發生。
📍 你在哪會撞到- 在 AWS Bedrock 帳單看到按 inference 量計費
- 在 Hugging Face 建立 Inference Endpoints 部署模型
- 在本機跑 Ollama 時看到 inference speed 30 tokens/s
- 在 OpenRouter 帳單看到某次 inference 的 input / output tokens
⚠️ 容易搞混Inference 常被跟 training 混在一起;training 像學廚,inference 像客人點餐後真的出菜。
Parameter 是模型裡大量細小的內部設定,會影響它看到文字後怎麼接下一句。像一間廚房牆上貼了很多看不見的調味刻度,預訓練和微調會慢慢改這些刻度;所以你看到 7B、70B,常常是在說這類刻度有多少個。
📍 你在哪會撞到- 在模型名稱看到 Llama 3.1 8B 或 70B
- 在 Hugging Face model page 看到 parameter count
- 在 GPU 顯存需求表看到 7B 模型需要多少 VRAM
- 在 OpenRouter 模型列表看到 405B 這類大小標示
⚠️ 容易搞混Parameter 有時也會被拿來泛指設定值,例如 temperature 也是一種可調設定;但模型參數通常指模型內部那些平常不會讓使用者手動調的刻度。
Model 是你在 AI 產品裡選的那顆「大腦版本」。像同一間公司有快手客服、資深顧問、便宜外包,不同 model 的回答品質、速度、價格、能看的上下文長度常常不一樣。
🔍 為什麼叫這個名字Model 原本就有用一個可操作的版本來代表複雜事物的意思;在 AI 裡,它就是被包裝好、可以拿來回答或處理任務的那個版本。
📍 你在哪會撞到- 在 ChatGPT 左上角選 GPT-4o、o3 或 GPT-4.1
- 在 Claude 選 Sonnet、Opus 或 Haiku
- 在 OpenRouter model list 比較不同供應商的模型
- 在 API request 裡的 model 欄位填 gpt-4o-mini
⚠️ 容易搞混Model 常被跟 App 混在一起;ChatGPT、Claude 比較像餐廳或櫃台,GPT-4o、Sonnet 這些 model 才像背後負責做菜或回答的不同師傅。