為什麼要用高階模型設計 skill，而不直接讓 GPT-4.1 自己設計？

Skill 設計需要精確定義輸出格式、邊界條件、fallback 邏輯。高階模型（如 Claude Sonnet 4.6）在這類結構性任務上更可靠，一次設計好可以重複使用，避免每次都要花 token 修正 GPT-4.1 的輸出偏差。

GPT-4.1 跟著好的 skill 執行，品質真的有差嗎？

有顯著差異。模型能力的差距一部分來自推理，一部分來自格式遵循。Skill 把結構和邏輯事先定義好，讓 GPT-4.1 只需要「填入」而非「思考」，可以有效彌補能力差距，讓輸出更穩定。

這個策略適合哪些使用情境？

最適合重複性高、格式要求明確的任務，例如：程式碼生成、文件整理、結構化輸出、固定流程的 code review。不太適合需要即時推理、創意發散、或高度 context-aware 的一次性任務。

如何判斷 skill 設計得夠好？

讓 GPT-4.1 跑三到五次同類任務，觀察輸出的一致性。如果輸出在格式、長度、關鍵欄位上都穩定，skill 設計就算過關。如果 GPT-4.1 每次都在「自由發揮」，通常是 skill 的指令留了太多解釋空間。

用高階模型設計 Skill，讓 GPT-4.1 穩定執行：Copilot Token 節省策略

2026-04-14 4 分鐘閱讀 AI

GitHub Copilot 的 GPT-4.1 是吃到飽方案，但模型本身相對保守，遇到複雜任務容易輸出不穩定。

解法不是換模型，而是換策略：用聰明的模型把工作定義清楚，讓便宜的模型負責執行。

問題的本質

在 AI 工具的日常使用裡，有兩件事常常被混在一起：

思考這件事該怎麼做
照著計畫把事情做完

高階模型（Claude Sonnet 4.6、GPT-4o 等）在「思考」上很強，但 token 有成本。GPT-4.1 在 Copilot 裡是吃到飽，適合「執行」，但如果讓它自己思考怎麼做，品質容易漂移。

這個觀察直接指向一個架構：把思考和執行分層。

策略核心：Skill 是智力的容器

Skill 本質上是一份「執行說明書」：告訴模型這個任務的目標是什麼、輸出格式長什麼樣、遇到邊界情況怎麼處理。

當 skill 設計得夠好，GPT-4.1 的工作就從「想清楚再做」變成「照著做」。這個轉換非常關鍵，因為模型能力的差距，在格式遵循和結構輸出上遠比在自由推理上小。

高階模型（Claude Sonnet 4.6）
  → 設計 skill：定義輸出格式、邊界條件、fallback 邏輯
  → 產出：可重複使用的 skill 文件

GPT-4.1（Copilot 吃到飽）
  → 照 skill 執行：填入、套用、輸出
  → 產出：穩定、符合格式的結果

設計一次，執行百次。智力成本集中在設計端，執行端的 token 消耗幾乎是免費的。

一個具體範例

假設你需要每天做 code review 摘要，格式固定：問題分類、嚴重程度、建議改法。

讓 GPT-4.1 自己跑（沒有 skill）

輸出會長這樣——每次都不同：

這段程式碼有幾個問題需要注意。首先…（自由發揮三段）

格式不固定，無法批次處理，每次都要重新審閱。

讓 Claude 先設計 skill

## Code Review 摘要 Skill

**輸入**：一段程式碼或 diff

**輸出格式**（嚴格遵循）：
- 每個問題獨立一條
- 格式：`[嚴重度: HIGH/MED/LOW] 問題描述 → 建議改法`
- 嚴重度定義：
  - HIGH = 安全漏洞、資料遺失風險
  - MED = 邏輯錯誤、效能問題
  - LOW = 風格、可讀性
- 沒有問題時輸出：`✓ 無發現問題`
- 禁止加前言、後語、摘要段落

交給 GPT-4.1 執行

輸出變成：

[HIGH] SQL query 未參數化，存在注入風險 → 改用 prepared statement
[MED] 迴圈內重複呼叫 DB，N+1 問題 → 改用 batch query
[LOW] 變數命名不一致（camelCase vs snake_case）→ 統一為 snake_case

穩定、可解析、可自動化處理。GPT-4.1 沒有變聰明，只是工作被定義清楚了。

Skill 設計的幾個關鍵原則

一、輸出格式要「防呆」

越少解釋空間越好。與其說「用條列方式呈現」，不如直接給模板：

好的：`格式：[{嚴重度}] {問題} → {建議}`
不好的：`請條列出問題和建議`

二、把邊界條件寫進去

GPT-4.1 遇到 edge case 最容易偏離格式。與其事後修正，不如在 skill 裡預先定義：

沒有輸入時怎麼處理
遇到不確定時輸出什麼
哪些情況輸出空值而非猜測

三、明確禁止多餘輸出

語言模型天生喜歡加前言和總結。要在 skill 裡明確說：

禁止加「以下是分析結果：」之類的前言。禁止在結尾加摘要。直接輸出結果。

四、用範例而非描述

一個具體的輸出範例，比三段文字描述更有效。Claude 在設計 skill 時，可以幫你產生幾個 few-shot 範例，附在 skill 裡給 GPT-4.1 參考。

哪些任務適合這個策略

這個分層架構在格式明確、重複性高的任務上效果最好：

適合	不太適合
程式碼生成（固定模板）	開放式創意發散
文件整理、摘要	需要即時推理的除錯
結構化資料提取	高度 context-aware 的一次性任務
固定流程的 code review	需要跨多個 context 推理
批次重複作業	第一次設計 skill 本身

判斷方法很簡單：如果這件事你可以寫成 SOP，就適合做成 skill 交給 GPT-4.1。如果需要即興判斷，就留給高階模型。

如何驗證 skill 設計是否有效

Skill 設計完，讓 GPT-4.1 跑三到五次同類任務。觀察：

格式一致性：關鍵欄位每次都在嗎？
長度穩定性：輸出長度有沒有大幅波動？
邊界行為：空輸入、異常輸入有沒有按 skill 定義處理？

如果通過，skill 設計就算過關。如果 GPT-4.1 每次都在「自由發揮」，通常是 skill 留了太多解釋空間，回頭讓 Claude 再修一次。

成本結構的轉換

這個策略本質上是改變了 AI 工具的成本結構：

舊模式：每次任務都讓高階模型從頭思考 → 每次都花高階模型 token，成本線性增長

新模式：高階模型投資在 skill 設計，GPT-4.1 負責執行 → 設計成本一次性，執行成本趨近零（Copilot 吃到飽）

越是重複性高的工作，這個策略的 ROI 越高。第一次做 skill 的 token 成本，會在第十次執行時回本。

這個思路其實不算新——工程師很熟悉「框架 vs 業務邏輯」的分工。框架由架構師設計，工程師照框架寫業務邏輯。現在只是把同樣的概念，用在 AI 模型的分工上。

設計一次好的 skill，比每次讓 AI 猜你要什麼，省事得多。

想看更多作品、服務與主站整理，請前往 stanwu.org。