用高階模型設計 Skill,讓 GPT-4.1 穩定執行:Copilot Token 節省策略
GitHub Copilot 的 GPT-4.1 是吃到飽方案,但模型本身相對保守,遇到複雜任務容易輸出不穩定。
解法不是換模型,而是換策略:用聰明的模型把工作定義清楚,讓便宜的模型負責執行。
問題的本質
在 AI 工具的日常使用裡,有兩件事常常被混在一起:
- 思考這件事該怎麼做
- 照著計畫把事情做完
高階模型(Claude Sonnet 4.6、GPT-4o 等)在「思考」上很強,但 token 有成本。GPT-4.1 在 Copilot 裡是吃到飽,適合「執行」,但如果讓它自己思考怎麼做,品質容易漂移。
這個觀察直接指向一個架構:把思考和執行分層。
策略核心:Skill 是智力的容器
Skill 本質上是一份「執行說明書」:告訴模型這個任務的目標是什麼、輸出格式長什麼樣、遇到邊界情況怎麼處理。
當 skill 設計得夠好,GPT-4.1 的工作就從「想清楚再做」變成「照著做」。這個轉換非常關鍵,因為模型能力的差距,在格式遵循和結構輸出上遠比在自由推理上小。
高階模型(Claude Sonnet 4.6)
→ 設計 skill:定義輸出格式、邊界條件、fallback 邏輯
→ 產出:可重複使用的 skill 文件
GPT-4.1(Copilot 吃到飽)
→ 照 skill 執行:填入、套用、輸出
→ 產出:穩定、符合格式的結果
設計一次,執行百次。智力成本集中在設計端,執行端的 token 消耗幾乎是免費的。
一個具體範例
假設你需要每天做 code review 摘要,格式固定:問題分類、嚴重程度、建議改法。
讓 GPT-4.1 自己跑(沒有 skill)
輸出會長這樣——每次都不同:
這段程式碼有幾個問題需要注意。首先…(自由發揮三段)
格式不固定,無法批次處理,每次都要重新審閱。
讓 Claude 先設計 skill
## Code Review 摘要 Skill
**輸入**:一段程式碼或 diff
**輸出格式**(嚴格遵循):
- 每個問題獨立一條
- 格式:`[嚴重度: HIGH/MED/LOW] 問題描述 → 建議改法`
- 嚴重度定義:
- HIGH = 安全漏洞、資料遺失風險
- MED = 邏輯錯誤、效能問題
- LOW = 風格、可讀性
- 沒有問題時輸出:`✓ 無發現問題`
- 禁止加前言、後語、摘要段落
交給 GPT-4.1 執行
輸出變成:
[HIGH] SQL query 未參數化,存在注入風險 → 改用 prepared statement
[MED] 迴圈內重複呼叫 DB,N+1 問題 → 改用 batch query
[LOW] 變數命名不一致(camelCase vs snake_case)→ 統一為 snake_case
穩定、可解析、可自動化處理。GPT-4.1 沒有變聰明,只是工作被定義清楚了。
Skill 設計的幾個關鍵原則
一、輸出格式要「防呆」
越少解釋空間越好。與其說「用條列方式呈現」,不如直接給模板:
好的:`格式:[{嚴重度}] {問題} → {建議}`
不好的:`請條列出問題和建議`
二、把邊界條件寫進去
GPT-4.1 遇到 edge case 最容易偏離格式。與其事後修正,不如在 skill 裡預先定義:
- 沒有輸入時怎麼處理
- 遇到不確定時輸出什麼
- 哪些情況輸出空值而非猜測
三、明確禁止多餘輸出
語言模型天生喜歡加前言和總結。要在 skill 裡明確說:
禁止加「以下是分析結果:」之類的前言。禁止在結尾加摘要。直接輸出結果。
四、用範例而非描述
一個具體的輸出範例,比三段文字描述更有效。Claude 在設計 skill 時,可以幫你產生幾個 few-shot 範例,附在 skill 裡給 GPT-4.1 參考。
哪些任務適合這個策略
這個分層架構在格式明確、重複性高的任務上效果最好:
| 適合 | 不太適合 |
|---|---|
| 程式碼生成(固定模板) | 開放式創意發散 |
| 文件整理、摘要 | 需要即時推理的除錯 |
| 結構化資料提取 | 高度 context-aware 的一次性任務 |
| 固定流程的 code review | 需要跨多個 context 推理 |
| 批次重複作業 | 第一次設計 skill 本身 |
判斷方法很簡單:如果這件事你可以寫成 SOP,就適合做成 skill 交給 GPT-4.1。如果需要即興判斷,就留給高階模型。
如何驗證 skill 設計是否有效
Skill 設計完,讓 GPT-4.1 跑三到五次同類任務。觀察:
- 格式一致性:關鍵欄位每次都在嗎?
- 長度穩定性:輸出長度有沒有大幅波動?
- 邊界行為:空輸入、異常輸入有沒有按 skill 定義處理?
如果通過,skill 設計就算過關。如果 GPT-4.1 每次都在「自由發揮」,通常是 skill 留了太多解釋空間,回頭讓 Claude 再修一次。
成本結構的轉換
這個策略本質上是改變了 AI 工具的成本結構:
舊模式:每次任務都讓高階模型從頭思考 → 每次都花高階模型 token,成本線性增長
新模式:高階模型投資在 skill 設計,GPT-4.1 負責執行 → 設計成本一次性,執行成本趨近零(Copilot 吃到飽)
越是重複性高的工作,這個策略的 ROI 越高。第一次做 skill 的 token 成本,會在第十次執行時回本。
這個思路其實不算新——工程師很熟悉「框架 vs 業務邏輯」的分工。框架由架構師設計,工程師照框架寫業務邏輯。現在只是把同樣的概念,用在 AI 模型的分工上。
設計一次好的 skill,比每次讓 AI 猜你要什麼,省事得多。
想看更多作品、服務與主站整理,請前往 stanwu.org。