用高階模型設計 Skill,讓 GPT-4.1 穩定執行:Copilot Token 節省策略

GitHub Copilot 的 GPT-4.1 是吃到飽方案,但模型本身相對保守,遇到複雜任務容易輸出不穩定。

解法不是換模型,而是換策略:用聰明的模型把工作定義清楚,讓便宜的模型負責執行。

問題的本質

在 AI 工具的日常使用裡,有兩件事常常被混在一起:

  1. 思考這件事該怎麼做
  2. 照著計畫把事情做完

高階模型(Claude Sonnet 4.6、GPT-4o 等)在「思考」上很強,但 token 有成本。GPT-4.1 在 Copilot 裡是吃到飽,適合「執行」,但如果讓它自己思考怎麼做,品質容易漂移。

這個觀察直接指向一個架構:把思考和執行分層

策略核心:Skill 是智力的容器

Skill 本質上是一份「執行說明書」:告訴模型這個任務的目標是什麼、輸出格式長什麼樣、遇到邊界情況怎麼處理。

當 skill 設計得夠好,GPT-4.1 的工作就從「想清楚再做」變成「照著做」。這個轉換非常關鍵,因為模型能力的差距,在格式遵循和結構輸出上遠比在自由推理上小。

高階模型(Claude Sonnet 4.6)
  → 設計 skill:定義輸出格式、邊界條件、fallback 邏輯
  → 產出:可重複使用的 skill 文件

GPT-4.1(Copilot 吃到飽)
  → 照 skill 執行:填入、套用、輸出
  → 產出:穩定、符合格式的結果

設計一次,執行百次。智力成本集中在設計端,執行端的 token 消耗幾乎是免費的。

一個具體範例

假設你需要每天做 code review 摘要,格式固定:問題分類、嚴重程度、建議改法。

讓 GPT-4.1 自己跑(沒有 skill)

輸出會長這樣——每次都不同:

這段程式碼有幾個問題需要注意。首先…(自由發揮三段)

格式不固定,無法批次處理,每次都要重新審閱。

讓 Claude 先設計 skill

## Code Review 摘要 Skill

**輸入**:一段程式碼或 diff

**輸出格式**(嚴格遵循):
- 每個問題獨立一條
- 格式:`[嚴重度: HIGH/MED/LOW] 問題描述 → 建議改法`
- 嚴重度定義:
  - HIGH = 安全漏洞、資料遺失風險
  - MED = 邏輯錯誤、效能問題
  - LOW = 風格、可讀性
- 沒有問題時輸出:`✓ 無發現問題`
- 禁止加前言、後語、摘要段落

交給 GPT-4.1 執行

輸出變成:

[HIGH] SQL query 未參數化,存在注入風險 → 改用 prepared statement
[MED] 迴圈內重複呼叫 DB,N+1 問題 → 改用 batch query
[LOW] 變數命名不一致(camelCase vs snake_case)→ 統一為 snake_case

穩定、可解析、可自動化處理。GPT-4.1 沒有變聰明,只是工作被定義清楚了。

Skill 設計的幾個關鍵原則

一、輸出格式要「防呆」

越少解釋空間越好。與其說「用條列方式呈現」,不如直接給模板:

好的:`格式:[{嚴重度}] {問題} → {建議}`
不好的:`請條列出問題和建議`

二、把邊界條件寫進去

GPT-4.1 遇到 edge case 最容易偏離格式。與其事後修正,不如在 skill 裡預先定義:

  • 沒有輸入時怎麼處理
  • 遇到不確定時輸出什麼
  • 哪些情況輸出空值而非猜測

三、明確禁止多餘輸出

語言模型天生喜歡加前言和總結。要在 skill 裡明確說:

禁止加「以下是分析結果:」之類的前言。禁止在結尾加摘要。直接輸出結果。

四、用範例而非描述

一個具體的輸出範例,比三段文字描述更有效。Claude 在設計 skill 時,可以幫你產生幾個 few-shot 範例,附在 skill 裡給 GPT-4.1 參考。

哪些任務適合這個策略

這個分層架構在格式明確、重複性高的任務上效果最好:

適合不太適合
程式碼生成(固定模板)開放式創意發散
文件整理、摘要需要即時推理的除錯
結構化資料提取高度 context-aware 的一次性任務
固定流程的 code review需要跨多個 context 推理
批次重複作業第一次設計 skill 本身

判斷方法很簡單:如果這件事你可以寫成 SOP,就適合做成 skill 交給 GPT-4.1。如果需要即興判斷,就留給高階模型。

如何驗證 skill 設計是否有效

Skill 設計完,讓 GPT-4.1 跑三到五次同類任務。觀察:

  • 格式一致性:關鍵欄位每次都在嗎?
  • 長度穩定性:輸出長度有沒有大幅波動?
  • 邊界行為:空輸入、異常輸入有沒有按 skill 定義處理?

如果通過,skill 設計就算過關。如果 GPT-4.1 每次都在「自由發揮」,通常是 skill 留了太多解釋空間,回頭讓 Claude 再修一次。

成本結構的轉換

這個策略本質上是改變了 AI 工具的成本結構:

舊模式:每次任務都讓高階模型從頭思考 → 每次都花高階模型 token,成本線性增長

新模式:高階模型投資在 skill 設計,GPT-4.1 負責執行 → 設計成本一次性,執行成本趨近零(Copilot 吃到飽)

越是重複性高的工作,這個策略的 ROI 越高。第一次做 skill 的 token 成本,會在第十次執行時回本。


這個思路其實不算新——工程師很熟悉「框架 vs 業務邏輯」的分工。框架由架構師設計,工程師照框架寫業務邏輯。現在只是把同樣的概念,用在 AI 模型的分工上。

設計一次好的 skill,比每次讓 AI 猜你要什麼,省事得多。

想看更多作品、服務與主站整理,請前往 stanwu.org