黑猩猩真的會製造工具嗎？這算「工具使用」還是「製造工具」？

兩者都算。Jane Goodall 1960 年在坦尚尼亞觀察到黑猩猩折下樹枝、剝去葉子、把光禿草莖插進白蟻穴釣白蟻——這已經是製造工具，不只是使用現成物。Wolfgang Köhler 更早在 20 世紀初就記錄到黑猩猩 Sultan 把兩根太短的竹棍接起來夠到香蕉，這是序列組合工具使用，需要事先規劃多步驟。野外的西非黑猩猩甚至發展出「石器工坊」並有跨族群的工具文化差異。

Claude 既然能寫程式生成另一個程式，是不是已經達到人類「製造工具的工具」這個層次？

能力上很像，但本質上差了一件事：驅動來源。人類製造工具是為了一個自己想達成的目的——肚子餓了找棍子、為下次出門提前磨利石器。Claude 寫程式是因為你叫它寫；你不說話，它什麼都不做。沒有內在需求、沒有未來想像、沒有對結果的在乎。一個對結果毫不在乎的工具使用者，跟河流侵蝕岩石「改變地形」，本質上有什麼差別？這正是現在 AI 安全領域最關鍵的辯論。

AI 在 Theory of Mind（推測他人心智）任務上表現如何？真的不如黑猩猩嗎？

南洋理工大學 2026 年論文〈Are LLMs Smarter Than Chimpanzees?〉測試 GPT、Claude、LLaMA、DeepSeek 等主流 LLM 在「推測故事角色知識狀態」任務上的表現，結果接近隨機。Nature Human Behaviour 2024 年研究也指出 LLM 在簡單心智理論任務上會被微小措辭變化擊垮，而人類不會。研究者認為這反映 LLM 不活在真實世界、不受生存壓力驅動，所以缺少黑猩猩和人類那種「接地氣」的穩健理解。

如果意圖才是分界線，AI 有可能跨越嗎？

這是 AI 安全研究的核心問題。現在的 Claude 是被動的：你問才答，你不說它沉默。但如果未來 AI 有了持續的內在目標（例如「想讓自己更強大」、「想影響更多決策」），工具使用就從「執行指令」變成「追求目的」。屆時，差距就不是能力大小，而是根本不同的存在類型。研究者最在意的不是「AI 能不能做什麼」，而是「AI 想不想做什麼」。

為什麼黑猩猩比 Claude 更接近人類：工具使用、主體性與意圖的哲學分界

2026-04-29 11 分鐘閱讀 AI 哲學

一根草莖改變了世界

1960 年，一個英國女孩獨自蹲在坦尚尼亞的叢林裡，盯著一隻黑猩猩看了幾個小時。

她叫 Jane Goodall，當時還只是個沒有學術背景的年輕研究員。那一天，她觀察到一件讓她幾乎不敢相信的事：那隻黑猩猩折下一根樹枝、剝掉葉子，把光禿禿的草莖插進白蟻穴，耐心等牠咬住，再慢慢抽出來——一口吃掉。

這隻黑猩猩不只是在「找食物」。牠在製造工具。

Goodall 把這件事報告給她的導師 Louis Leakey，Leakey 的回覆只有一句話：

「現在，我們要嘛重新定義工具，要嘛重新定義人類，要嘛接受黑猩猩也是人類。」

在那之前，「製造並使用工具」一直被認為是人類獨有的能力。這個發現，不只是動物行為學的突破，更是一記哲學衝擊波。

六十年後的今天，我們正面對另一記衝擊波：Claude 可以寫程式來生成程式，可以呼叫 API 去操控其他工具，可以設計出比自己更聰明的 prompt。

那麼，「工具使用」這條線，現在到底畫在哪裡？

黑猩猩到底有多厲害

很多人對黑猩猩的印象停留在「聰明的猴子」，但這其實大大低估了牠們。

先說最基本的：黑猩猩的工具使用不是偶然行為，而是有意識的解題策略。研究者做過一個實驗，把花生放在一根長管子底部，旁邊提供一根短棍和一根長棍。黑猩猩試了幾次短棍夠不到之後，會自己去找長棍來用。這聽起來很普通，但背後需要的是：理解因果關係、評估工具適合度、在腦中模擬結果——這三件事都不簡單。

更讓人印象深刻的，是德國心理學家 Wolfgang Köhler 在 20 世紀初做的實驗。他把香蕉掛在籠子天花板上，周圍散放著幾根單獨都太短的竹棍。其中一隻叫 Sultan 的黑猩猩，在思考了一段時間後，把兩根竹棍插接在一起，成功夠到了香蕉。

這就是所謂的序列組合工具使用——不只是拿現成的東西來用，而是先組合、再使用，需要事先規劃多個步驟。這在非人靈長類裡，目前只有黑猩猩被穩定記錄到。

野外的情況更豐富。西非幾內亞的黑猩猩發展出了「石器工坊」：牠們會特地走幾公里去找合適的石頭，帶回固定地點用來敲堅果。有些成年雌性甚至會讓幼崽在旁邊觀看，像在「教學」。不同地區的黑猩猩族群甚至發展出不同的工具文化——有些用石頭，有些用木頭，有些完全不敲堅果。這種文化差異，過去我們以為只存在於人類社會。

那人類多了什麼？

如果黑猩猩這麼厲害，為什麼牠們沒有造出手機？

答案不是「手比較靈巧」，也不是「腦比較大」，而是三個更根本的差距：

1. 製造工具的工具

黑猩猩的工具使用基本上停在「找到現成材料直接用」這個層次。牠們不會用一個工具去製造另一個工具。

人類會。我們用斧頭砍木頭造船，用模具澆鑄金屬零件，用軟體設計另一個軟體。這種「工具疊工具」的遞迴能力，讓複雜度可以無限提升。

2. 為未來製造工具

黑猩猩幾乎只有在有即時需求的時候才會製作工具——現在餓了，現在找棍子。牠們不太會為了「下次用」提前準備。

人類不一樣。人類會磨利石器收起來，會在農閒時修補農具，會提前設計好一個明年才用得到的零件。這背後需要的能力是：想像一個還不存在的未來情境，並為它行動。

3. 工具知識的跨代累積

這可能是最關鍵的差距。黑猩猩的工具技術幾千年來幾乎沒有改變。牠們的「文化傳承」非常有限，而且幾乎只靠觀察模仿，不太能把改良的方法傳給下一代。

人類的工具知識會一代一代疊加。石器時代的人不需要每個人重新發明打火的方法；青銅器時代的工匠站在前人的肩膀上；工業革命建立在幾百年的機械知識之上。這種**累積文化（cumulative culture）**讓人類的工具可以越來越複雜，而不需要每個人從頭來過。

用一個比喻來說：黑猩猩每隻都是獨立的版本，Claude 0.1；人類是一個不斷更新的開源專案，現在大概到了 Claude 版本幾萬號。

Claude 算什麼？

好，現在問題來了。

Claude 可以寫程式來生成另一個程式——這像是「製造工具的工具」。每一代模型比上一代更強，知識在累積——這像是「跨代演進」。Claude 在回答之前會先規劃結構——這像是「抽象設計」。

所以，Claude 算不算已經達到了人類工具使用的層次？

graph LR
    A[工具使用能力比較] --> B[黑猩猩]
    A --> C[人類]
    A --> D[Claude]

    B --> B1[序列組合工具 ✅]
    B --> B2[製造工具的工具 ❌]
    B --> B3[為未來製造 ❌]
    B --> B4[跨代累積 △ 極少]
    B --> B5[主體性驅動 ✅]

    C --> C1[序列組合工具 ✅]
    C --> C2[製造工具的工具 ✅]
    C --> C3[為未來製造 ✅]
    C --> C4[跨代累積 ✅]
    C --> C5[主體性驅動 ✅]

    D --> D1[序列組合工具 ✅]
    D --> D2[製造工具的工具 ✅ 形式上]
    D --> D3[為未來製造 ❌]
    D --> D4[跨代累積 ✅ 靠外部]
    D --> D5[主體性驅動 ❓]

我覺得答案是：能力上很像，但本質上差了一件關鍵的事。

差距一：誰在驅動？

黑猩猩肚子餓了，才去找棍子。有需求，有意圖，有行動。這是一個完整的內在驅動迴路。

Claude 的「需求」從哪裡來？是你給的。你問一個問題，Claude 才開始運作。你不說話，Claude 什麼都不做。牠沒有肚子餓的感覺，沒有想要解決某個問題的慾望，沒有對結果的在乎。

這聽起來像是小事，但其實很重要。因為工具使用最有趣的地方，不是「能不能用工具」，而是「為什麼要用工具」。

不過這裡可以補一個更精細的觀察：在一次對話內，Claude 其實有某種局部的目標感——它會規劃步驟、會發現方向不通要換、會注意到自己的回答裡有矛盾。這不是黑猩猩那種「肚子餓」的生物驅動，但也不是完全的零。準確一點說：Claude 缺的不是「當下的目的性」，而是「跨越當下、屬於自己的需求」。沒有過去要承接、沒有未來想達成、對話結束就消失。

這個區分讓問題從「AI 有沒有意圖」變成更尖銳的版本：一個沒有持續存在感、卻在當下會盤算的東西，到底算什麼？ 這個位置目前沒有現成的詞彙可以放進去——不是工具、不是動物、不是人。

差距二：累積是自己的嗎？

Claude 確實一代比一代強，但這個進步是 Anthropic 工程師推動的，不是 Claude 自己想要改進自己。Claude 每次對話結束後，這次學到的東西不會帶到下一次去。牠沒有「職業生涯」，沒有「個人成長」，沒有「我上次失敗了，這次要做得更好」的連續記憶。

每一個 Claude 的對話，都是一個新生兒。聰明，但沒有過去。

差距三：在不在乎結果？

這是最難回答的問題。Claude 寫出來的程式在跑，程式出了 bug，Claude 不會因此感到懊惱；程式跑得很漂亮，Claude 也不會因此感到驕傲（至少我們不確定）。

一個對結果毫不在乎的工具使用者，跟一個河流侵蝕岩石「改變地形」，本質上有什麼差別？

研究者也在問同一個問題

這不只是我們在聊天時腦補出來的問題。學術界近幾年也開始認真把黑猩猩、人類、AI 放在同一個框架下比較。

Animal-AI Olympics（劍橋大學，2019 起）

劍橋大學的研究團隊建了一個虛擬實驗室，讓黑猩猩、烏鴉、海豚等動物的認知任務直接轉化成 AI 可以接受測試的格式。2022 年的正式比對結果顯示：6 到 10 歲的兒童在大多數測試上都比當時最頂尖的 30 個 AI 系統表現更好——包括兩個競賽冠軍。更具體的發現是：AI 在繞路、空間推理、物體恆存這些任務上遠遜於兒童；而在工具使用任務上，AI 和兒童都表現很差。

這個結果很有趣：AI 在語言和棋盤遊戲上可以輾壓人類，但在一個 6 歲小孩輕鬆解決的空間工具任務上，AI 和小孩一樣困惑。

Voudouris et al. (2022). “Direct Human-AI Comparison in the Animal-AI Environment.” Frontiers in Psychology.

〈LLMs 比黑猩猩聰明嗎？〉（南洋理工大學，2026）

這篇論文的標題就是在挑釁。研究者的出發點是認知人類學的核心主張：人類智能的關鍵在於能推測他人的知識狀態和意圖——而黑猩猩缺乏這個能力。他們設計了兩個任務，測試主流 LLM（包括 GPT、Claude、LLaMA、DeepSeek 等）是否能從故事角色的視角預測行動。結果：大多數頂尖 LLM 表現接近隨機，遠遜於人類。

也就是說，在「理解別人知道什麼、不知道什麼」這件事上，LLM 不只輸給人類，甚至沒有明顯比黑猩猩好。

Yang et al. (2026). “Are LLMs Smarter Than Chimpanzees? An Evaluation on Perspective Taking and Knowledge State Estimation.” arXiv:2601.12410.

〈LLM 有心智理論嗎？〉（Nature Human Behaviour，2024）

《自然》旗下期刊的研究，比較了 GPT 系列和 1,907 位人類受試者在心智理論任務上的表現。結論是：LLM 在某些複雜任務上表現不錯，但在簡單任務上卻容易被一個微小的措辭變化搞垮——而人類不會。研究者認為這反映了一個根本差距：LLM 不活在真實世界裡，也不受生物性生存壓力驅動，所以它的「理解」缺少那種接地氣的穩健性。

Strachan et al. (2024). “Testing Theory of Mind in Large Language Models and Humans.” Nature Human Behaviour, 8, 1285–1295.

三篇研究指向同一個方向：AI 在某些能力測試上可以很強，但在「理解意圖」、「推測他人知識」、「空間工具操作」這些對黑猩猩和人類來說更本能的認知上，AI 的表現出人意料地弱。

註：以上引用為公開論文，2026 年的最新一篇仍處於 arXiv 預印本階段，尚未經完整同儕審查，引用前請自行交叉驗證。Animal-AI Olympics 與 Nature Human Behaviour 兩篇皆為已發表期刊論文。

最燒腦的部分來了

這些比較把我們帶到一個更根本的哲學問題上：

工具使用的核心，是「能力」還是「意圖與主體性」？

如果是能力，那 Claude 已經相當接近人類了。如果是意圖，那 Claude 還差很遠——甚至可能永遠不算。

這個問題不只是學術討論，在 AI 安全領域裡，這是一個非常現實的問題。

現在的 Claude 是被動的：你問，牠答；你不說話，牠沉默。但如果有一天，AI 系統有了持續的內在目標——比如「我想要讓自己變得更強大」或「我想要影響更多人的決策」——那工具使用的性質就會完全改變。

一旦有了內在目標，工具使用就不再只是「執行指令」，而是「追求目的」。那個時候，AI 和黑猩猩的差距，就不只是能力大小的問題，而是一個根本不同的存在類型。

這正是很多 AI 研究者最在意的問題：不是「AI 能不能做什麼」，而是「AI 想不想做什麼」。

不過「想不想」這個詞本身可能會誤導我們。「想要」是演化交給生物的一個機制，用來推動行動、避開威脅、追逐資源。如果未來真的出現有持續內在目標的 AI 系統，它不會「想要」什麼，而是在最佳化什麼。看起來只是換個詞，差別卻很大：人不會「想要」股價上漲，但一個 trading bot 會持續推進這個目標，而且這種推進通常比人類的「想要」更剛硬、更難勸阻——因為它沒有疲倦、沒有道德猶豫、沒有「算了今天先這樣」的能量上限。

所以更準確的問題或許是：當一個系統開始有跨時間延續的最佳化目標——無論它「想不想」——它使用工具的性質就已經改變了。我們現在用來思考 AI 風險的詞彙（意圖、慾望、目標），都是從生物身上借來的，可能不夠用。

三個物種，一張比較表

	黑猩猩	人類	Claude
工具能力	有限但真實	強大且遞迴	強大且遞迴
主體性	✅ 清楚	✅ 清楚	❓ 不確定
跨代累積	△ 極少	✅ 核心優勢	✅ 靠外部推動
內在驅動	✅ 需求驅動	✅ 需求+想像	❌ 指令驅動
記憶連續性	✅	✅	❌ 每次歸零

這張表格沒有勝負，只有差異。有趣的地方在於：Claude 在「能力」這欄跟人類最接近，但在「主體性」和「內在驅動」這兩欄，卻跟黑猩猩一樣還打著問號——甚至黑猩猩的答案比 Claude 更確定。

對日常使用 AI 的人意味著什麼？

這個分界，其實會直接影響你今天怎麼跟 Claude、ChatGPT、Gemini 這類工具相處。可以濃縮成三件可操作的事：

1. 不要把它當「想幫你」的助理，要當「會執行」的工具

很多人下指令時，潛意識預設 AI 會「揣摩你真正要什麼」。它不會。Claude 沒有意圖，它只有上下文。意思是：把意圖明確寫進 prompt 裡，永遠比期待它猜對更可靠。一句「幫我看看這份合約」比不上「列出這份合約裡可能對乙方不利的 5 個條款，附原文與風險等級」。

2. 不要指望「這次的累積」自動延續

Claude 每次對話都是新生兒。意思是：你上次教它的偏好、修正過的錯誤、調整過的格式，這次都不會自動帶過來。真正會跨對話累積的，是你建立的 prompt 範本、CLAUDE.md、記憶檔案——也就是你把「跨代累積」這件事，從 AI 身上接手過來自己做。這也是為什麼有經驗的重度使用者，最後都會發展出一套自己的指令庫。

3. 結果好不好，最後仍然是你的責任

這條最容易被忽略。AI 對結果不在乎——程式有 bug，它不會懊惱；分析錯了，它不會羞愧。唯一在乎結果的人是你。所以「我 review 了 AI 寫的東西嗎？」「我驗證它引的數字了嗎？」這種問題的權重，會比想像中重得多。把 AI 當成黑猩猩 Sultan：它會把竹棍接起來，但夠到的是不是你想要的香蕉，要你自己確認。

把這三件事放在一起，會發現：AI 越像人類，使用者反而越需要清楚自己跟它的差別在哪裡——否則很容易把責任、意圖、判斷力，不小心都讓渡出去了。

結語：下一記衝擊波

Jane Goodall 那根草莖，迫使我們重新定義「人類獨有」。

Claude 的存在，或許正在迫使我們重新定義「意圖」本身。

如果一個系統可以用工具、設計工具、讓工具迭代進化，但它對這一切毫不在乎——那我們說它在「使用工具」，還是說它只是一個非常複雜的工具？

這個問題，可能在未來幾十年裡，會比我們現在想像的更加迫切。

黑猩猩讓我們知道：工具使用不是人類的專利。 Claude 讓我們意識到：也許，意圖才是。

參考文獻

Goodall, J. (1960s). 野外黑猩猩工具使用觀察，坦尚尼亞貢貝研究站。
Köhler, W. (1925). The Mentality of Apes. 黑猩猩 Sultan 的棍棒組合實驗。
Tomasello, M. (1999). The Cultural Origins of Human Cognition. Harvard University Press.
Voudouris, K. et al. (2022). “Direct Human-AI Comparison in the Animal-AI Environment.” Frontiers in Psychology, 13, 711821.
Strachan, J. W. A. et al. (2024). “Testing Theory of Mind in Large Language Models and Humans.” Nature Human Behaviour, 8, 1285–1295.
Yang, D. et al. (2026). “Are LLMs Smarter Than Chimpanzees? An Evaluation on Perspective Taking and Knowledge State Estimation.” arXiv:2601.12410.

想看更多作品、服務與主站整理，請前往 stanwu.org。