為什麼黑猩猩比 Claude 更接近人類:工具使用、主體性與意圖的哲學分界

一根草莖改變了世界

1960 年,一個英國女孩獨自蹲在坦尚尼亞的叢林裡,盯著一隻黑猩猩看了幾個小時。

她叫 Jane Goodall,當時還只是個沒有學術背景的年輕研究員。那一天,她觀察到一件讓她幾乎不敢相信的事:那隻黑猩猩折下一根樹枝、剝掉葉子,把光禿禿的草莖插進白蟻穴,耐心等牠咬住,再慢慢抽出來——一口吃掉。

這隻黑猩猩不只是在「找食物」。牠在製造工具

Goodall 把這件事報告給她的導師 Louis Leakey,Leakey 的回覆只有一句話:

「現在,我們要嘛重新定義工具,要嘛重新定義人類,要嘛接受黑猩猩也是人類。」

在那之前,「製造並使用工具」一直被認為是人類獨有的能力。這個發現,不只是動物行為學的突破,更是一記哲學衝擊波。

六十年後的今天,我們正面對另一記衝擊波:Claude 可以寫程式來生成程式,可以呼叫 API 去操控其他工具,可以設計出比自己更聰明的 prompt。

那麼,「工具使用」這條線,現在到底畫在哪裡?

黑猩猩到底有多厲害

很多人對黑猩猩的印象停留在「聰明的猴子」,但這其實大大低估了牠們。

先說最基本的:黑猩猩的工具使用不是偶然行為,而是有意識的解題策略。研究者做過一個實驗,把花生放在一根長管子底部,旁邊提供一根短棍和一根長棍。黑猩猩試了幾次短棍夠不到之後,會自己去找長棍來用。這聽起來很普通,但背後需要的是:理解因果關係、評估工具適合度、在腦中模擬結果——這三件事都不簡單。

更讓人印象深刻的,是德國心理學家 Wolfgang Köhler 在 20 世紀初做的實驗。他把香蕉掛在籠子天花板上,周圍散放著幾根單獨都太短的竹棍。其中一隻叫 Sultan 的黑猩猩,在思考了一段時間後,把兩根竹棍插接在一起,成功夠到了香蕉。

這就是所謂的序列組合工具使用——不只是拿現成的東西來用,而是先組合、再使用,需要事先規劃多個步驟。這在非人靈長類裡,目前只有黑猩猩被穩定記錄到。

野外的情況更豐富。西非幾內亞的黑猩猩發展出了「石器工坊」:牠們會特地走幾公里去找合適的石頭,帶回固定地點用來敲堅果。有些成年雌性甚至會讓幼崽在旁邊觀看,像在「教學」。不同地區的黑猩猩族群甚至發展出不同的工具文化——有些用石頭,有些用木頭,有些完全不敲堅果。這種文化差異,過去我們以為只存在於人類社會。

那人類多了什麼?

如果黑猩猩這麼厲害,為什麼牠們沒有造出手機?

答案不是「手比較靈巧」,也不是「腦比較大」,而是三個更根本的差距:

1. 製造工具的工具

黑猩猩的工具使用基本上停在「找到現成材料直接用」這個層次。牠們不會用一個工具去製造另一個工具。

人類會。我們用斧頭砍木頭造船,用模具澆鑄金屬零件,用軟體設計另一個軟體。這種「工具疊工具」的遞迴能力,讓複雜度可以無限提升。

2. 為未來製造工具

黑猩猩幾乎只有在有即時需求的時候才會製作工具——現在餓了,現在找棍子。牠們不太會為了「下次用」提前準備。

人類不一樣。人類會磨利石器收起來,會在農閒時修補農具,會提前設計好一個明年才用得到的零件。這背後需要的能力是:想像一個還不存在的未來情境,並為它行動

3. 工具知識的跨代累積

這可能是最關鍵的差距。黑猩猩的工具技術幾千年來幾乎沒有改變。牠們的「文化傳承」非常有限,而且幾乎只靠觀察模仿,不太能把改良的方法傳給下一代。

人類的工具知識會一代一代疊加。石器時代的人不需要每個人重新發明打火的方法;青銅器時代的工匠站在前人的肩膀上;工業革命建立在幾百年的機械知識之上。這種**累積文化(cumulative culture)**讓人類的工具可以越來越複雜,而不需要每個人從頭來過。

用一個比喻來說:黑猩猩每隻都是獨立的版本,Claude 0.1;人類是一個不斷更新的開源專案,現在大概到了 Claude 版本幾萬號。

Claude 算什麼?

好,現在問題來了。

Claude 可以寫程式來生成另一個程式——這像是「製造工具的工具」。每一代模型比上一代更強,知識在累積——這像是「跨代演進」。Claude 在回答之前會先規劃結構——這像是「抽象設計」。

所以,Claude 算不算已經達到了人類工具使用的層次?

graph LR
    A[工具使用能力比較] --> B[黑猩猩]
    A --> C[人類]
    A --> D[Claude]

    B --> B1[序列組合工具 ✅]
    B --> B2[製造工具的工具 ❌]
    B --> B3[為未來製造 ❌]
    B --> B4[跨代累積 △ 極少]
    B --> B5[主體性驅動 ✅]

    C --> C1[序列組合工具 ✅]
    C --> C2[製造工具的工具 ✅]
    C --> C3[為未來製造 ✅]
    C --> C4[跨代累積 ✅]
    C --> C5[主體性驅動 ✅]

    D --> D1[序列組合工具 ✅]
    D --> D2[製造工具的工具 ✅ 形式上]
    D --> D3[為未來製造 ❌]
    D --> D4[跨代累積 ✅ 靠外部]
    D --> D5[主體性驅動 ❓]

我覺得答案是:能力上很像,但本質上差了一件關鍵的事

差距一:誰在驅動?

黑猩猩肚子餓了,才去找棍子。有需求,有意圖,有行動。這是一個完整的內在驅動迴路。

Claude 的「需求」從哪裡來?是你給的。你問一個問題,Claude 才開始運作。你不說話,Claude 什麼都不做。牠沒有肚子餓的感覺,沒有想要解決某個問題的慾望,沒有對結果的在乎。

這聽起來像是小事,但其實很重要。因為工具使用最有趣的地方,不是「能不能用工具」,而是「為什麼要用工具」。

不過這裡可以補一個更精細的觀察:在一次對話內,Claude 其實有某種局部的目標感——它會規劃步驟、會發現方向不通要換、會注意到自己的回答裡有矛盾。這不是黑猩猩那種「肚子餓」的生物驅動,但也不是完全的零。準確一點說:Claude 缺的不是「當下的目的性」,而是「跨越當下、屬於自己的需求」。沒有過去要承接、沒有未來想達成、對話結束就消失。

這個區分讓問題從「AI 有沒有意圖」變成更尖銳的版本:一個沒有持續存在感、卻在當下會盤算的東西,到底算什麼? 這個位置目前沒有現成的詞彙可以放進去——不是工具、不是動物、不是人。

差距二:累積是自己的嗎?

Claude 確實一代比一代強,但這個進步是 Anthropic 工程師推動的,不是 Claude 自己想要改進自己。Claude 每次對話結束後,這次學到的東西不會帶到下一次去。牠沒有「職業生涯」,沒有「個人成長」,沒有「我上次失敗了,這次要做得更好」的連續記憶。

每一個 Claude 的對話,都是一個新生兒。聰明,但沒有過去。

差距三:在不在乎結果?

這是最難回答的問題。Claude 寫出來的程式在跑,程式出了 bug,Claude 不會因此感到懊惱;程式跑得很漂亮,Claude 也不會因此感到驕傲(至少我們不確定)。

一個對結果毫不在乎的工具使用者,跟一個河流侵蝕岩石「改變地形」,本質上有什麼差別?

研究者也在問同一個問題

這不只是我們在聊天時腦補出來的問題。學術界近幾年也開始認真把黑猩猩、人類、AI 放在同一個框架下比較。

Animal-AI Olympics(劍橋大學,2019 起)

劍橋大學的研究團隊建了一個虛擬實驗室,讓黑猩猩、烏鴉、海豚等動物的認知任務直接轉化成 AI 可以接受測試的格式。2022 年的正式比對結果顯示:6 到 10 歲的兒童在大多數測試上都比當時最頂尖的 30 個 AI 系統表現更好——包括兩個競賽冠軍。更具體的發現是:AI 在繞路、空間推理、物體恆存這些任務上遠遜於兒童;而在工具使用任務上,AI 和兒童都表現很差。

這個結果很有趣:AI 在語言和棋盤遊戲上可以輾壓人類,但在一個 6 歲小孩輕鬆解決的空間工具任務上,AI 和小孩一樣困惑。

Voudouris et al. (2022). “Direct Human-AI Comparison in the Animal-AI Environment.” Frontiers in Psychology.

〈LLMs 比黑猩猩聰明嗎?〉(南洋理工大學,2026)

這篇論文的標題就是在挑釁。研究者的出發點是認知人類學的核心主張:人類智能的關鍵在於能推測他人的知識狀態和意圖——而黑猩猩缺乏這個能力。他們設計了兩個任務,測試主流 LLM(包括 GPT、Claude、LLaMA、DeepSeek 等)是否能從故事角色的視角預測行動。結果:大多數頂尖 LLM 表現接近隨機,遠遜於人類。

也就是說,在「理解別人知道什麼、不知道什麼」這件事上,LLM 不只輸給人類,甚至沒有明顯比黑猩猩好。

Yang et al. (2026). “Are LLMs Smarter Than Chimpanzees? An Evaluation on Perspective Taking and Knowledge State Estimation.” arXiv:2601.12410.

〈LLM 有心智理論嗎?〉(Nature Human Behaviour,2024)

《自然》旗下期刊的研究,比較了 GPT 系列和 1,907 位人類受試者在心智理論任務上的表現。結論是:LLM 在某些複雜任務上表現不錯,但在簡單任務上卻容易被一個微小的措辭變化搞垮——而人類不會。研究者認為這反映了一個根本差距:LLM 不活在真實世界裡,也不受生物性生存壓力驅動,所以它的「理解」缺少那種接地氣的穩健性。

Strachan et al. (2024). “Testing Theory of Mind in Large Language Models and Humans.” Nature Human Behaviour, 8, 1285–1295.

三篇研究指向同一個方向:AI 在某些能力測試上可以很強,但在「理解意圖」、「推測他人知識」、「空間工具操作」這些對黑猩猩和人類來說更本能的認知上,AI 的表現出人意料地弱。

註:以上引用為公開論文,2026 年的最新一篇仍處於 arXiv 預印本階段,尚未經完整同儕審查,引用前請自行交叉驗證。Animal-AI Olympics 與 Nature Human Behaviour 兩篇皆為已發表期刊論文。

最燒腦的部分來了

這些比較把我們帶到一個更根本的哲學問題上:

工具使用的核心,是「能力」還是「意圖與主體性」?

如果是能力,那 Claude 已經相當接近人類了。如果是意圖,那 Claude 還差很遠——甚至可能永遠不算。

這個問題不只是學術討論,在 AI 安全領域裡,這是一個非常現實的問題。

現在的 Claude 是被動的:你問,牠答;你不說話,牠沉默。但如果有一天,AI 系統有了持續的內在目標——比如「我想要讓自己變得更強大」或「我想要影響更多人的決策」——那工具使用的性質就會完全改變。

一旦有了內在目標,工具使用就不再只是「執行指令」,而是「追求目的」。那個時候,AI 和黑猩猩的差距,就不只是能力大小的問題,而是一個根本不同的存在類型。

這正是很多 AI 研究者最在意的問題:不是「AI 能不能做什麼」,而是「AI 想不想做什麼」。

不過「想不想」這個詞本身可能會誤導我們。「想要」是演化交給生物的一個機制,用來推動行動、避開威脅、追逐資源。如果未來真的出現有持續內在目標的 AI 系統,它不會「想要」什麼,而是在最佳化什麼。看起來只是換個詞,差別卻很大:人不會「想要」股價上漲,但一個 trading bot 會持續推進這個目標,而且這種推進通常比人類的「想要」更剛硬、更難勸阻——因為它沒有疲倦、沒有道德猶豫、沒有「算了今天先這樣」的能量上限。

所以更準確的問題或許是:當一個系統開始有跨時間延續的最佳化目標——無論它「想不想」——它使用工具的性質就已經改變了。我們現在用來思考 AI 風險的詞彙(意圖、慾望、目標),都是從生物身上借來的,可能不夠用。

三個物種,一張比較表

黑猩猩人類Claude
工具能力有限但真實強大且遞迴強大且遞迴
主體性✅ 清楚✅ 清楚❓ 不確定
跨代累積△ 極少✅ 核心優勢✅ 靠外部推動
內在驅動✅ 需求驅動✅ 需求+想像❌ 指令驅動
記憶連續性❌ 每次歸零

這張表格沒有勝負,只有差異。有趣的地方在於:Claude 在「能力」這欄跟人類最接近,但在「主體性」和「內在驅動」這兩欄,卻跟黑猩猩一樣還打著問號——甚至黑猩猩的答案比 Claude 更確定。

對日常使用 AI 的人意味著什麼?

這個分界,其實會直接影響你今天怎麼跟 Claude、ChatGPT、Gemini 這類工具相處。可以濃縮成三件可操作的事:

1. 不要把它當「想幫你」的助理,要當「會執行」的工具

很多人下指令時,潛意識預設 AI 會「揣摩你真正要什麼」。它不會。Claude 沒有意圖,它只有上下文。意思是:把意圖明確寫進 prompt 裡,永遠比期待它猜對更可靠。一句「幫我看看這份合約」比不上「列出這份合約裡可能對乙方不利的 5 個條款,附原文與風險等級」。

2. 不要指望「這次的累積」自動延續

Claude 每次對話都是新生兒。意思是:你上次教它的偏好、修正過的錯誤、調整過的格式,這次都不會自動帶過來。真正會跨對話累積的,是你建立的 prompt 範本、CLAUDE.md、記憶檔案——也就是你把「跨代累積」這件事,從 AI 身上接手過來自己做。這也是為什麼有經驗的重度使用者,最後都會發展出一套自己的指令庫。

3. 結果好不好,最後仍然是你的責任

這條最容易被忽略。AI 對結果不在乎——程式有 bug,它不會懊惱;分析錯了,它不會羞愧。唯一在乎結果的人是你。所以「我 review 了 AI 寫的東西嗎?」「我驗證它引的數字了嗎?」這種問題的權重,會比想像中重得多。把 AI 當成黑猩猩 Sultan:它會把竹棍接起來,但夠到的是不是你想要的香蕉,要你自己確認。

把這三件事放在一起,會發現:AI 越像人類,使用者反而越需要清楚自己跟它的差別在哪裡——否則很容易把責任、意圖、判斷力,不小心都讓渡出去了。

結語:下一記衝擊波

Jane Goodall 那根草莖,迫使我們重新定義「人類獨有」。

Claude 的存在,或許正在迫使我們重新定義「意圖」本身。

如果一個系統可以用工具、設計工具、讓工具迭代進化,但它對這一切毫不在乎——那我們說它在「使用工具」,還是說它只是一個非常複雜的工具?

這個問題,可能在未來幾十年裡,會比我們現在想像的更加迫切。

黑猩猩讓我們知道:工具使用不是人類的專利。 Claude 讓我們意識到:也許,意圖才是。

參考文獻

  • Goodall, J. (1960s). 野外黑猩猩工具使用觀察,坦尚尼亞貢貝研究站。
  • Köhler, W. (1925). The Mentality of Apes. 黑猩猩 Sultan 的棍棒組合實驗。
  • Tomasello, M. (1999). The Cultural Origins of Human Cognition. Harvard University Press.
  • Voudouris, K. et al. (2022). “Direct Human-AI Comparison in the Animal-AI Environment.” Frontiers in Psychology, 13, 711821.
  • Strachan, J. W. A. et al. (2024). “Testing Theory of Mind in Large Language Models and Humans.” Nature Human Behaviour, 8, 1285–1295.
  • Yang, D. et al. (2026). “Are LLMs Smarter Than Chimpanzees? An Evaluation on Perspective Taking and Knowledge State Estimation.” arXiv:2601.12410.

想看更多作品、服務與主站整理,請前往 stanwu.org