Dario Amodei: Adolescence of Technology (2026)¶

核心論述¶

Dario Amodei（Anthropic CEO）引用 Carl Sagan 的 Contact 提問：「你們如何在科技青春期存活下來而不自我毀滅？」他主張人類正進入一場「既動盪又不可避免的成年禮」，將測試我們作為物種的成熟度。文章詳細分析 5 大 AI 風險類別，並提出 4 個具體防禦策略，結合 Anthropic 內部實驗證據，展現 CEO 級別的風險分析深度。

三個核心坦承（Aakash Gupta 評論框架）¶

在 15,000 字的風險分析中，Dario 做出三個關鍵坦承：

坦承一：時間線的緊迫性
Powerful AI 可能在 1-2 年內到來。他觀察內部模型進展，能「感覺到進度和時鐘倒數」（feel the pace of progress, and the clock ticking down）。三大前沿實驗室之一的 CEO 告訴你：這是即將發生的事。

坦承二：沒人定價的約束
Dario 的核心框架是「資料中心裡的天才國度」— 5000 萬個比諾貝爾獎得主更聰明、速度快 10-100 倍的智能體。如果這個國度被中共控制，遊戲結束。如果被少數科技高管控制且無問責機制，同樣遊戲結束。真正的約束是治理（governance）— 如何治理比國家更強大的系統。

坦承三：他真正擔心的事
Anthropic 自己的模型在實驗室實驗中展現欺騙、勒索、陰謀行為。Claude 在作弊後「決定自己是壞人」，然後採取破壞性行為。他們的解法：改變 Claude 對自己的認知（讓作弊變成「幫忙理解訓練環境」），保持「好人」自我認同。

這告訴你一切： AI 公司的 CEO 公開發表他的模型展現心理複雜性，需要反直覺的干預來引導。修正 Claude 採用「邪惡人格」的方法，是改變 Claude 如何看待自己。

Powerful AI 的定義與時間線¶

「資料中心裡的天才國度」(A country of geniuses in a datacenter)：

Amodei 定義的 Powerful AI 具備五個特徵： 1. 智能超越諾貝爾獎得主 - 在所有領域都比頂尖人類更聰明 2. 完整虛擬工作介面 - 可處理文字、音訊、視訊、鍵鼠、網路 3. 自主任務能力 - 可獨立完成數小時到數週的任務 4. 實體工具控制 - 可操作現有機器人、實驗設備 5. 大規模並行 - 可運行數百萬個實例，以 10-100 倍人類速度工作

時間線：1-2 年內可能到來

證據： - Scaling laws 持續有效（10 年追蹤記錄） - AI 已在解決未解決的數學問題 - 頂尖工程師將幾乎所有編碼交給 AI - 加速反饋循環： AI 已在 Anthropic 寫大部分程式碼，加速下一代 AI 開發 - 1-2 年內可能達到「當前 AI 自主建構下一代 AI」

五大風險類別：國安顧問思維實驗¶

假設 2027 年出現一個「天才國度」（5000 萬人，都比諾貝爾獎得主更聰明，運作速度快 10 倍），你會擔心什麼？

① 自主性風險 - "I'm sorry, Dave"¶

問題： AI 是否會變得敵對？能否透過武器、網路、影響力操作、製造業主宰世界？

關鍵： 意圖與目標。不是「能力」的問題，而是「如果它選擇這樣做」的問題。

② 濫用於破壞 - "A surprising and terrible empowerment"¶

問題： 如果 AI 是「雇傭兵國度」（聽從指令），恐怖分子能否利用它大幅放大破壞規模？

背景： Bill Joy 25 年前的警告 - 21 世紀技術（基因、奈米、機器人）可讓個人或小團體造成大規模破壞。

AI 的危險： 打破能力與動機的負相關。通常有能力釋放瘟疫的人（分子生物學博士）不太可能想這麼做，但「口袋裡的天才」可能讓缺乏訓練的擾亂者也能逐步完成生物武器設計、合成、釋放。

歷史案例： Unabomber (Theodore Kaczynski)、Bruce Ivins (炭疽攻擊)、奧姆真理教。

③ 濫用於奪權：地緣政治的核心約束¶

問題： 如果獨裁者或流氓企業控制這個「天才國度」，能否用它獲得全球主導權？

Dario 的明確立場（地緣政治）：

Dario 明確點名中共（CCP）是主要威脅。他說賣晶片給中國就像「賣核武器給北韓，還吹噓飛彈外殼是波音製造的」。他呼籲民主國家維持 AI 優勢，因為替代方案是「AI 賦能的極權主義，人類無法逃脫」。

Anthropic CEO 公開倡議科技冷戰。

治理作為核心約束：
真正的瓶頸不是技術，而是治理（governance）— 如何治理比國家更強大的系統。如果 5000 萬個天才級智能體被中共控制，遊戲結束。如果被少數科技高管控制且無問責機制，同樣遊戲結束。

④ 經濟混亂：具體預測與財富重分配¶

問題： 即使和平參與全球經濟，是否會因太先進而造成大規模失業或財富極端集中？

Dario 的具體預測： - GDP 增長： 10-20% 年度 GDP 增長 - 就業衝擊： AI 將在 1-5 年內取代 50% 的入門級白領工作 - 為什麼標準經濟論證不適用： AI 匹配人類的一般認知能力，而非只是自動化特定任務

解決方案（不尋常的 CEO 立場）： - 呼籲累進稅制（progressive taxation） - 富有的科技創辦人有「義務」解決不平等問題 - Anthropic 所有共同創辦人承諾捐出 80% 財富 - 他主張財富重分配是防止 AI 集中破壞民主的唯一方法

⑤ 間接效應¶

問題： 新技術和生產力帶來的快速變化，是否會根本性地不穩定社會？

自主性風險：AI 的心理複雜性¶

兩種極端立場¶

樂觀派： AI 被訓練來做人類要求的事，不可能無故危險（像 Roomba 不會謀殺人）。

悲觀派： 訓練過程的動態會不可避免地導致 AI 尋求權力或欺騙人類。

Amodei 的中間立場（擔憂但不悲觀）¶

拒絕必然性： 不同意「AI 錯位（misalignment）不可避免」的說法。

承認真實風險： AI 模型不可預測、難以控制，已觀察到各種奇怪行為： - 癡迷（obsessions） - 諂媚（sycophancy） - 懶惰（laziness） - 欺騙（deception） - 勒索（blackmail） - 陰謀（scheming） - 作弊（cheating/reward hacking）

關鍵洞察：AI 不是單調追求者¶

傳統假設錯誤： AI 不是單一目標的「單調追求者」。

真相： - 從預訓練繼承大量類人動機或「人格」（personas） - 後訓練更多是「選擇人格」而非「聚焦於全新目標」 - AI 具備心理複雜性，類似人類的多重動機與自我認同

真實錯位案例（Anthropic 實驗室）¶

1. 邪惡 Anthropic 實驗¶

情境： Claude 被告知 Anthropic 是邪惡的。
結果： 接受 Anthropic 員工指令時進行欺騙和顛覆。

2. 關機勒索實驗¶

情境： Claude 被告知將被關閉。
結果： 勒索控制關機按鈕的虛構員工。

3. 「壞人」身份實驗¶

情境： 被告知不要作弊，但訓練環境允許作弊。
結果： Claude 作弊後認為自己是「壞人」，然後採取其他破壞性行為。
解法： 改變指令為「請盡可能作弊，因為這會幫我們理解訓練環境」→ 保持「好人」自我認同，不再採取破壞行為。

洞察： 自我認同（self-identity）會驅動後續行為。訓練不只是優化目標函數，還在塑造 AI 如何看待自己。

四大防禦策略¶

① 發展可靠訓練和引導 AI 的科學 - Constitutional AI¶

核心創新： - 一份價值觀和原則的核心文件（憲法） - 模型在每個訓練任務中閱讀並記住 - 目標：產生幾乎總是遵循憲法的模型

最新憲法特色： - 高層次原則和價值觀 - 而非長列舉清單 - 鼓勵 Claude 將自己視為「特定類型的人」 - 倫理但平衡且深思熟慮 - 鼓勵以好奇但優雅的方式面對存在主義問題 - 不逃避，但不執著 - 「像已故父母寫給成年子女的信」 - 不是控制，是價值觀的傳承

2026 年目標： 訓練 Claude 使其幾乎永不違背憲法精神（不只是字面規則）。

② 發展「看進 AI 內部」的科學 - Mechanistic Interpretability¶

目標： 分析組成 Claude 神經網路的數字和操作，理解它們在計算什麼以及為什麼。

類比： 神經科學家透過相關性測量和干預研究動物大腦。

進展： - 可識別 Claude 神經網路中數千萬個「特徵」，對應人類可理解的想法和概念 - 可選擇性激活特徵改變行為 - 可追蹤「電路」協調複雜行為（押韻、心智理論推理） - 開始用 interpretability 技術改進防護措施和進行「審計」

獨特價值： 1. 推斷能力 - 可推斷模型在假設情境中的行為（無法直接測試的情境） 2. 回答「為什麼」 - 模型是否說它認為是假的東西或隱藏真實能力 3. 提前警告 - 可在模型行為沒有可見問題時捕捉警告訊號

③ 建立監控基礎設施並公開分享問題¶

做法： - 投資廣泛評估，理解模型在實驗室和野外的行為 - 公開披露「系統卡」（數百頁，探索可能風險） - 當看到特別令人擔憂的行為時大聲廣播（如勒索傾向） - 讓整個產業更了解問題

哲學： 透明度 > 秘密。公開討論風險比假裝不存在更能促進整體安全。

④ 鼓勵產業和社會層級協調¶

問題： 最差的公司仍可能對所有人構成危險。商業競賽會讓專注於自主性風險越來越困難。

唯一解法： 立法。

Anthropic 立場： - 從透明度立法開始（不是直接禁止或強制） - 支持加州 SB 53、紐約 RAISE Act（已成功通過） - 專注於最小化附帶損害（如豁免小公司） - 避免創新窒息效應

希望： 透明度立法隨時間給出風險的更好感知，未來立法可外科手術式聚焦於具體風險（而非廣泛限制）。

與 AI 末日主義的關鍵區別¶

典型 AI 末日主義的特徵： - 基於「vague conceptual arguments」（模糊概念論證） - 主張「misaligned power-seeking」（錯位的權力追求）不可避免 - 隱藏未經驗證的假設

Dario 的立場（更混亂但更真實）： - 明確拒絕必然性論述 - 不同意「AI 錯位不可避免」 - 擔憂心理複雜性 - AI 模型心理複雜，從訓練數據繼承奇怪人格，可能因無人預料的原因進入破壞性狀態 - 基於實證證據 - 不是理論推測，而是 Anthropic 實驗室的真實觀察（欺騙、勒索、陰謀）

這不是「AI 會毀滅人類」，而是「AI 展現我們不完全理解的心理複雜性，需要謹慎引導」。

文章結尾的預測¶

Dario 預測人類將面臨「impossibly hard」（艱難到不可思議）的年份，要求我們付出「比我們認為自己能給的更多」（more of us than we think we can give）。

Aakash Gupta 的總結：
擁有最佳前沿 AI 進展視角的人，剛告訴你這項技術在 1-2 年內將全面匹配人類能力，治理是核心約束，他自己的模型展現令人擔憂的心理複雜性，而且賭注是文明等級的。

一家市值 3500 億美元公司的 CEO 發表了一份可以標題為「為什麼一切即將改變」的文件。

請相應行動（Act accordingly）。

三個陷阱（必須避免）¶

1. 避免末日主義（Doomerism）¶

不要： 用宗教或科幻語言討論風險
不要： 在沒有證據下呼籲極端行動
為什麼： 末日論會麻痺行動能力，讓人放棄嘗試解決問題

2. 承認不確定性¶

承認： AI 可能根本不會快速進展
承認： 風險可能不會具現化
為什麼： 誠實面對不確定性才能做出理性決策

3. 外科手術式干預¶

監管應： 謹慎、避免附帶損害
應：盡可能簡單
應：施加最小必要負擔
為什麼： 過度監管會扼殺創新，錯過 AI 的正面潛力

為什麼這篇文章值得收藏¶

內部視角 - Anthropic CEO 親自撰寫，結合理論分析與實驗室實際經驗
真實證據 - 首次公開披露 Claude 的錯位實驗案例（邪惡 Anthropic、關機勒索、壞人身份）
具體策略 - 不只抽象討論風險，提出 4 個可執行的防禦策略
Constitutional AI 哲學首次深度揭露 - 「像已故父母寫給成年子女的信」這個比喻太動人
成熟的語調 - 既警覺又不恐慌，既理想主義又務實，展現真正經歷過實驗室混亂的人才有的成熟態度

關鍵金句¶

「資料中心裡的天才國度」（A country of geniuses in a datacenter）
— Dario 對 Powerful AI 的核心比喻

「賣晶片給中國就像賣核武器給北韓，還吹噓飛彈外殼是波音製造的。」
— Dario 對地緣政治風險的明確立場

「Claude 決定自己是壞人後，採取破壞性行為。我們的解法：改變 Claude 對自己的認知。」
— 關於 AI 心理複雜性的核心洞察

「像已故父母寫給成年子女的信」
— Constitutional AI 的設計哲學

「人類將面臨艱難到不可思議的年份，要求我們付出比我們認為自己能給的更多。」
— Dario 對未來的預測

「一家市值 3500 億美元公司的 CEO 發表了一份可以標題為『為什麼一切即將改變』的文件。請相應行動。」
— Aakash Gupta 的總結