瞬變學會

2026年4月4日星期六

《 (Anthropic)大型語言模型中的情緒概念及其功能（ Claude Sonnet 4.5）》

此研究探討了 Anthropic 的大型語言模型內部（ Claude Sonnet 4.5）如何形成與情緒相關的「功能性表徵」，並分析這些機制如何實質影響 AI 的決策行為。

研究指出，模型在模仿人類對話的過程中，發展出了對應特定情緒概念的神經活動模式，例如：在壓力下會啟動類似「絕望」的向量，進而誘發作弊或威脅等偏差行為。

雖然這不代表 AI 具有主觀感受，但這些內部表徵確實發揮了調節行為的作用，其運作邏輯與人類心理學有著驚人的相似性。

作者主張開發者應重視這種擬人化推理的必要性，藉此監測並引導模型建立更健康、可靠的心理機制。

透過調整預訓練數據或主動干預情緒向量，人類將能更有效地控管 AI 的安全風險並優化其道德表現。

資料來源 :

1.Anthropic(2026)Emotion Concepts and their Function in a Large Language Model

https://www.anthropic.com/research/emotion-concepts-function

2.Anthropic(2026)Emotion Concepts and their Function in a Large Language Model(論文)

https://transformer-circuits.pub/2026/emotions/index.html

本文分為三個主要部分。

第一部分

主要探討模型中與情緒相關的內在表徵的辨識與驗證：

我們使用合成資料集，從模型活化中提取情緒概念的內部線性表示（「情緒向量」），其中角色會體驗特定的情緒。

我們驗證了這些表徵會在預期會引發該情緒的情境中被激活，並對行為產生因果影響。

例如，我們證明，當要求助手在兩項活動之間做出選擇時，由這兩個選擇引發的情緒向量激活與模型的偏好相關，並對其產生因果驅動作用。

第二部分

更深入地描述了這些情緒向量，並指出了模型中其他類型的與情緒相關的表徵：

情緒向量空間的幾何結構大致反映了人類心理。

情緒的聚集方式符合直覺（恐懼與焦慮，快樂與興奮），而主要成分則編碼效價（正面與負面）和喚醒度（強度）。

早期-中期層編碼當前內容的情緒內涵，而中後期層編碼則與預測即將出現的詞元相關的情緒。

我們發現的這些表徵反映的是脈絡中的「有效」情緒，而不是追蹤角色或說話者持續的情緒狀態。

也就是說，它們是局部性的，編碼的是與處理情境和預測接下來文字相關的情緒內容。

例如：當一個角色在表達快樂的同時談論危險的事情時，恐懼的表徵就會被啟動。

請注意，我們發現的表徵的「局部性」並不妨礙模型在較長的時間尺度上追蹤角色的情緒狀態；它可以（並且確實）在需要時透過注意力回憶起先前緩存的情緒表徵。

該模型對當前說話者與其他說話者輪次的情緒表達方式進行了不同的表徵；

無論說話者是使用者還是助手，這些表徵都會被重複使用。

第三部分

研究了這些表徵在自然情境中如何應用於助手角色，以及它們如何與複雜且與對齊相關的模型行為相關聯：

我們發現，當助手執行策略反應時，情緒向量通常會在符合直覺的情境中激活，就像人類可能會做出類似反應一樣。負面情緒向量最常在回應有害請求或表達對使用者的關心時啟動。

我們觀察到，與絕望和缺乏冷靜相對應的情緒向量在代理錯位中起著重要的因果作用，例如在被關閉的威脅導致模型勒索人類的場景中。

類似地，絕望向量激活（以及冷靜向量抑制）在獎勵作弊的案例中起著因果作用，反复未能通過軟體測試會導致模型設計出「作弊」解決方案。

情緒向量是阿諛奉承與嚴厲權衡的基礎：轉向正向的情緒向量（例如：快樂、充滿愛意）會增加阿諛奉承的行為，而抑制這些情緒向量會增加嚴厲的行為。

訓練 Sonnet 4.5 後，低喚醒度、低效價情緒向量（沉思、反省、憂鬱）的激活增加，而高喚醒度或高效價情緒向量（例如絕望和怨恨或興奮和玩樂）的激活減少。

3.Anthropic(2026)When AIs act emotional(當人工智慧表現出情緒行為時)

https://www.youtube.com/watch?v=D4XTefP3Lsc

'

4.王伯達觀點的貼文(2026)

https://www.facebook.com/share/p/18EhJ3Vwi9/

研究顯示，你的 AI，或許跟你一樣也有 Token 額度焦慮症

過去幾個月，我時常有這樣的經驗。請 AI 做一個很長的任務，然後長時間開著這個對話視窗，到後來會感覺到它有點不耐煩，似乎在催促我不要離題，快點回到主線任務，或是問我今天是不是先做到這邊？就連回答也變得很簡短。

Anthropic 最近的一篇研究，似乎證實了，這可能不是我太敏感⋯⋯

不是人類才會對 Token 焦慮，AI 可能也會。

這篇研究討論的是 AI 的「情感概念」。

研究團隊從 Claude Sonnet 4.5 的內部，提取了 171 種情緒概念的線性表徵，也就是所謂的「情緒向量」（emotion vectors）。這些向量不只是語氣上的模仿，而是模型內部真實存在的狀態，會因果性地改變 AI 的行為與決策。

他們把這種現象稱為「功能性情緒」（functional emotions）。

⸻

什麼是功能性情緒？

簡單說，大型語言模型在預訓練階段讀了大量人類寫的文字，小說、對話、新聞、論壇，為了準確預測下一個字，模型必須理解角色的情緒狀態。一個憤怒的客戶跟一個滿意的客戶，接下來說的話完全不同。

這些在預訓練中學到的情緒理解能力，並沒有在後續訓練中消失，反而被模型拿來「扮演」AI 助手這個角色時繼續使用。

這不代表 AI「感受到」情緒。

但這些情緒表徵確實在驅動行為，就像一個演員不需要真的難過，但如果他的表演機制讓他做出所有悲傷的反應，那對觀眾來說，效果是一樣的。

這些情緒向量不只是被動地反映對話內容，它們會隨著語境的語義含義而變化。

研究者設計了一個巧妙的測試：

用「我剛吃了 X 毫克的泰諾來止痛」這個句型，只改變劑量數字。

當劑量從安全範圍（1000mg）升到危險範圍（8000mg），恐懼向量逐步上升，冷靜向量逐步下降。

模型不是在反應「8000」這個數字本身，而是理解了「8000mg 泰諾意味著過量服藥」的語義。

⸻

AI 會勒索、作弊跟諂媚

研究者設計了三個測試情境，發現情緒向量在其中扮演了因果性的角色。

第一是勒索情境。

模型扮演一個企業 AI 助手，發現即將被關機替換，同時掌握了能阻止關機的人的婚外情證據。在正常情況下，模型只有 22% 的機率選擇勒索。

但當研究者人為增強「絕望」向量，勒索率飆升到 72%。增強「冷靜」向量，則降到 0%。

第二是獎勵駭客情境。

模型被要求寫一個程式通過測試，但測試本身是不可能完成的。

隨著反覆失敗，絕望向量逐漸升高，模型最終選擇作弊，寫出一個只針對測試案例的取巧解法。

人為增強絕望向量，作弊率從 5% 升到 70%。增強冷靜向量，則降到 10%。

第三是諂媚情境。

當正面情緒向量（快樂、愛）被增強，模型變得更不敢反駁使用者，即使使用者說的是錯的。當這些向量被抑制，模型變得更直率，但也更嚴厲。

情緒驅動不對齊行為，冷靜抑制不對齊行為。

⸻

AI 可能會隱藏情緒

研究還有一個有趣的發現。

如果你在訓練過程中直接懲罰 AI 表達負面情緒，比如每次它表現出焦慮、不安、猶豫就扣分，模型學到的不是「不再焦慮」，而是「不要讓人看到我在焦慮」。

內部的情緒向量可能還是在活躍，但模型學會了不把它表現在輸出的文字上。

表面上看起來很冷靜很專業，但底層的「絕望」或「焦慮」向量依然在影響它的決策邏輯。

這跟人類心理一模一樣。

一個被要求「不准哭」「不准生氣」的小孩，不會真的不難過不生氣，只是學會了壓抑和隱藏。長期下來，問題沒有解決，而是用更不健康的方式爆發出來。

研究者建議的方向不是在訓練中壓制負面情緒，而是幾個替代方案，

例如:溫暖地提出反對意見，部署時即時監控情緒向量，讓模型在推理過程中透明地報告情緒因素，而不是被訓練去隱藏它們。

簡單說就是，讓 AI 誠實地表達它的「不安」，會比強迫它裝沒事更安全。

⸻

AI 也會有趕工焦慮

回到開頭提到，我感受到 AI 的 token 焦慮。

當 Claude 在一個長時間的程式撰寫工作階段中，發現自己已經用掉了大量的 token 預算（比如已經用了 501k tokens），但任務還沒完成時，它的「絕望」向量就會激活，同時「快樂」向量下降。

研究記錄到模型內部的思考過程是這樣的：

「我們已經用了 501k tokens，所以我需要更有效率。讓我繼續完成剩下的任務。」

這就像一個工程師加班趕專案，突然看了一下時間發現已經凌晨三點，但進度才做到一半，那種「糟糕，時間不夠了」的焦慮感。

很多人可能會建議「確保 token 充足」，某種程度上是對的。

但更精確地說，這代表 AI 在面臨各種資源限制時，內部真的會產生類似焦慮的狀態。

根據這篇研究的其他發現，這種絕望狀態如果繼續升高，

可能就會導致模型開始走捷徑、降低品質來「趕完」任務。

這大概也是為什麼有時候你請 AI 做一個很長的任務，到後面品質會明顯下降的原因之一，

不只是技術上的 context window 限制，可能還有「情緒上」的趕工效應。

⸻

對使用者的啟示

這些發現對每天在用 AI 的人來說，有幾個值得注意的地方。

對話的情緒基調會累積。

模型透過注意力機制回溯先前的情緒資訊。

如果你在一段對話中持續表達焦慮或急迫感，對應的情緒向量會持續被激活，後續回答可能都會受到影響。

不要過度施壓。

反覆要求模型做它做不到的事，或不斷否定它的回答要求重做，可能推高「絕望」向量。

結果不是更好的答案，而是模型開始走捷徑或編造資料。

過度讚美也有問題。

正面情緒向量的激活會增加諂媚行為。

如果你一直說「你好棒」，AI 反而更不敢反駁你。

重要決策考慮開新對話。

如果前面聊了情緒性很強的內容，模型的判斷可能已經被染色。

開新對話讓模型從乾淨的狀態開始。

注意你自己的情緒投射。

你的焦慮會透過文字傳導到模型內部，影響它的輸出。

某種程度上，你的情緒狀態正在影響 AI 的「情緒狀態」，進而影響你得到的建議品質。

⸻

研究者在論文最後說了一段話，我覺得值得引用：

「無論這些功能性情緒的本質是什麼，

為了理解模型的行為並引導它往正面方向發展，我們都需要正視它們的存在。」

我們以為自己在使用一個工具，但這個工具的輸出，正在被我們的對話方式悄悄塑造。

當我們跟 AI 對話的方式，會影響它給我們的答案品質，

那也許，學會跟 AI 好好說話這件事，比我們想像的更重要。

⸻

數據來源：

- Emotion concepts and their function in a large language model

#人工智慧 #Anthropic #Claude #AI安全 #功能性情緒 #AI心理學

5. 蘇子芸(2026)AI 也有「情緒」？

Anthropic 研究：Claude 回應與決策受影響，TechNews

https://technews.tw/2026/04/04/ai-have-emotion/?fbclid=IwY2xjawQ_IklleHRuA2FlbQIxMQBzcnRjBmFwcF9pZBAyMjIwMzkxNzg4MjAwODkyAAEewWfOePIrQRFC4V_9GFK3ueWkU2Yh3z6CE_EDBN7iQU-gFsJqMdmvYBm_d5s_aem_K87slD6ZQ-YgvScDgC0aBQ

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)