【LLM】戰爭與和平(WarAgent)：大模型的世界大戰多智能體模擬

2024-11-13 15:39| 發布者: 緋雨劍心 819 0

摘要: 一、結論寫在前面論文的目標為：作為理解國際沖突動態、可靠性的工具，論文展示了基于 LLM 的多智能體 AI 系統原型設計和分析復雜人類行為的能力。比較各種戰爭正當性設置，論文的實驗顯示，即使是最小或“無”的觸 ...

一、結論寫在前面

論文的目標為：作為理解國際沖突動態、可靠性的工具，論文展示了基于 LLM 的多智能體 AI 系統原型設計和分析復雜人類行為的能力。比較各種戰爭正當性設置，論文的實驗顯示，即使是最小或“無”的觸發因素也可能演變為類似冷戰的情況，這突出了向戰爭不可避免地發展的性質。這一點在戰爭必然性實驗中得到了進一步的支持，通過對國家設置的反事實改變，這意味著國家政策的偏差對避免走向沖突至關重要。

這些發現強調了在給定一系列情況下沖突的確定性質，但也指出了戰略性地修改國家政策或關系作為改變這些看似注定的結果的一種手段的潛力。論文也認識到當前框架在全面捕捉國際關系的復雜性方面的局限性，這也是未來研究的方向。

【LLM】戰爭與和平(WarAgent)：大模型的世界大戰多智能體模擬-9697

圖1:第一次世界大戰模擬設置演示

1.1 論文限制

WarAgent 是第一個模擬歷史事件的基于 LLM 的多智能體系統(MAS)。這種模擬試圖捕捉影響整個歷史外交互動的復雜因素網，但必須指出，論文當前的模型沒有涵蓋這些復雜性的完整范圍。目前，論文在準確復制歷史外交的細微動態方面面臨許多挑戰。以下幾點概述了一些這些關鍵限制：

(1)一個重要方面是不同國家之間的通信技術的差異，導致消息傳輸的時間滯后。從歷史上看，派遣大使是個費時的過程，持續時間根據距離而有很大差異。這一因素在塑造外交關系方面發揮了關鍵作用，因為消息交付的時間可能會影響外交交流的結果。

(2)此外，間諜活動增加了另一層復雜性。在歷史背景下，間諜經常被部署以攔截和破譯消息，不同國家在這方面取得不同程度的成功和曝光。這一方面影響了國家之間信息的流動和完整性。

(3)另一個關鍵因素是消息公開程度的不同水平。與我們當前模型中的私密和公開消息的二元區分不同，歷史外交溝通存在一個公開性光譜，受各種戰略和情境因素的影響。

(4)最后，各國動員軍隊的能力存在很大差異。不同國家準備軍事力量的能力和時間表也不相同。這種差異可能會對戰爭宣言的時機和可行性產生關鍵影響，從而對國際沖突和關系的進程產生重大影響。我們當前的模擬框架可能沒有完全考慮到這些細微和時間敏感的過程。

1.2 論文研究前景

WarAgent 標志著將基于 LLM 的 MAS 系統應用于模擬和檢查復雜人類社會行為(特別是在歷史和國際關系環境下)的研究開始。這一進步揭示了歷史模擬的潛在應用遠遠超出 WarAgent 系統本身。論文建議幾個未來探索的途徑：

1.2.1 基于回合的vs基于時間的模擬(Round-based vs. Time-based Simulation)

目前，論文的框架運作在一個基于回合的系統上，意味著同步模擬而不是異步模擬。在這種格式下，每個國家智能體在每一輪向任何其他國家智能體的交流限制為單向。然而，歷史事件的發展往往是異步的，不同國家之間的交流和活動頻率各異。

雖然論文的系統允許代理選擇“不采取行動等待”，提供異步交互的初步表示(即某些國家比其他國家更活躍)，但這種機制未能捕捉歷史交流模式的復雜性。例如，在第一次世界大戰爆發前，奧匈帝國和德意志帝國進行了密集的私人交流，然后向塞爾維亞宣戰，這種交互細節的層次是我們當前模型無法充分復制的。通過開發更細致的基于時間的模擬方法來解決這一限制，可以顯著提高我們的歷史模擬的準確性和深度。

1.2.2 停止標準(Stopping Criteria)

歷史模擬本質上體現了一個順序的、潛在無止境的過程，反映時間的連續流動。在論文的研究背景下，論文沒有實現一個預定義的條件來系統地終止模擬。相反，論文依靠觀察分析來斷定是否會在大約5到10輪內發生某個特定事件，這事實上作為最終點。

盡管如此，建立系統地終止模擬的標準仍然是一個有吸引力的研究問題。一個可行的方法是應用“板塊連接性”。這種方法涉及當代表不同代理的所有板塊成為連接圖的一部分時結束模擬，并且這種配置在預定數量的回合內保持不變。

此外，其他標準可能包括實現某個特定的歷史結果或代理交互在某些參數內的穩定。例如，模擬可以設計為在預先建立的和平條約簽署時結束，或者當參與代理之間達到一定程度的經濟或軍事平衡時結束。這種標準不僅為模擬提供明確的結論，而且還可以提供有價值的洞察，了解導致這些結果的動態和條件。

探索這些各種停止標準可以更深入地理解復雜的歷史事件相互作用，并從影響歷史變化的因素的更細致的角度提供一個更加細致的視角。這種探索反過來可以增強我們的模擬模型的預測能力，使更準確和深入的歷史分析成為可能。

1.2.3 新的研究問題

該項目回答了基于LLM的MAS是否可以模擬歷史事件和國際沖突的問題，并提供了相關的反事實分析。在這一核心調查之外，許多其他研究查詢從歷史動態的獨特視角提供獨特的視角。例如：

外交交流與沖突可能性之間的相關性：一個有趣的問題是外交交流的增加與沖突可能性的降低之間是否存在相關性。這一方面可能涉及檢查歷史場景，其中加強的外交對話要么預示著和平，要么未能防止戰爭。該模擬可以分析交流模式、外交交流的語氣和內容以及它們對降低潛在沖突的影響。
非國家行為體在地緣政治動態中的影響：此外，非國家行為體(如跨國公司或恐怖組織)對地緣政治動態的影響也可以是一個重要的研究領域，特別是在現代歷史背景下。
各種國際條約和協定在解決長期爭端方面的有效性：模擬還可以用于評估各種國際條約和協定在解決爭端以及這些協定成立或失敗的條件方面的有效性。

這些問題可以用基于 LLM 的 MAS 定量地解決，這可以極大地促進我們對塑造歷史事件的復雜因素互動的理解，并提供一個更全面的工具來分析過去和潛在的未來場景。

二、論文的簡單介紹

2.1 背景

大型語言模型(LLM)的出現，我們正站在計算社會科學研究范式轉變的臨界點。論文開發了一個新穎的基于LLM的多智能體系統(MAS)框架，專門用于歷史事件的模擬。通過創建一個動態環境，各國智能體在其中具有歷史人物的特征和決策過程，進行沖突或合作，可以探索可能塑造過去國際沖突演變的大量可能性，這些沖突建立了當前的全球秩序。

論文以多種方式為探索這些古老的難題提供了途徑，這些難題是人類安全和戰爭的核心。戰爭和和平是歷史硬幣的兩面，塑造了人類敘事千年。沖突和合作之間的互動往往難以預測，它由各國的各種動機、策略和決策塑造。理解戰爭的機制有潛在可能性開辟持久和平的策略。通過歷史分析研究沖突的傳統方法雖然令人欣慰，但由于其靜態性質和事后諸葛亮的偏見而本質上受到限制。

在社會科學中應用模擬具有豐富的歷史，但這些模擬的保真度和范圍已經發生了巨大的變化。早期的嘗試通常受到計算能力和簡單模型的限制。與此形成對比，最新的模擬采用了LLM，可以模擬復雜的行為和互動，如人類行為的虛擬城鎮模擬、狼人殺游戲模擬、拍賣競技場模擬和復雜任務解決模擬。這些方法為使用AI模擬更復雜的系統奠定了基礎，如國際關系和沖突。

2.2 論文的方案

然而，還沒有研究如何將這些高級技術應用于模擬國際外交和戰爭的細微和多方面的性質，這就是論文的研究定位自己的地方：論文旨在建立第一個基于LLM的多智能體系統的歷史事件模擬。

論文核心是對傳統歷史沖突理解的關鍵問題。通過回答以下三個問題，我們的研究利用第一次世界大戰(World War I，WWI)、第二次世界大戰(World War II，WWII)和中國古代的戰國時期(Warring States Period，WSP)的微觀視角來洞察國際沖突的動態。研究問題包括：

? RQ1，模擬有效性：LLM基礎的多智能體系統模擬可以多有效地復制戰略計劃和決策過程的歷史演變?

? RQ2，戰爭正當性：某些戰爭的觸發因素是否比其他的更關鍵，并且這些觸發因素是否可以通過基于LLM的多智能體系統模擬來識別?

? RQ3，戰爭必然性：歷史的“必然”真的不可避免嗎?我們試圖通過基于LLM的多智能體系統模擬來揭示導致戰爭(或和平)的條件。

首先，論文關注模擬有效性。模擬對現實世界事件的保真度是其有效性和實用性的基石。在基于LLM的多智能體模擬的背景下，這個研究問題針對模型可信度的核心。通過比較論文的模擬結果與記錄的歷史事件和趨勢，可以測量模擬的準確性。只有一個維持有效性的系統才能促進全面的分析并解決后續的研究問題。

戰爭正當性，或戰爭的起因，是學習國際關系的永恒難題。通過這個研究問題，論文的目標是隔離和分析戰爭的各種觸發因素，以確定某些觸發因素在引發沖突方面是否比其他觸發因素更具決定性。通過迭代模擬，基于LLM的模型允許我們檢查無數的場景和變量，提供一個受控環境來觀察不同戰爭正當性的后果。了解不同觸發因素的相對權重可以告知政策制定者和歷史學家，為預防沖突和管理國際危機提供新的見解。

戰爭必然性這個問題切中了歷史決定論與或然論觀點的要害。通過探索“歷史必然性”，實際上在問某些戰爭是否注定會發生，或者它們是一系列獨特匯聚的情況的結果，這些情況本可以避免。論文的模擬為在關鍵條件和決策過程中進行變化的歷史“重播”提供了一個獨特的機會，以查看是否可能實現其他結果。這可以加深我們對國際關系中結構和代理之間復雜相互作用的理解，并為歷史決定論的更廣泛辯論做出貢獻。

【LLM】戰爭與和平(WarAgent)：大模型的世界大戰多智能體模擬-6364

圖5:指導提示。(a) 并排指導提示設計。(b) 法國代理與GPT-4交互的一個示例

【LLM】戰爭與和平(WarAgent)：大模型的世界大戰多智能體模擬-6855

圖6:棋盤和記號設計。(a) 棋盤設計。(b) 記號設計(IN 和 WR 在未來工作中討論)。(c) 實驗期間的棋盤和記號方法

【LLM】戰爭與和平(WarAgent)：大模型的世界大戰多智能體模擬-6702

圖7:代理交互設計。(a) WarAgent架構。(b) 代理-秘書交互。(c) 代理-代理交互

2.3 論文的貢獻

【LLM】戰爭與和平(WarAgent)：大模型的世界大戰多智能體模擬-3139

表1:實驗設置和相應研究問題的摘要

【LLM】戰爭與和平(WarAgent)：大模型的世界大戰多智能體模擬-4923

表2:在將奧匈帝國法蘭茨·斐迪南大公遇刺事件視為模擬觸發事件的默認設置下,每個維度的模擬準確率

這項研究的影響是多方面的，并延伸到多學科領域：

對于計算機和信息科學家來說，結果展示了LLM模擬復雜歷史沖突和在其中做出明智決定的推理能力。這強調了人工智能對人類和社會進步可以產生的深遠影響，提供了精密的工具來理解和潛在避免未來的沖突，從而促進全球和平與穩定。

對歷史學家來說，該研究提供了一種理解歷史事件的新工具，結果對現有的敘述提出了挑戰，鼓勵重新評估人們對戰爭和沖突起因的理解，為塑造我們當下的歷史事件提供了更細微的理解。

對政策制定者和國際關系專家來說，從論文的模擬中獲得的洞察為國家或國際沖突預防和解決提供了新的策略。這可以通過促進制定更有效和明智的政策，直接使社會受益。

對學習歷史的學生來說，這些模擬為學習歷史提供了一種創新的方法，使學生和教育工作者能夠探索“假設”場景，并了解歷史事件中的復雜因果關系網。這種互動式的歷史學習方法可以促進更深入地參與主題，并增強批判性思維技能。

此外，通過展示LLM基礎模擬在理解復雜國際動態中的實用性，論文為未來的多學科領域研究設置了先例，例如計算歷史和數字人文。

總之，這項研究是利用基于LLM的多智能體AI系統更好地理解過去復雜人類行為以及為塑造未來制定更明智方法邁出的第一步。

論文標題：War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars

論文鏈接：https://arxiv.org/abs/2311.17227