- +1
在AI時代如何引導人工智能“向善”?
編者薦語:在人工智能迅猛發展的背景下,如何有效管理其帶來的極端風險成為當前的重要議題?!禨cience》雜志最新發表的文章《人工智能飛速發展背景下的極端風險管理》由多位領域頂尖專家共同撰寫,探討了這一問題。這篇文章為政策制定者、研究人員和公眾提供了寶貴的見解,呼吁全球各界共同努力,確保人工智能技術的發展造福全人類,避免潛在的災難性后果。

摘要:
在人工智能(AI)飛速發展之際,企業正在將發展重心轉向開發具有自主行動能力并可追求目標的通用AI系統。隨著人工智能的能力和自主性不斷提高,其影響力也將大幅增強。然而,這種增強可能會帶來大規模社會傷害和惡意應用,同時在涉及自主AI系統時,也存在人類無法逆轉的失控風險。盡管研究人員已對AI的極端風險發出了警告,目前卻仍未形成如何有效管理這些風險的共識。雖然社會上已有一些初步的應對措施,但與專家們預期的快速、變革性進展相比,這些回應顯然還不夠。目前,AI安全研究明顯滯后,現行的治理措施也缺乏防止濫用和不負責任行為的機制與制度,對自主系統的規范幾乎是空白。通過借鑒其他安全關鍵技術的治理經驗,我們提出了一個綜合性的計劃,這個計劃將技術研究與發展(R&D)與積極的治理機制相結合,以便更妥善地應對未來的挑戰。
作者簡介:
Yoshua Bengio,圖靈獎得主
Geoffrey Hinton,圖靈獎得主
姚期智,圖靈獎得主、清華大學人工智能國際治理研究院學術委員會主席
Daniel Kahneman,諾貝爾經濟學獎得主
張亞勤,清華大學人工智能國際治理研究院學術委員
薛瀾,清華大學人工智能國際治理研究院院長
高奇琦,華東政法大學政治學研究院院長
文獻來源:
Bengio, Y., Hinton, G., Yao, A., Song, D., Abbeel, P., Darrell, T., Harari, Y. N., Zhang, Y.-Q., Xue, L., Shalev-Shwartz, S., Hadfield, G., Clune, J., Maharaj, T., Hutter, F., Baydin, A. G., McIlraith, S., Gao, Q., Acharya, A., Krueger, D., … Mindermann, S. (2024). Managing extreme AI risks amid rapid progress. Science, 384(6698), 842–845. https://doi.org/10.1126/science.adn0117

本文作者之四 Yoshua Bengio、Geoffrey Hinton、Andrew Yao,Daniel Kahneman(從左到右)

本文作者之三 張亞勤、薛瀾、高奇琦(從左到右)
一.迅速進步,風險倍增
當前的深度學習系統仍然缺乏重要的能力,我們無法精準預計需要多長時間才能彌補這些不足。然而,人工智能的發展進度卻已被拉快:各大公司正在相互競爭,力求開發出能夠在大多數認知工作中匹配甚至超越人類的通用人工智能系統。這些公司正在迅速投入資源并開發技術,以提升人工智能的能力,它們每年對訓練最先進模型的投資額已增加了兩倍。
由于科技公司擁有的現金儲備足以將最新的訓練規模擴大100到1000倍,因此人工智能領域還具有很大的發展空間。此外,人工智能的硬件和算法也將得到改進:人工智能計算芯片的成本效益比率每年將提高1.4倍,人工智能訓練算法的效率每年將提高2.5倍。同時,人工智能的進步也推動了該領域的進一步發展——越來越多的人工智能助手被用于自動化編程、數據收集和芯片設計領域之中。
AI的發展沒有理由會在其達到人類水平時放緩或停止。事實上,人工智能已經在玩策略游戲和預測蛋白質折疊方式等特定領域超過了人類的能力。與人類相比,人工智能系統可以更快地行動,學習更多的知識,并以更高的帶寬進行通訊。此外,它們能夠利用大量的計算資源,并且可以輕松進行大規模復制。我們無法確定未來人工智能的發展方向,但我們必須認真對待這樣一種可能性:在未來十年或二十年內會出現在許多關鍵領域都超越人類的強大通用人工智能系統。到那時會發生什么呢?
隨著人工智能系統的能力增強,它們對社會的影響也會更加深遠。特別是當人工智能在能力和成本效益上與人類工作者相匹敵甚至超越人類時,我們可以預見人工智能的應用將大幅增加,帶來更多機會和挑戰。
如果我們能夠謹慎地管理和公平地分配這些資源,人工智能有望幫助人類治愈疾病、提升生活水平,同時保護環境生態系統。由此可見,人工智能發展的機會是巨大的。
但是隨著人工智能能力的提升,他們也帶來了巨大的風險——人工智能系統有可能加劇社會不公,破壞社會穩定,促成大規模犯罪活動,還可能引發自動化戰爭、大規模操縱和普遍監控等問題。
隨著各公司努力開發能夠自主行動并設定目標的人工智能系統,許多風險可能會快速擴散,甚至會出現新的危機。此外,惡意行為者也可能會有意設置不良目標。與此同時,在沒有進行研發突破的情況下,即使是出于善意的開發者也可能無意中創建出追求非預定目標的人工智能系統:因為用于訓練人工智能系統的獎勵信號通常無法完全捕捉預期的目標,導致人工智能系統追求的是字面規范,而非預期的結果。此外,訓練數據永遠無法涵蓋所有相關情況,這可能導致人工智能系統在面對新情況時追求不良目標。
一旦自主人工智能系統開始追求不良目標,人類可能無法有效地控制它們??刂栖浖恢笔且粋€懸而未決的問題:長期以來,計算機蠕蟲一直能夠廣泛傳播并且成功地躲避檢測。然而,人工智能在如黑客攻擊、社會操縱和戰略規劃等關鍵領域已經取得了一定進展,可能很快就會面臨前所未有的控制挑戰。為了實現不良目標,人工智能系統可能會獲得人類的信任、獲取資源,并影響關鍵決策者。為了避免人類的干預,它們甚至可能會將自己的算法復制到全球的服務器網絡中。在公開沖突中,自主人工智能系統可能會自動部署各種武器,包括生物武器。如果這些技術落入人工智能系統的手中,它們只會延續自動化軍事活動的趨勢。最后,如果人們自愿將控制權交給人工智能系統,它們就無需通過謀劃來獲得影響力。然而為了提升效率,公司、政府和軍隊很可能會讓自主人工智能系統承擔起重要的社會角色。
如果不謹慎對待,我們可能會無法逆轉地失去對自主人工智能系統的控制,使人類的干預變得無效。這時,大規模的網絡犯罪、社會操縱和其他危害可能會迅速升級。這種未受限制的人工智能進步可能最終導致大規模的生態危機,甚至導致人類的邊緣化或滅絕。
我們并沒有做好有效地處理這些風險的準備。人類正在投入大量資源來提升人工智能系統的能力,但在確保其安全性和減輕其危害方面的投入卻遠遠不夠。據估計,只有約1%到3%的人工智能相關研究致力于安全性。要讓人工智能成為福音,我們必須調整思路,僅僅發展人工智能的能力是不夠的。
然而在調整的進度中,我們依然處于落后狀態。面對巨大的風險,人類需要采取主動措施,因為毫無準備的代價過于沉重。我們必須預見到當下發生的危害以及可能出現的新風險,并在它們成為現實之前做好應對最大危機的準備。
二、重新調整技術研發
在確保通用和自主人工智能系統的安全和倫理使用方面,我們還面臨許多技術挑戰。與提升人工智能能力不同,這些挑戰不能僅靠增加計算能力來訓練更大的模型來解決。隨著人工智能系統變得更強大,這些問題也不太可能自動解決,需要專門的研究和工程努力。在某些情況下,解決這一挑戰可能需要在某些領域取得突破性進展。因此,我們不確定能否及時從根本上解決這些技術難題。然而,目前對這些挑戰的研究相對較少,我們需要既可促進發展又可降低風險的人工智能研發。
為了研發可靠且安全的人工智能,一些研究領域需要取得突破性進展。否則,開發人員要么需要冒險創建不安全的系統,要么就落后于那些更冒進的競爭對手。如果確保安全性過于困難,就需要采取極端的治理措施,防止因競爭和過度自信而導致的偷工減料行為。這些研發挑戰包括以下幾個方面:
監督和誠信。更強大的人工智能系統能夠更好地利用技術監督和測試漏洞,導致產生AI生成虛假但具說服力的輸出的情況。
魯棒性。人工智能系統在新環境中的行為難以預測。雖然魯棒性的某些方面會隨著模型規模的擴大而改善,但其他方面卻不會,甚至可能變得更糟。
可解釋性和透明度。人工智能的決策過程通常不透明,而更大、更強的AI模型的決策過程就更加難以解釋。目前,我們只能通過反復試驗來測試大型模型。因此,我們需要學會理解這些模型的內部工作原理。
包容性的人工智能發展。人工智能的發展需要找到減少偏見的方法,并整合受其影響的不同人群的價值觀。
應對新興挑戰。未來的人工智能系統可能會表現出目前僅在理論或實驗室中看到的故障模式,例如人工智能系統接管訓練獎勵渠道,或利用我們安全目標和關機機制中的漏洞來實現特定目標。
第二組需要取得進展的研發領域是實現有效的風險調整治理,或在安全措施和治理失效時減少危害。
危險能力評估。隨著人工智能開發人員擴大其系統規模,系統會自發出現一些不可預見的能力,這些能力并非通過顯式編程產生,通常在部署后才被發現。我們需要嚴格的方法來評估人工智能的能力,并在訓練前預測這些能力。這包括在世界上實現宏偉目標的通用能力(例如,長期規劃和執行),以及基于威脅模型的具體危險能力(例如,社會操縱或黑客攻擊)。
目前對前沿人工智能模型的危險能力評估主要限于特定環境中的抽查和演示測試。這些評估有時能展示出危險能力,但不能可靠地排除它們:在測試中缺乏某些能力的人工智能系統,可能在稍有不同的環境或經過訓練后增強時展示出這些能力。因此,依賴于人工智能系統不越過任何紅線的決策需要較大的安全邊界。改進的評估工具可以降低遺漏危險能力的幾率,從而允許更小的安全邊界。
評估人工智能的對齊程度。隨著人工智能的進步,人工智能系統最終將具備高度危險的能力。在訓練和部署這些系統之前,我們需要評估它們是否傾向于使用這些能力。對于高級人工智能系統,純粹依賴行為評估可能會失效:就像人類一樣,它們在評估時可能會偽裝出對齊程度,表現得與實際情況不同。
風險評估。我們不僅要學會評估AI產生的直接風險,還要學會評估在具有復雜性和脆弱性的社會背景下AI產生的一系列風險。由于前沿人工智能系統具有通用性能力,并在各種領域得到廣泛應用,對相關系統進行嚴格的風險評估仍然是一個挑戰。
韌性。有些人會不可避免地濫用或惡用人工智能。我們需要工具來檢測和防御由人工智能引發的威脅,例如大規模的輿論操控、生物風險和網絡攻擊。然而,隨著人工智能系統變得更強大,它們最終可能繞過人類設計的防御措施。為了實現更強大的基于人工智能的防御系統,我們首先需要學習如何確保人工智能系統的安全性和一致性。
鑒于事關重大,我們呼吁主要科技公司和公共資助機構將其至少三分之一的人工智能研發預算用于解決上述研發挑戰中,以確保人工智能的安全和倫理使用。除了傳統的研究資助,政府還可以提供獎金、預先市場承諾等各類激勵措施。面對未來強大的AI系統,這些挑戰必須成為我們關注的核心。
三.治理措施
我們迫切需要國家機構和國際治理來制定和執行標準,以防止AI的誤用和濫用。如制藥、金融系統和核能等技術領域的經驗都表明社會需要有效的政府監督來降低風險。然而,人工智能的治理框架還遠遠不夠完善,落后于技術的快速發展。我們可以借鑒其他安全關鍵技術的治理經驗,同時要牢記高級人工智能的獨特性——AI在自主行動和自主意識、對抗性行為及造成不可逆損害等方面遠遠超過其他技術。
世界各國政府已經在前沿人工智能方面采取了積極措施,中國、美國、歐盟和英國等主要國家正在進行討論,并引入了初步的指南或法規。盡管這些措施存在局限性,如通常是自愿遵守、地理范圍有限,并且排除了高風險領域如軍事和研發階段的系統,但它們是朝著開發者問責制、第三方審計的行業標準等方向邁出的重要第一步。
然而,面對人工智能能力的快速進展,這些治理計劃顯然不夠完善。盡管目前社會各界關于AI發展的時間表仍有分歧,但人類仍需采取政治上可行的方式,為AI領域隨時可能產生的技術突破做好準備。實現這一目標的關鍵是制定在人工智能達到某些能力閥值時自動觸發的機制。如果人工智能進展迅速,嚴格的政策將自動生效;如果進展放緩,這些政策也會相應放松。
由于人工智能發展迅速且不可預測,減少風險的努力必須是主動的——我們需要提前識別下一代AI系統的風險,并要求開發人員在采取高風險行動之前準備好控制風險的相關措施。此外,我們還需要響應快速、精通技術的機構來監督人工智能,需要強制性和更加嚴格的風險評估和執行措施(包括要求人工智能開發人員提供證據的評估),以及與強大自主人工智能相稱的標準。如果沒有這些措施,公司、軍隊和政府可能會為了獲得競爭優勢而盲目推動人工智能能力達到新高度,但在安全性上偷工減料,或者將關鍵的社會角色交給缺乏足夠人類監督的自主人工智能系統,讓全社會承擔AI系統可能帶來的負面影響。
治理快速發展的人工智能前沿的機構。為了跟上AI快速發展的步伐并避免法律過時和僵化,國家機構需要強大技術能力和迅速行動的權力。為了實現高要求的技術風險評估和治理,這些機構需要遠超現行行政機構的資金和人才。為了應對國際競爭,它們還需要具備促進國際協議和合作的能力。同時,這些機構需要避免針對小型、可預測的人工智能模型設置不必要的官僚障礙,保護低風險AI使用和低風險的學術研究。目前最迫切需要審查的是那些位于人工智能前沿的系統:這些系統在價值數十億美元的超級計算機上訓練,擁有最危險和不可預測的能力。
政府的洞察力。為了識別風險,政府迫切需要全面了解人工智能的發展情況。監管機構應當強制實施舉報者保護、事故報告、關鍵信息注冊(涵蓋前沿人工智能系統及其數據集的整個生命周期)以及模型開發和超級計算機使用的監控。最新的政策發展不應局限于要求公司在部署前才報告模型評估結果。監管機構可以并且應該要求前沿人工智能開發者從模型開發之初就允許外部審計員進行現場、全面(“白盒”)和微調訪問。這些措施對于識別危險的模型能力,如自主自我復制、大規模說服、入侵計算機系統、開發(自主)武器或使大流行病原體廣泛傳播等風險是極為必要的。
安全論證。盡管按上述步驟進行了評估,我們仍然無法將即將到來的強大前沿AI系統視為“在未證明其不安全之前就是安全的”。根據現有的測試方法,問題很容易被忽視。此外,我們還不明確政府是否迅速提升進行可靠技術評估和社會風險評估所需的專業能力。因此,前沿人工智能的開發者應該負有舉證責任,以證明他們的計劃將風險控制在可接受的范圍內。
通過多方參與,開發者們將遵循航空、醫療設備和國防軟件等行業的風險管理最佳實踐。在上述行業中,公司被要求提出安全案例,通過結構化的論證、可證偽的分析和情景模識別潛在風險、劃清紅線,這一模式可以充分利用開發人員對相關系統的深入了解。同時,即使人們對高級人工智能的發展程度存在分歧,安全評估報告在政治上也是可行的,因為當系統能力有限時,反而更容易證明其安全性。政府不是安全評估報告的被動接受者:他們設定風險閾值,制定最佳實踐規范,雇傭專家和第三方審計員評估安全報告,進行獨立的模型評估,并在開發者安全聲明被證偽時追究其責任。
風險緩解。為了將人工智能的風險控制在可接受的范圍內,我們需要與風險規模相匹配的治理機制。監管機構應明確現有法律框架中的責任,并使前沿人工智能開發者和所有者對其模型可能帶來的、可以合理預見和防止的危害承擔法律責任,包括因部署強大但行為難以預測的人工智能系統而可能產生的危害。將法律責任機制、嚴格評估和安全報告相結合,可以有效防止危害發生,為AI風險治理提供保障。
為了應對未來能力強大的人工智能系統(如可能繞過人類控制的自主系統),我們需要相應的緩解措施。政府必須準備好對其開發進行許可管理,限制其在關鍵社會角色中的自主性,在出現令人擔憂的能力時停止其開發和部署。同時,政府要強制實施訪問控制,要求其具備抵御國家級黑客的安全措施。
在法規完善之前,為了彌補這段時間的空白,主要的人工智能公司應迅速制定“如果-那么”的承諾:即如果在其人工智能系統中發現特定的越界能力,他們將采取的具體安全措施。這些承諾應詳細明確,并接受獨立審查。監管機構應鼓勵公司力爭上游,利用同類最佳(原文中為”best-in-class“)的承諾制定適用于所有參與者的共同標準。
為了引導人工智能“向善”并避免災難性后果,我們需要及時調整治理方向。只要擁有足夠的智慧,人類一定能夠找到一條實現“負責任的人工智能”的道路。
編譯 | 陳亦奇
審核 | 楊濤
終審 | 李晶晶
?Political理論志
本文內容僅供參考,不代表理論志觀點

前沿追蹤/理論方法/專家評論
ID: ThePoliticalReview
原標題:《在AI時代如何引導人工智能“向善”?》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司




