當(dāng)前位置：產(chǎn)業(yè)資訊 > 其他 > OpenAI不聽指揮、拒絕關(guān)閉、建議殺死人類，你開始慌了嗎？

OpenAI不聽指揮、拒絕關(guān)閉、建議殺死人類，你開始慌了嗎？

來源：合佛商業(yè)評(píng)論 2025-05-28 10:10

核心提示：AI程序出現(xiàn)了越來越多意想不到的行為。例如，據(jù)報(bào)道，美國空軍最近在一次實(shí)驗(yàn)中使用的AI模擬工具，建議殺死飛行員，以確保飛行任務(wù)得到恰當(dāng)執(zhí)行。

　　美國一家研究機(jī)構(gòu)最近公布了一系列針對(duì)各AI大模型的測(cè)試結(jié)果，其中，OpenAI的o3推理模型在得到“關(guān)閉指令”后，不僅拒絕執(zhí)行指令，還篡改了代碼以免被關(guān)閉。這一事件也迅速引發(fā)了公眾的關(guān)注與恐慌。人們所擔(dān)憂的“AI擁有自主意識(shí)”似乎已經(jīng)近在眼前。實(shí)際上，AI程序已經(jīng)出現(xiàn)了越來越多意想不到的行為，包括對(duì)用戶表現(xiàn)出攻擊性甚至威脅的行為。那么，該如何盡可能確保AI產(chǎn)品的安全性？

　　2023年3月推出GPT-4的時(shí)候，OpenAI號(hào)稱它比其令人驚艷的前身更加優(yōu)異，稱新版本在準(zhǔn)確性、推理能力和測(cè)試分?jǐn)?shù)方面表現(xiàn)更好——所有這些都是之前常用的AI性能指標(biāo)。然而，最引人注目的是，OpenAI將GPT-4描述為“更加一致”（more aligned）——這或許是AI產(chǎn)品或服務(wù)首次以“與人類價(jià)值觀一致”而營(yíng)銷。

　　技術(shù)應(yīng)該服從道德護(hù)欄的觀點(diǎn)并不新鮮。隨著AI價(jià)值與人類價(jià)值的一致性不僅僅是監(jiān)管要求，而成為產(chǎn)品差異化的因素，公司需要調(diào)整AI產(chǎn)品和服務(wù)的開發(fā)流程。本文旨在明確企業(yè)家和高管在將安全和與人類價(jià)值觀一致的AI產(chǎn)品推向市場(chǎng)時(shí)面臨的挑戰(zhàn)。及早采取行動(dòng)應(yīng)對(duì)這些挑戰(zhàn)的公司將獲得重要的競(jìng)爭(zhēng)優(yōu)勢(shì)。

　　這些挑戰(zhàn)分為六類，對(duì)應(yīng)于典型創(chuàng)新過程的關(guān)鍵階段。對(duì)于每個(gè)類別，我們提供了高管可以借鑒的框架、實(shí)踐和工具。這些建議來自我們對(duì)AI產(chǎn)品價(jià)值對(duì)齊方法的聯(lián)合和獨(dú)立研究，以及我們幫助企業(yè)在多個(gè)領(lǐng)域開發(fā)和部署AI產(chǎn)品和服務(wù)的經(jīng)驗(yàn)，包括社交媒體、醫(yī)療保健、金融和娛樂業(yè)。

　　為你的AI產(chǎn)品定義價(jià)值觀

　　第一項(xiàng)任務(wù)是確定那些必須將其價(jià)值觀考慮在內(nèi)的人。鑒于AI對(duì)社會(huì)的潛在影響，公司需要考慮到比評(píng)估其他產(chǎn)品功能時(shí)更多樣化的利益相關(guān)者群體。他們可能不僅包括員工和客戶，還包括民間社會(huì)組織、政策制定者、社會(huì)活動(dòng)家、行業(yè)協(xié)會(huì)和其他人。當(dāng)產(chǎn)品所在市場(chǎng)涵蓋不同文化或法規(guī)的地緣因素時(shí)，情況可能會(huì)變得更復(fù)雜。必須了解所有這些利益相關(guān)者的偏好，并彌合他們之間的分歧。

　　這方面的挑戰(zhàn)可以通過兩種方式來應(yīng)對(duì)。

　　嵌入既定原則。按照這種方法，公司直接借鑒已有的道德體系和理念的價(jià)值觀，如實(shí)用主義，或遵照由國際機(jī)構(gòu)開發(fā)的價(jià)值觀，比如OECD發(fā)布的AI原則。例如，由谷歌（現(xiàn)Alphabet）資助的AI創(chuàng)業(yè)公司Anthropic將其AI產(chǎn)品Claude的原則建立在聯(lián)合國《世界人權(quán)宣言》的基礎(chǔ)上。其他公司也有類似行動(dòng)；例如，寶馬的原則類似于OECD的原則。

　　闡明你自己的價(jià)值觀。一些公司組建了一支專家團(tuán)隊(duì)——技術(shù)專家、倫理學(xué)家、人權(quán)專家等等——來建立自己的價(jià)值觀。這些人可能對(duì)使用某種技術(shù)所固有的風(fēng)險(xiǎn)（和機(jī)遇）有很好的理解。Salesforce公司就采取了這種方法。在其原則聲明的序言中，該公司將這一過程描述為“從公司各個(gè)部門的個(gè)人貢獻(xiàn)者、經(jīng)理和高管那里征求反饋的長(zhǎng)達(dá)一年的旅程，包括工程部、產(chǎn)品開發(fā)部、用戶體驗(yàn)部、數(shù)據(jù)科學(xué)部、法務(wù)部、平等事務(wù)部、政府事務(wù)部和營(yíng)銷部”。

　　另一種方法是由DeepMind的科學(xué)家團(tuán)隊(duì)開發(fā)的。DeepMind是一家AI研究實(shí)驗(yàn)公司，2014年被谷歌收購。這種方法包括向客戶、員工等人咨詢，以最小化自我利益偏見的方式激發(fā)出公司的AI原則和價(jià)值觀。它是基于“無知之幕”（veil of ignorance）——由哲學(xué)家約翰·羅爾斯（John Rawls）構(gòu)思的一個(gè)思想實(shí)驗(yàn)，人們?cè)诓恢雷约涸谏鐓^(qū)中的相應(yīng)位置的情況下提出社區(qū)規(guī)則——這意味著他們不知道規(guī)則將如何影響他們。使用這種方法產(chǎn)生的價(jià)值相比其他方法而言不會(huì)那么自我利益驅(qū)動(dòng)，而是更關(guān)注AI如何幫助最弱勢(shì)的群體，并且更加穩(wěn)健，這樣人們通常更容易接受它們。

　　將價(jià)值觀寫進(jìn)程序

　　除了建立指導(dǎo)價(jià)值觀，公司還需要考慮明確限制AI產(chǎn)品的行為。隱私設(shè)計(jì)、安全設(shè)計(jì)等實(shí)踐在這方面非常有用。這些實(shí)踐以原則和評(píng)估工具為基礎(chǔ)，將目標(biāo)價(jià)值嵌入組織的文化和產(chǎn)品開發(fā)過程中。應(yīng)用這些實(shí)踐的公司員工有動(dòng)力在設(shè)計(jì)新產(chǎn)品的早期，仔細(xì)評(píng)估和減輕潛在風(fēng)險(xiǎn)；建立客戶可以用來報(bào)告問題的反饋循環(huán)；并不斷評(píng)估和分析這些報(bào)告。

　　生成式AI系統(tǒng)需要在程序中寫入正式的道德護(hù)欄，以便它們不會(huì)違反定義的價(jià)值觀或越過紅線（Red lines），例如，同意不當(dāng)請(qǐng)求或生成不可接受的內(nèi)容。包括英偉達(dá)和OpenAI在內(nèi)的公司正在開發(fā)框架來提供這種護(hù)欄。例如，GPT-4被營(yíng)銷為比GPT-3.5更不可能響應(yīng)不允許內(nèi)容的請(qǐng)求，如仇恨言論或惡意軟件代碼。

　　紅線也是由不斷演變的法規(guī)所定義的。作為回應(yīng)，公司需要更新其AI產(chǎn)品的合規(guī)性，這會(huì)在不同市場(chǎng)之間日益分化。以一家歐洲銀行為例，該銀行希望推出一款生成式AI工具來改善客戶互動(dòng)。直到最近，該銀行只需要遵守歐盟的數(shù)據(jù)保護(hù)法（EU’s General Data Protection Regulation），但很快它也需要遵守歐盟的AI法案（EU’s AI Act）。如果它想在中國或美國部署AI，它將不得不遵守那里的法規(guī)。隨著當(dāng)?shù)匾?guī)則的變化，以及銀行成為跨司法管轄區(qū)監(jiān)管的對(duì)象，它還需要調(diào)整其AI產(chǎn)品策略并管理潛在的不兼容要求。

　　價(jià)值觀、紅線、道德護(hù)欄和法規(guī)都應(yīng)該整合并嵌入AI產(chǎn)品的編程之中，以便，例如法規(guī)的變更可以被鍵入并自動(dòng)傳達(dá)給受其影響的AI程序的每個(gè)部分。

　　權(quán)衡取舍

　　近年來，我們看到公司在努力平衡隱私與安全、信任與安全、提供幫助的同時(shí)尊重他人的自主權(quán)，當(dāng)然，還有短期財(cái)務(wù)指標(biāo)的價(jià)值觀。例如，提供老年人輔助或兒童教育產(chǎn)品的公司不僅要考慮安全，還要考慮尊嚴(yán)和代理程度：什么時(shí)候AI產(chǎn)品不應(yīng)該幫助老年用戶，以便增強(qiáng)他們的信心、照顧他們的尊嚴(yán)？什么時(shí)候應(yīng)該幫助兒童確保他們積極的學(xué)習(xí)體驗(yàn)？

　　應(yīng)對(duì)這種挑戰(zhàn)的一個(gè)方法是根據(jù)其價(jià)值觀對(duì)市場(chǎng)進(jìn)行細(xì)分。例如，一家公司可能決定專注于一個(gè)更重視隱私等原則而不是算法準(zhǔn)確性的較小市場(chǎng)。這就是搜索引擎公司DuckDuckGo選擇的路徑，它限制定向廣告并優(yōu)先考慮隱私。該公司定位自己是為不想被在線跟蹤的互聯(lián)網(wǎng)用戶提供的替代品。

　　與合作伙伴對(duì)齊價(jià)值觀

　　薩姆·奧特曼作為OpenAI的CEO，在播客《在好公司》（In Good Company）中分享了他們的挑戰(zhàn)：公司應(yīng)該給不同文化和價(jià)值體系的人多大的靈活性來定制OpenAI的產(chǎn)品？他指的是一種趨勢(shì)，即公司采用預(yù)訓(xùn)練模型，如GPT-4、PaLM、LaMDA和穩(wěn)定擴(kuò)散，并對(duì)其進(jìn)行微調(diào)以構(gòu)建自己的產(chǎn)品。（注：PaLM與LaMDA均為大語言模型）

　　正如奧特曼指出的那樣，問題在于基礎(chǔ)模型的所有者對(duì)其產(chǎn)品的處理幾乎沒有控制權(quán)。調(diào)整模型的公司也有類似的問題：他們?nèi)绾未_保使用第三方模型創(chuàng)建的新產(chǎn)品，與期望的價(jià)值觀保持一致——特別是考慮到他們可以微調(diào)的程度的限制？只有原始模型的開發(fā)人員知道在訓(xùn)練它們時(shí)使用了哪些數(shù)據(jù)，因此公司需要仔細(xì)選擇他們的AI合作伙伴。他們還必須與其他合作伙伴保持一致，例如訓(xùn)練數(shù)據(jù)的提供者，這些合作伙伴可能持有各種不良偏見，從而影響最終產(chǎn)品。

　　為了解決這些問題，AI開發(fā)者可能需要建立評(píng)估外部AI模型和數(shù)據(jù)的程序，并在啟動(dòng)新的伙伴關(guān)系之前挖掘潛在伙伴的價(jià)值觀和基本技術(shù)系統(tǒng)。（這可能類似于企業(yè)在管理可持續(xù)發(fā)展方面潛在伙伴風(fēng)險(xiǎn)的方式，以及衡量和管理范圍三的碳排放做法。）

　　這不是一個(gè)一次性的游戲。隨著強(qiáng)大基礎(chǔ)模型之間的競(jìng)爭(zhēng)展開，公司可能會(huì)隨著時(shí)間的推移改變他們用于產(chǎn)品的模型。他們會(huì)發(fā)現(xiàn)，AI測(cè)試能力和圍繞價(jià)值觀的有效盡職調(diào)查很可能是公司競(jìng)爭(zhēng)優(yōu)勢(shì)的來源。

　　確保人類的反饋

　　給AI產(chǎn)品注入價(jià)值觀需要大量數(shù)據(jù)——如前所述，其中大部分將由人類生成或標(biāo)記。在大多數(shù)情況下，它分為兩個(gè)數(shù)據(jù)流：用于訓(xùn)練AI的數(shù)據(jù)，和對(duì)用戶行為的持續(xù)反饋的數(shù)據(jù)。為了確保價(jià)值觀的一致性，必須建立新的反饋流程。

　　一種常見做法被稱為“從人類反饋中強(qiáng)化學(xué)習(xí)”（RLHF），這是一個(gè)過程，通過輸入人類的反饋，可以最小化不良輸出，如辱罵性語言。人類審查AI系統(tǒng)的輸出，例如對(duì)某人簡(jiǎn)歷的分類、執(zhí)行導(dǎo)航動(dòng)作的決定或生成內(nèi)容，并根據(jù)其與某些價(jià)值觀不對(duì)齊的程度對(duì)其進(jìn)行評(píng)級(jí)。該評(píng)級(jí)用于新的訓(xùn)練數(shù)據(jù)中，以改善AI產(chǎn)品的行為。當(dāng)然，這種方法中的一個(gè)關(guān)鍵決定是，誰應(yīng)該提供反饋以及如何提供。強(qiáng)化學(xué)習(xí)可能發(fā)生在AI生命周期的各個(gè)階段，包括產(chǎn)品推出之前和之后。在早期階段，工程師可以在測(cè)試AI產(chǎn)品的輸出時(shí)提供反饋。

　　另一種做法是創(chuàng)建“紅隊(duì)”（red teams），其任務(wù)是逼迫出AI的不良行為。“紅隊(duì)”廣泛用于其他領(lǐng)域，例如網(wǎng)絡(luò)安全。他們充當(dāng)對(duì)手，攻擊系統(tǒng)以探索它是否以及如何可能失敗。盡管這些團(tuán)隊(duì)通常是組織內(nèi)部的，但外部社區(qū)也可以被使用。例如，2023年，數(shù)千名黑客在全球最大的網(wǎng)絡(luò)安全會(huì)議Def Con上聚集，以“攻擊”大語言模型并識(shí)別漏洞。

　　產(chǎn)品發(fā)布之后，還需要繼續(xù)教AI按照某些價(jià)值觀行事。AI在這方面就像人類：無論接受了何種正規(guī)教育，我們都會(huì)根據(jù)反饋不斷調(diào)整自己的行為，以符合所在社區(qū)的價(jià)值觀。當(dāng)人們使用AI或受其影響時(shí)，他們可能會(huì)觀察到似乎違反其營(yíng)銷價(jià)值觀的行為。允許他們提供反饋可以成為改善AI行為的重要數(shù)據(jù)來源。

　　準(zhǔn)備好迎接意外

　　AI程序出現(xiàn)了越來越多意想不到的行為。例如，據(jù)報(bào)道，美國空軍最近在一次實(shí)驗(yàn)中使用的AI模擬工具，建議殺死飛行員，以確保飛行任務(wù)得到恰當(dāng)執(zhí)行。另一個(gè)例子是AlphaGo發(fā)明的圍棋程序Go的最新舉動(dòng)，被圍棋高手們認(rèn)為是“超人的和出乎意料的”。也許最著名的例子要屬微軟的必應(yīng)（Bing）聊天機(jī)器人，它在推出后不久就開始對(duì)用戶表現(xiàn)出攻擊性甚至威脅行為，直到微軟大幅縮短了可能的對(duì)話長(zhǎng)度后才停止。同樣不可預(yù)見的體驗(yàn)將大幅增加，特別是因?yàn)镃hat GPT和其他大型AI模型現(xiàn)在可以執(zhí)行它們沒有明確編程的任務(wù)——例如翻譯任何訓(xùn)練數(shù)據(jù)中不包括的語言。

　　一些不可預(yù)測(cè)的行為可能是由用戶與AI產(chǎn)品的互動(dòng)引起的，無論是有意還是無意。這些產(chǎn)品可能允許個(gè)人和公司進(jìn)行極端的版本更新和超級(jí)個(gè)人化，這些個(gè)人和公司利用來自不同市場(chǎng)的數(shù)據(jù)微調(diào)模型。通過這種方式，可以根據(jù)每個(gè)用戶與AI產(chǎn)品的交互方式創(chuàng)建和定制無數(shù)版本。確保所有這些版本保持一致，并且不出現(xiàn)新的行為，會(huì)很有挑戰(zhàn)性。

　　公司必須實(shí)施強(qiáng)大的流程來檢測(cè)和改善AI產(chǎn)品發(fā)布后的有害或意外行為。事件必須被識(shí)別，由用戶或任何其他受影響的人報(bào)告，并由公司進(jìn)行分析。公司可能需要建立AI事件數(shù)據(jù)庫，就像OECD和合作伙伴開發(fā)的AI數(shù)據(jù)庫一樣，以便不斷學(xué)習(xí)和記錄他們的AI產(chǎn)品是如何發(fā)展的。

　　在一個(gè)AI價(jià)值觀一致性可能決定競(jìng)爭(zhēng)結(jié)果甚至成為產(chǎn)品質(zhì)量要求的世界里，認(rèn)識(shí)到產(chǎn)品差異化的風(fēng)險(xiǎn)和機(jī)遇，擁抱新的AI產(chǎn)品實(shí)踐和流程以保持領(lǐng)先地位至關(guān)重要?？蛻襞c更廣大的社會(huì)，都期望公司按照某些價(jià)值觀來運(yùn)營(yíng)。在這個(gè)新世界中，他們絕不能推出行為不端的AI產(chǎn)品和服務(wù)。

9

贊一個(gè)
15

踩一下

文章關(guān)鍵詞： AI

本文轉(zhuǎn)載來自：合佛商業(yè)評(píng)論，不代表產(chǎn)商網(wǎng)觀點(diǎn)，如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如涉及版權(quán)問題請(qǐng)聯(lián)系產(chǎn)商網(wǎng)，電話：4008-338-308；郵箱：dichan001@qq.com

上一篇：黃埔區(qū)、廣州高新區(qū)企業(yè)榮獲全國成長(zhǎng)性文化企業(yè)30強(qiáng)！

下一篇：全國首個(gè)“園區(qū)運(yùn)營(yíng)”地方標(biāo)準(zhǔn)在深圳正式發(fā)布，你的產(chǎn)業(yè)園能拿多少分？

熱點(diǎn)新聞

廣州開發(fā)區(qū)管委會(huì) 廣州市黃埔區(qū)人民政府關(guān)于印發(fā)廣州開發(fā)區(qū)（黃埔區(qū)）深化生產(chǎn)性服務(wù)業(yè)與先進(jìn)制造業(yè)“兩業(yè)融合”加快培育新質(zhì)生產(chǎn)力若干舉措的通知
2025/6/10

国产Av无码专区亚洲版综合,日本内射FREERAPE视频,精品久久久久久久久中文字幕,亚洲精品专区在线观看

OpenAI不聽指揮、拒絕關(guān)閉、建議殺死人類，你開始慌了嗎？

為你的AI產(chǎn)品定義價(jià)值觀

將價(jià)值觀寫進(jìn)程序

權(quán)衡取舍

與合作伙伴對(duì)齊價(jià)值觀

確保人類的反饋

準(zhǔn)備好迎接意外

推薦項(xiàng)目

羅小蛋文創(chuàng)園

羅小蛋文創(chuàng)園

保盈大廈

優(yōu)寶科技園

熱點(diǎn)新聞

廣州市番禺區(qū)人民政府辦公室關(guān)于印發(fā)番禺區(qū)農(nóng)民集體所有土地征收補(bǔ)償辦法的通知
2025/6/10

關(guān)于印發(fā)廣州市南沙區(qū)促進(jìn)外商投資企業(yè)發(fā)展扶持辦法（2025年修訂）的通知
2025/6/13

廣州開發(fā)區(qū)管委會(huì) 廣州市黃埔區(qū)人民政府關(guān)于印發(fā)廣州開發(fā)區(qū)（黃埔區(qū)）加快推進(jìn)智能建造和工業(yè)化建筑發(fā)展若干措施的通知
2025/6/14

廣東多地暴雨紅色預(yù)警信號(hào)多地停課，產(chǎn)業(yè)園招商要注意哪些細(xì)節(jié)？
2025/6/17

国产Av无码专区亚洲版综合,日本内射FREERAPE视频,精品久久久久久久久中文字幕,亚洲精品专区在线观看

OpenAI不聽指揮、拒絕關(guān)閉、建議殺死人類，你開始慌了嗎？

為你的AI產(chǎn)品定義價(jià)值觀

將價(jià)值觀寫進(jìn)程序

權(quán)衡取舍

與合作伙伴對(duì)齊價(jià)值觀

確保人類的反饋

準(zhǔn)備好迎接意外

推薦項(xiàng)目

羅小蛋文創(chuàng)園

羅小蛋文創(chuàng)園

保盈大廈

優(yōu)寶科技園

熱點(diǎn)新聞

廣州市番禺區(qū)人民政府辦公室關(guān)于印發(fā)番禺區(qū)農(nóng)民集體所有土地征收補(bǔ)償辦法的通知2025/6/10

關(guān)于印發(fā)廣州市南沙區(qū)促進(jìn)外商投資企業(yè)發(fā)展扶持辦法（2025年修訂）的通知2025/6/13

廣州開發(fā)區(qū)管委會(huì) 廣州市黃埔區(qū)人民政府關(guān)于印發(fā)廣州開發(fā)區(qū)（黃埔區(qū)）加快推進(jìn)智能建造和工業(yè)化建筑發(fā)展若干措施的通知2025/6/14

廣東多地暴雨紅色預(yù)警信號(hào)多地停課，產(chǎn)業(yè)園招商要注意哪些細(xì)節(jié)？2025/6/17

OpenAI不聽指揮、拒絕關(guān)閉、建議殺死人類，你開始慌了嗎？

　　為你的AI產(chǎn)品定義價(jià)值觀

　　將價(jià)值觀寫進(jìn)程序

　　權(quán)衡取舍

　　與合作伙伴對(duì)齊價(jià)值觀

　　確保人類的反饋

　　準(zhǔn)備好迎接意外

廣州市番禺區(qū)人民政府辦公室關(guān)于印發(fā)番禺區(qū)農(nóng)民集體所有土地征收補(bǔ)償辦法的通知
2025/6/10

關(guān)于印發(fā)廣州市南沙區(qū)促進(jìn)外商投資企業(yè)發(fā)展扶持辦法（2025年修訂）的通知
2025/6/13

廣州開發(fā)區(qū)管委會(huì) 廣州市黃埔區(qū)人民政府關(guān)于印發(fā)廣州開發(fā)區(qū)（黃埔區(qū)）加快推進(jìn)智能建造和工業(yè)化建筑發(fā)展若干措施的通知
2025/6/14

廣東多地暴雨紅色預(yù)警信號(hào)多地停課，產(chǎn)業(yè)園招商要注意哪些細(xì)節(jié)？
2025/6/17