国产Av无码专区亚洲版综合,日本内射FREERAPE视频,精品久久久久久久久中文字幕,亚洲精品专区在线观看

產(chǎn)商網(wǎng)-產(chǎn)業(yè)地產(chǎn)門戶網(wǎng)站!
當(dāng)前位置:產(chǎn)業(yè)資訊 > 其他 > OpenAI不聽指揮、拒絕關(guān)閉、建議殺死人類,你開始慌了嗎?

OpenAI不聽指揮、拒絕關(guān)閉、建議殺死人類,你開始慌了嗎?

來源: 合佛商業(yè)評(píng)論        2025-05-28 10:10

核心提示:AI程序出現(xiàn)了越來越多意想不到的行為。例如,據(jù)報(bào)道,美國空軍最近在一次實(shí)驗(yàn)中使用的AI模擬工具,建議殺死飛行員,以確保飛行任務(wù)得到恰當(dāng)執(zhí)行。

  美國一家研究機(jī)構(gòu)最近公布了一系列針對(duì)各AI大模型的測(cè)試結(jié)果,其中,OpenAI的o3推理模型在得到“關(guān)閉指令”后,不僅拒絕執(zhí)行指令,還篡改了代碼以免被關(guān)閉。這一事件也迅速引發(fā)了公眾的關(guān)注與恐慌。人們所擔(dān)憂的“AI擁有自主意識(shí)”似乎已經(jīng)近在眼前。實(shí)際上,AI程序已經(jīng)出現(xiàn)了越來越多意想不到的行為,包括對(duì)用戶表現(xiàn)出攻擊性甚至威脅的行為。那么,該如何盡可能確保AI產(chǎn)品的安全性?

  圖片

  2023年3月推出GPT-4的時(shí)候,OpenAI號(hào)稱它比其令人驚艷的前身更加優(yōu)異,稱新版本在準(zhǔn)確性、推理能力和測(cè)試分?jǐn)?shù)方面表現(xiàn)更好——所有這些都是之前常用的AI性能指標(biāo)。然而,最引人注目的是,OpenAI將GPT-4描述為“更加一致”(more aligned)——這或許是AI產(chǎn)品或服務(wù)首次以“與人類價(jià)值觀一致”而營(yíng)銷。

  技術(shù)應(yīng)該服從道德護(hù)欄的觀點(diǎn)并不新鮮。隨著AI價(jià)值與人類價(jià)值的一致性不僅僅是監(jiān)管要求,而成為產(chǎn)品差異化的因素,公司需要調(diào)整AI產(chǎn)品和服務(wù)的開發(fā)流程。本文旨在明確企業(yè)家和高管在將安全和與人類價(jià)值觀一致的AI產(chǎn)品推向市場(chǎng)時(shí)面臨的挑戰(zhàn)。及早采取行動(dòng)應(yīng)對(duì)這些挑戰(zhàn)的公司將獲得重要的競(jìng)爭(zhēng)優(yōu)勢(shì)。

  這些挑戰(zhàn)分為六類,對(duì)應(yīng)于典型創(chuàng)新過程的關(guān)鍵階段。對(duì)于每個(gè)類別,我們提供了高管可以借鑒的框架、實(shí)踐和工具。這些建議來自我們對(duì)AI產(chǎn)品價(jià)值對(duì)齊方法的聯(lián)合和獨(dú)立研究,以及我們幫助企業(yè)在多個(gè)領(lǐng)域開發(fā)和部署AI產(chǎn)品和服務(wù)的經(jīng)驗(yàn),包括社交媒體、醫(yī)療保健、金融和娛樂業(yè)。

  為你的AI產(chǎn)品定義價(jià)值觀

  第一項(xiàng)任務(wù)是確定那些必須將其價(jià)值觀考慮在內(nèi)的人。鑒于AI對(duì)社會(huì)的潛在影響,公司需要考慮到比評(píng)估其他產(chǎn)品功能時(shí)更多樣化的利益相關(guān)者群體。他們可能不僅包括員工和客戶,還包括民間社會(huì)組織、政策制定者、社會(huì)活動(dòng)家、行業(yè)協(xié)會(huì)和其他人。當(dāng)產(chǎn)品所在市場(chǎng)涵蓋不同文化或法規(guī)的地緣因素時(shí),情況可能會(huì)變得更復(fù)雜。必須了解所有這些利益相關(guān)者的偏好,并彌合他們之間的分歧。

  這方面的挑戰(zhàn)可以通過兩種方式來應(yīng)對(duì)。

  嵌入既定原則。按照這種方法,公司直接借鑒已有的道德體系和理念的價(jià)值觀,如實(shí)用主義,或遵照由國際機(jī)構(gòu)開發(fā)的價(jià)值觀,比如OECD發(fā)布的AI原則。例如,由谷歌(現(xiàn)Alphabet)資助的AI創(chuàng)業(yè)公司Anthropic將其AI產(chǎn)品Claude的原則建立在聯(lián)合國《世界人權(quán)宣言》的基礎(chǔ)上。其他公司也有類似行動(dòng);例如,寶馬的原則類似于OECD的原則。

  闡明你自己的價(jià)值觀。一些公司組建了一支專家團(tuán)隊(duì)——技術(shù)專家、倫理學(xué)家、人權(quán)專家等等——來建立自己的價(jià)值觀。這些人可能對(duì)使用某種技術(shù)所固有的風(fēng)險(xiǎn)(和機(jī)遇)有很好的理解。Salesforce公司就采取了這種方法。在其原則聲明的序言中,該公司將這一過程描述為“從公司各個(gè)部門的個(gè)人貢獻(xiàn)者、經(jīng)理和高管那里征求反饋的長(zhǎng)達(dá)一年的旅程,包括工程部、產(chǎn)品開發(fā)部、用戶體驗(yàn)部、數(shù)據(jù)科學(xué)部、法務(wù)部、平等事務(wù)部、政府事務(wù)部和營(yíng)銷部”。

  另一種方法是由DeepMind的科學(xué)家團(tuán)隊(duì)開發(fā)的。DeepMind是一家AI研究實(shí)驗(yàn)公司,2014年被谷歌收購。這種方法包括向客戶、員工等人咨詢,以最小化自我利益偏見的方式激發(fā)出公司的AI原則和價(jià)值觀。它是基于“無知之幕”(veil of ignorance)——由哲學(xué)家約翰·羅爾斯(John Rawls)構(gòu)思的一個(gè)思想實(shí)驗(yàn),人們?cè)诓恢雷约涸谏鐓^(qū)中的相應(yīng)位置的情況下提出社區(qū)規(guī)則——這意味著他們不知道規(guī)則將如何影響他們。使用這種方法產(chǎn)生的價(jià)值相比其他方法而言不會(huì)那么自我利益驅(qū)動(dòng),而是更關(guān)注AI如何幫助最弱勢(shì)的群體,并且更加穩(wěn)健,這樣人們通常更容易接受它們。

  將價(jià)值觀寫進(jìn)程序

  除了建立指導(dǎo)價(jià)值觀,公司還需要考慮明確限制AI產(chǎn)品的行為。隱私設(shè)計(jì)、安全設(shè)計(jì)等實(shí)踐在這方面非常有用。這些實(shí)踐以原則和評(píng)估工具為基礎(chǔ),將目標(biāo)價(jià)值嵌入組織的文化和產(chǎn)品開發(fā)過程中。應(yīng)用這些實(shí)踐的公司員工有動(dòng)力在設(shè)計(jì)新產(chǎn)品的早期,仔細(xì)評(píng)估和減輕潛在風(fēng)險(xiǎn);建立客戶可以用來報(bào)告問題的反饋循環(huán);并不斷評(píng)估和分析這些報(bào)告。

  生成式AI系統(tǒng)需要在程序中寫入正式的道德護(hù)欄,以便它們不會(huì)違反定義的價(jià)值觀或越過紅線(Red lines),例如,同意不當(dāng)請(qǐng)求或生成不可接受的內(nèi)容。包括英偉達(dá)和OpenAI在內(nèi)的公司正在開發(fā)框架來提供這種護(hù)欄。例如,GPT-4被營(yíng)銷為比GPT-3.5更不可能響應(yīng)不允許內(nèi)容的請(qǐng)求,如仇恨言論或惡意軟件代碼。

  紅線也是由不斷演變的法規(guī)所定義的。作為回應(yīng),公司需要更新其AI產(chǎn)品的合規(guī)性,這會(huì)在不同市場(chǎng)之間日益分化。以一家歐洲銀行為例,該銀行希望推出一款生成式AI工具來改善客戶互動(dòng)。直到最近,該銀行只需要遵守歐盟的數(shù)據(jù)保護(hù)法(EU’s General Data Protection Regulation),但很快它也需要遵守歐盟的AI法案(EU’s AI Act)。如果它想在中國或美國部署AI,它將不得不遵守那里的法規(guī)。隨著當(dāng)?shù)匾?guī)則的變化,以及銀行成為跨司法管轄區(qū)監(jiān)管的對(duì)象,它還需要調(diào)整其AI產(chǎn)品策略并管理潛在的不兼容要求。

  價(jià)值觀、紅線、道德護(hù)欄和法規(guī)都應(yīng)該整合并嵌入AI產(chǎn)品的編程之中,以便,例如法規(guī)的變更可以被鍵入并自動(dòng)傳達(dá)給受其影響的AI程序的每個(gè)部分。

  權(quán)衡取舍

  近年來,我們看到公司在努力平衡隱私與安全、信任與安全、提供幫助的同時(shí)尊重他人的自主權(quán),當(dāng)然,還有短期財(cái)務(wù)指標(biāo)的價(jià)值觀。例如,提供老年人輔助或兒童教育產(chǎn)品的公司不僅要考慮安全,還要考慮尊嚴(yán)和代理程度:什么時(shí)候AI產(chǎn)品不應(yīng)該幫助老年用戶,以便增強(qiáng)他們的信心、照顧他們的尊嚴(yán)?什么時(shí)候應(yīng)該幫助兒童確保他們積極的學(xué)習(xí)體驗(yàn)?

  應(yīng)對(duì)這種挑戰(zhàn)的一個(gè)方法是根據(jù)其價(jià)值觀對(duì)市場(chǎng)進(jìn)行細(xì)分。例如,一家公司可能決定專注于一個(gè)更重視隱私等原則而不是算法準(zhǔn)確性的較小市場(chǎng)。這就是搜索引擎公司DuckDuckGo選擇的路徑,它限制定向廣告并優(yōu)先考慮隱私。該公司定位自己是為不想被在線跟蹤的互聯(lián)網(wǎng)用戶提供的替代品。

  圖片

  與合作伙伴對(duì)齊價(jià)值觀

  薩姆·奧特曼作為OpenAI的CEO,在播客《在好公司》(In Good Company)中分享了他們的挑戰(zhàn):公司應(yīng)該給不同文化和價(jià)值體系的人多大的靈活性來定制OpenAI的產(chǎn)品?他指的是一種趨勢(shì),即公司采用預(yù)訓(xùn)練模型,如GPT-4、PaLM、LaMDA和穩(wěn)定擴(kuò)散,并對(duì)其進(jìn)行微調(diào)以構(gòu)建自己的產(chǎn)品。(注:PaLM與LaMDA均為大語言模型)

  正如奧特曼指出的那樣,問題在于基礎(chǔ)模型的所有者對(duì)其產(chǎn)品的處理幾乎沒有控制權(quán)。調(diào)整模型的公司也有類似的問題:他們?nèi)绾未_保使用第三方模型創(chuàng)建的新產(chǎn)品,與期望的價(jià)值觀保持一致——特別是考慮到他們可以微調(diào)的程度的限制?只有原始模型的開發(fā)人員知道在訓(xùn)練它們時(shí)使用了哪些數(shù)據(jù),因此公司需要仔細(xì)選擇他們的AI合作伙伴。他們還必須與其他合作伙伴保持一致,例如訓(xùn)練數(shù)據(jù)的提供者,這些合作伙伴可能持有各種不良偏見,從而影響最終產(chǎn)品。

  為了解決這些問題,AI開發(fā)者可能需要建立評(píng)估外部AI模型和數(shù)據(jù)的程序,并在啟動(dòng)新的伙伴關(guān)系之前挖掘潛在伙伴的價(jià)值觀和基本技術(shù)系統(tǒng)。(這可能類似于企業(yè)在管理可持續(xù)發(fā)展方面潛在伙伴風(fēng)險(xiǎn)的方式,以及衡量和管理范圍三的碳排放做法。)

  這不是一個(gè)一次性的游戲。隨著強(qiáng)大基礎(chǔ)模型之間的競(jìng)爭(zhēng)展開,公司可能會(huì)隨著時(shí)間的推移改變他們用于產(chǎn)品的模型。他們會(huì)發(fā)現(xiàn),AI測(cè)試能力和圍繞價(jià)值觀的有效盡職調(diào)查很可能是公司競(jìng)爭(zhēng)優(yōu)勢(shì)的來源。

  確保人類的反饋

  給AI產(chǎn)品注入價(jià)值觀需要大量數(shù)據(jù)——如前所述,其中大部分將由人類生成或標(biāo)記。在大多數(shù)情況下,它分為兩個(gè)數(shù)據(jù)流:用于訓(xùn)練AI的數(shù)據(jù),和對(duì)用戶行為的持續(xù)反饋的數(shù)據(jù)。為了確保價(jià)值觀的一致性,必須建立新的反饋流程。

  一種常見做法被稱為“從人類反饋中強(qiáng)化學(xué)習(xí)”(RLHF),這是一個(gè)過程,通過輸入人類的反饋,可以最小化不良輸出,如辱罵性語言。人類審查AI系統(tǒng)的輸出,例如對(duì)某人簡(jiǎn)歷的分類、執(zhí)行導(dǎo)航動(dòng)作的決定或生成內(nèi)容,并根據(jù)其與某些價(jià)值觀不對(duì)齊的程度對(duì)其進(jìn)行評(píng)級(jí)。該評(píng)級(jí)用于新的訓(xùn)練數(shù)據(jù)中,以改善AI產(chǎn)品的行為。當(dāng)然,這種方法中的一個(gè)關(guān)鍵決定是,誰應(yīng)該提供反饋以及如何提供。強(qiáng)化學(xué)習(xí)可能發(fā)生在AI生命周期的各個(gè)階段,包括產(chǎn)品推出之前和之后。在早期階段,工程師可以在測(cè)試AI產(chǎn)品的輸出時(shí)提供反饋。

  另一種做法是創(chuàng)建“紅隊(duì)”(red teams),其任務(wù)是逼迫出AI的不良行為。“紅隊(duì)”廣泛用于其他領(lǐng)域,例如網(wǎng)絡(luò)安全。他們充當(dāng)對(duì)手,攻擊系統(tǒng)以探索它是否以及如何可能失敗。盡管這些團(tuán)隊(duì)通常是組織內(nèi)部的,但外部社區(qū)也可以被使用。例如,2023年,數(shù)千名黑客在全球最大的網(wǎng)絡(luò)安全會(huì)議Def Con上聚集,以“攻擊”大語言模型并識(shí)別漏洞。

  產(chǎn)品發(fā)布之后,還需要繼續(xù)教AI按照某些價(jià)值觀行事。AI在這方面就像人類:無論接受了何種正規(guī)教育,我們都會(huì)根據(jù)反饋不斷調(diào)整自己的行為,以符合所在社區(qū)的價(jià)值觀。當(dāng)人們使用AI或受其影響時(shí),他們可能會(huì)觀察到似乎違反其營(yíng)銷價(jià)值觀的行為。允許他們提供反饋可以成為改善AI行為的重要數(shù)據(jù)來源。

  準(zhǔn)備好迎接意外

  AI程序出現(xiàn)了越來越多意想不到的行為。例如,據(jù)報(bào)道,美國空軍最近在一次實(shí)驗(yàn)中使用的AI模擬工具,建議殺死飛行員,以確保飛行任務(wù)得到恰當(dāng)執(zhí)行。另一個(gè)例子是AlphaGo發(fā)明的圍棋程序Go的最新舉動(dòng),被圍棋高手們認(rèn)為是“超人的和出乎意料的”。也許最著名的例子要屬微軟的必應(yīng)(Bing)聊天機(jī)器人,它在推出后不久就開始對(duì)用戶表現(xiàn)出攻擊性甚至威脅行為,直到微軟大幅縮短了可能的對(duì)話長(zhǎng)度后才停止。同樣不可預(yù)見的體驗(yàn)將大幅增加,特別是因?yàn)镃hat GPT和其他大型AI模型現(xiàn)在可以執(zhí)行它們沒有明確編程的任務(wù)——例如翻譯任何訓(xùn)練數(shù)據(jù)中不包括的語言。

  一些不可預(yù)測(cè)的行為可能是由用戶與AI產(chǎn)品的互動(dòng)引起的,無論是有意還是無意。這些產(chǎn)品可能允許個(gè)人和公司進(jìn)行極端的版本更新和超級(jí)個(gè)人化,這些個(gè)人和公司利用來自不同市場(chǎng)的數(shù)據(jù)微調(diào)模型。通過這種方式,可以根據(jù)每個(gè)用戶與AI產(chǎn)品的交互方式創(chuàng)建和定制無數(shù)版本。確保所有這些版本保持一致,并且不出現(xiàn)新的行為,會(huì)很有挑戰(zhàn)性。

  公司必須實(shí)施強(qiáng)大的流程來檢測(cè)和改善AI產(chǎn)品發(fā)布后的有害或意外行為。事件必須被識(shí)別,由用戶或任何其他受影響的人報(bào)告,并由公司進(jìn)行分析。公司可能需要建立AI事件數(shù)據(jù)庫,就像OECD和合作伙伴開發(fā)的AI數(shù)據(jù)庫一樣,以便不斷學(xué)習(xí)和記錄他們的AI產(chǎn)品是如何發(fā)展的。

  在一個(gè)AI價(jià)值觀一致性可能決定競(jìng)爭(zhēng)結(jié)果甚至成為產(chǎn)品質(zhì)量要求的世界里,認(rèn)識(shí)到產(chǎn)品差異化的風(fēng)險(xiǎn)和機(jī)遇,擁抱新的AI產(chǎn)品實(shí)踐和流程以保持領(lǐng)先地位至關(guān)重要??蛻襞c更廣大的社會(huì),都期望公司按照某些價(jià)值觀來運(yùn)營(yíng)。在這個(gè)新世界中,他們絕不能推出行為不端的AI產(chǎn)品和服務(wù)。

  • 9

    贊一個(gè)

  • 15

    踩一下

文章關(guān)鍵詞: AI

本文轉(zhuǎn)載來自:合佛商業(yè)評(píng)論,不代表產(chǎn)商網(wǎng)觀點(diǎn),如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如涉及版權(quán)問題請(qǐng)聯(lián)系產(chǎn)商網(wǎng),電話:4008-338-308;郵箱:dichan001@qq.com

推薦項(xiàng)目

熱點(diǎn)新聞