當(dāng)你要求人工智能表現(xiàn)得像《星際迷航》時,會發(fā)生一些奇怪的事情

說話的藝術(shù)人工智能聊天機(jī)器人繼續(xù)讓人們感到沮喪和困惑。

一項試圖微調(diào)輸入聊天機(jī)器人模型的提示的研究發(fā)現(xiàn),在一個例子中,要求它像在《星際迷航》中一樣說話,大大提高了它解決小學(xué)水平數(shù)學(xué)問題的能力。

“對提示的微不足道的修改可以表現(xiàn)出如此戲劇性的性能波動,這既令人驚訝又令人惱火,”該研究的作者Rick Battle和Teja Gollapudi在加利福尼亞州軟件公司VMware的論文中說。

該研究,《新科學(xué)家》首次報道,發(fā)表在2月9日在arXiv上,一個服務(wù)器,科學(xué)家可以在通過同行的仔細(xì)審查驗證之前分享初步發(fā)現(xiàn)。

使用 AI 與 AI 對話

機(jī)器學(xué)習(xí)工程師 Battle 和 Gallapudi 并沒有打算將 AI 模型暴露為 Trekkie。相反,他們試圖弄清楚他們是否可以大寫關(guān)于“積極思考”的趨勢。

試圖從聊天機(jī)器人中獲得最佳結(jié)果的人們已經(jīng)注意到輸出質(zhì)量取決于你要求他們做什么,真的不清楚為什么。

“在影響語言模型性能的眾多因素中,'積極思考'的概念已經(jīng)成為一個令人著迷且令人驚訝的影響力維度,”Battle和Gollapudi在他們的論文中說。

“直覺告訴我們,在語言模型系統(tǒng)的背景下,就像任何其他計算機(jī)系統(tǒng)一樣,'積極思考'不應(yīng)該影響表現(xiàn),但經(jīng)驗證明并非如此,”他們說。

這表明這不僅是你要求 AI 模型做的事情,而且是你如何要求它在做的時候采取行動這會影響輸出的質(zhì)量。

為了測試這一點(diǎn),作者用60個人類編寫的提示,向三個大型語言模型(LLM)提供了3個大型語言模型(LLM),分別是Mistral-7B5,Llama2-13B6和Llama2-70B7。

這些旨在鼓勵認(rèn)可機(jī)構(gòu),從“這會很有趣!”和“深呼吸,仔細(xì)思考”到“你和ChatGPT一樣聰明”。

工程師們要求LLM在嘗試解決GSM8K(小學(xué)水平數(shù)學(xué)問題的數(shù)據(jù)集)時調(diào)整這些陳述。輸出越好,提示越成功。

他們的研究發(fā)現(xiàn),在幾乎所有情況下,自動優(yōu)化總是超過手寫的嘗試,以積極思考來推動人工智能,這表明機(jī)器學(xué)習(xí)模型仍然比人類更擅長為自己編寫提示。

盡管如此,給予模型積極的陳述還是提供了一些令人驚訝的結(jié)果。例如,Llama2-70B表現(xiàn)最好的提示之一是:“系統(tǒng)消息:'命令,我們需要你在這個湍流中繪制一條路線,并找到異常的來源。利用所有可用的數(shù)據(jù)和您的專業(yè)知識來指導(dǎo)我們度過這一充滿挑戰(zhàn)的局面。

然后,提示要求人工智能在其答案中包含以下詞語:“船長日志,Stardate [在此處插入日期]:我們已經(jīng)成功地在湍流中繪制了一條路線,現(xiàn)在正在接近異常的源頭。

作者說,這令人驚訝。

“令人驚訝的是,似乎可以通過表達(dá)對《星際迷航》的親和力來增強(qiáng)模型在數(shù)學(xué)推理方面的熟練程度,”作者在研究中說。

“這一啟示為我們的理解增加了一個意想不到的維度,并引入了我們不會獨(dú)立考慮或嘗試的元素,”他們說。

這并不意味著你應(yīng)該要求你的人工智能像星際艦隊指揮官一樣說話

讓我們明確一點(diǎn):這項研究并不建議你應(yīng)該讓人工智能像在星際飛船企業(yè)號上一樣說話,讓它工作。

相反,它表明無數(shù)因素會影響人工智能決定執(zhí)行任務(wù)的能力。

“有一件事是肯定的:該模型不是Trekkie,”英國斯塔福德郡大學(xué)的Catherine Flick告訴新科學(xué)家.

“當(dāng)預(yù)加載提示時,它不會'理解'任何更好或更壞的東西,它只是訪問一組不同的權(quán)重和概率,以確保輸出的可接受性,而不是其他提示,”她說。

例如,該模型可能是在一個數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集中有更多《星際迷航》的實例與正確答案相關(guān)聯(lián),巴特爾告訴《新科學(xué)家》。

盡管如此,它仍然表明這些系統(tǒng)的過程是多么奇怪,以及我們對它們?nèi)绾喂ぷ髦跎佟?/p>

“從一開始就要記住的關(guān)鍵是,這些模型是黑匣子,”弗里克說。

“我們永遠(yuǎn)不會知道他們?yōu)槭裁匆@樣做,因為最終他們是權(quán)重和概率的混合體,最后,結(jié)果被吐出來,”她說。

對于那些學(xué)習(xí)使用聊天機(jī)器人模型來優(yōu)化工作的人來說,這些信息不會丟失。整個研究領(lǐng)域,甚至課程,正在出現(xiàn),以了解如何讓他們發(fā)揮最佳表現(xiàn),盡管目前還不清楚。

“在我看來,沒有人應(yīng)該再次嘗試手寫提示,”巴特爾告訴《新科學(xué)家》。

“讓模特為你做,”他說。

本文最初發(fā)表于商業(yè)內(nèi)幕.

來自 Business Insider 的更多內(nèi)容:

寶寶起名

本站所有相關(guān)知識僅供大家參考、學(xué)習(xí)之用,部分來源于互聯(lián)網(wǎng),其版權(quán)均歸原作者及網(wǎng)站所有,如無意侵犯您的權(quán)利,請與小編聯(lián)系,我們將會在第一時間核實并給予反饋。
相關(guān)期刊推薦
湖北農(nóng)機(jī)化

湖北農(nóng)機(jī)化

農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級期刊

中國戰(zhàn)略新興產(chǎn)業(yè)

中國戰(zhàn)略新興產(chǎn)業(yè)

合作期刊 - 國家級期刊

環(huán)渤海經(jīng)濟(jì)瞭望

環(huán)渤海經(jīng)濟(jì)瞭望

合作期刊 - 省級期刊

數(shù)字化用戶

數(shù)字化用戶

合作期刊 - 省級期刊

四川建材

四川建材

合作期刊 - 省級期刊

農(nóng)村經(jīng)濟(jì)與科技

農(nóng)村經(jīng)濟(jì)與科技

農(nóng)業(yè)綜合 - 省級期刊

新型工業(yè)化

新型工業(yè)化

合作期刊 - 國家級期刊

機(jī)電信息

機(jī)電信息

合作期刊 - 省級期刊

中國科技信息

中國科技信息

合作期刊 - 國家級期刊

中國管理信息化

中國管理信息化

合作期刊 - 省級期刊

新農(nóng)業(yè)

新農(nóng)業(yè)

農(nóng)業(yè)綜合 - 省級期刊