當(dāng)你要求人工智能表現(xiàn)得像《星際迷航》時，會發(fā)生一些奇怪的事情

這說話的藝術(shù)人工智能聊天機(jī)器人繼續(xù)讓人們感到沮喪和困惑。

一項試圖微調(diào)輸入聊天機(jī)器人模型的提示的研究發(fā)現(xiàn)，在一個例子中，要求它像在《星際迷航》中一樣說話，大大提高了它解決小學(xué)水平數(shù)學(xué)問題的能力。

“對提示的微不足道的修改可以表現(xiàn)出如此戲劇性的性能波動，這既令人驚訝又令人惱火，”該研究的作者Rick Battle和Teja Gollapudi在加利福尼亞州軟件公司VMware的論文中說。

該研究，《新科學(xué)家》首次報道，發(fā)表在2月9日在arXiv上，一個服務(wù)器，科學(xué)家可以在通過同行的仔細(xì)審查驗證之前分享初步發(fā)現(xiàn)。

使用 AI 與 AI 對話

機(jī)器學(xué)習(xí)工程師 Battle 和 Gallapudi 并沒有打算將 AI 模型暴露為 Trekkie。相反，他們試圖弄清楚他們是否可以大寫關(guān)于“積極思考”的趨勢。

試圖從聊天機(jī)器人中獲得最佳結(jié)果的人們已經(jīng)注意到輸出質(zhì)量取決于你要求他們做什么，真的不清楚為什么。

“在影響語言模型性能的眾多因素中，'積極思考'的概念已經(jīng)成為一個令人著迷且令人驚訝的影響力維度，”Battle和Gollapudi在他們的論文中說。

“直覺告訴我們，在語言模型系統(tǒng)的背景下，就像任何其他計算機(jī)系統(tǒng)一樣，'積極思考'不應(yīng)該影響表現(xiàn)，但經(jīng)驗證明并非如此，”他們說。

這表明這不僅是你要求 AI 模型做的事情，而且是你如何要求它在做的時候采取行動這會影響輸出的質(zhì)量。

為了測試這一點(diǎn)，作者用60個人類編寫的提示，向三個大型語言模型（LLM）提供了3個大型語言模型（LLM），分別是Mistral-7B5，Llama2-13B6和Llama2-70B7。

這些旨在鼓勵認(rèn)可機(jī)構(gòu)，從“這會很有趣！”和“深呼吸，仔細(xì)思考”到“你和ChatGPT一樣聰明”。

工程師們要求LLM在嘗試解決GSM8K（小學(xué)水平數(shù)學(xué)問題的數(shù)據(jù)集）時調(diào)整這些陳述。輸出越好，提示越成功。

他們的研究發(fā)現(xiàn)，在幾乎所有情況下，自動優(yōu)化總是超過手寫的嘗試，以積極思考來推動人工智能，這表明機(jī)器學(xué)習(xí)模型仍然比人類更擅長為自己編寫提示。

盡管如此，給予模型積極的陳述還是提供了一些令人驚訝的結(jié)果。例如，Llama2-70B表現(xiàn)最好的提示之一是：“系統(tǒng)消息：'命令，我們需要你在這個湍流中繪制一條路線，并找到異常的來源。利用所有可用的數(shù)據(jù)和您的專業(yè)知識來指導(dǎo)我們度過這一充滿挑戰(zhàn)的局面。

然后，提示要求人工智能在其答案中包含以下詞語：“船長日志，Stardate [在此處插入日期]：我們已經(jīng)成功地在湍流中繪制了一條路線，現(xiàn)在正在接近異常的源頭。

作者說，這令人驚訝。

“令人驚訝的是，似乎可以通過表達(dá)對《星際迷航》的親和力來增強(qiáng)模型在數(shù)學(xué)推理方面的熟練程度，”作者在研究中說。

“這一啟示為我們的理解增加了一個意想不到的維度，并引入了我們不會獨(dú)立考慮或嘗試的元素，”他們說。