專家警告：AI 從自身胡言亂語中繼續學習恐導致自我崩潰

Posted by

永遠的真田幸村

–

2024 年 7 月 25 日

最近一篇發表在期刊自然 (Nature) 的論文 AI models collapse when trained on recursively generated data 受到矚目，包括英國牛津大學研究員 Ilia Shumailov 、美國杜克大學的計算機科學家 Emily Wenger 在內的幾位專家警告，人工智慧（AI）從自身胡言亂語中學習的風險可能導致其自我毀滅。

隨著生成式 AI 技術的進步，AI 模型開始從自生成的資料中訓練，這可能導致模型品質下降，甚至出現誤導性結果。研究也提到，當 AI 模型不斷循環使用自身生成的數據時，會逐漸遠離真實資料，最終可能變得無用甚至有害。專家呼籲開發者關注這一問題，並在訓練過程中保持資料來源的多樣性和品質。

最近我們使用生成式 AI 相關應用和服務，自己跑開源模型時也有注意到這個現象，反正 garbage in, garbage out ，這是業界多年的真理沒錯，還是要留意一下才好。

在不好的情況下，AI 模型可能會自我退化，換言之，我們需要關切透過精神時光屋大量時間去自我訓練導致的 AI 模型崩潰風險增加。

模型崩潰是甚麼呢? 在這裡我們看到的是指，模型因不加區別地訓練於合成資料而崩潰的現象，大型語言模型 (LLMs) 等生成式 AI 工具可能忽視訓練資料集的某些部分，導致模型僅訓練於部分資料，如果忽視大量的文本，LLMs 可能會迅速變得不如從前。

根據自然這篇論文， AI 模型崩潰的早期階段，模型會失去變異性，對少數資料的表現下降；在崩潰的後期階段，模型完全崩潰就沒甚麼實用性了。隨著模型不斷訓練於越來越不準確且不相關的文本，這種遞歸循環會導致模型退化。

在 AI 近年火紅前，網路上已有大量內容農場生產的低級內容來欺騙搜索引擎的演算法，如今透過生成式 AI ，恐怕能達到可觀的效果吧?

畢竟啊，當用 AI 產生的內容，在網路上到處可見時，資料的真實性、準確性以及被拿去再訓練時，你的模型就會收到一堆額外的垃圾內容，然後再拿來訓練? 這樣的迭代產出效果就會有問題。

教堂與野兔的崩潰案例

研究人員在論文中提供了一個案例，他們使用一個名為 OPT-125m 的文本生成模型進行測試。最初，該模型在生成有關設計 14 世紀教堂塔樓的文本時表現良好，但到第九代文本生成時，模型主要討論的是各種野兔的顏色，而這些野兔的物種大多並不存在。

AI 生成內容的普及可能對模型本身造成毀滅性影響，崩潰的模型忽視了訓練資料中較不常見的元素，無法反映世界的複雜性和細微差別。

看來我們只能多注意訓練資料的品質，但要怎樣排除掉不合適的資料集合呢? 靠 AI ? 還是我們得設計另外一套演算法來減少 AI 模型輸入錯誤資料的機率，更多地人工介入? 這個是大哉問與尚待解決的課題了。

本文題圖 feature image 與教堂和野兔的圖片，這兩張為生成式 AI 所產生。

歡迎留下您的想法與意見:

AI, AIGC

永遠的真田幸村

Ivan Lin，有豐富的國際產業研究機構、智庫、科技、平面媒體 (書籍、雜誌、報紙)、電子廣電媒體、影音平台、新媒體、國際媒體經驗，Linux使用者。關心時事、經濟、開源軟體與市場情報，喜閱讀、書寫、電影、音樂、旅遊、歷史，信仰科學。是能善用科技的新舊媒體人、熟悉媒體的科技人、懂得市場分析與產業趨勢的半個法律人、能整合行銷概念的多元內容工作者與創意發想者。

新網站新氣象，會想到緞帶教堂的美好 — 一直很喜歡的緞帶教堂 Ribbon Chapel

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

專家警告：AI 從自身胡言亂語中繼續學習恐導致自我崩潰

歡迎追蹤我們

最新文章

#hashTags