日本大胆欧美人术艺术动态,国产在线不卡,尤物在线精品

在AI的繁榮中，訓(xùn)練數(shù)據(jù)已成為最寶貴的資源之一，而能夠以低成本且看似無限地生成這些數(shù)據(jù)的前景無疑極具吸引力。但是一些人認(rèn)為，合成數(shù)據(jù)可能會導(dǎo)致AI模型因低質(zhì)量信息而“自我中毒”，最終可能導(dǎo)致模型“崩潰”。

AI行業(yè)面臨一個重大問題：用于訓(xùn)練更智能模型的真實世界數(shù)據(jù)正在耗盡。研究表明，合成數(shù)據(jù)可能會通過低質(zhì)量信息“毒害”人工智能。

人工智能領(lǐng)域正處于其最寶貴資源即將耗盡的邊緣，這促使行業(yè)領(lǐng)袖們展開激烈的辯論，討論一種快速發(fā)展的替代方案：合成數(shù)據(jù)，或稱“虛假”數(shù)據(jù)。

多年來，像OpenAI和谷歌(163.95, -1.44, -0.87%)這樣的公司一直從互聯(lián)網(wǎng)上抓取數(shù)據(jù)，用于訓(xùn)練支撐其AI工具和功能的大型語言模型（LLM）。這些LLM處理了由人類在數(shù)個世紀(jì)間創(chuàng)作的大量文本、視頻及其他媒體內(nèi)容無論是研究論文、小說還是YouTube視頻片段。

然而，現(xiàn)在“真實”的人類生成數(shù)據(jù)正逐漸枯竭。研究公司Epoch AI預(yù)測，文本數(shù)據(jù)可能在2028年之前就會耗盡。同時，那些已經(jīng)從互聯(lián)網(wǎng)的各個角落挖掘出可用訓(xùn)練數(shù)據(jù)的公司有時甚至不惜打破政策來獲取數(shù)據(jù)正面臨著越來越多的限制。

對于一些人來說，這并不一定是個問題。OpenAI的首席執(zhí)行官薩姆·阿爾特曼（Sam Altman）曾表示，AI模型最終應(yīng)該能夠生成足夠高質(zhì)量的合成數(shù)據(jù)，以有效地自我訓(xùn)練。其吸引力顯而易見：在AI的繁榮中，訓(xùn)練數(shù)據(jù)已成為最寶貴的資源之一，而能夠以低成本且看似無限地生成這些數(shù)據(jù)的前景無疑極具吸引力。

然而，研究人員對合成數(shù)據(jù)是否真的是靈丹妙藥仍存在爭議。一些人認(rèn)為，這條道路可能會導(dǎo)致AI模型因低質(zhì)量信息而“自我中毒”，最終可能導(dǎo)致模型“崩潰”。

牛津大學(xué)和劍橋大學(xué)的一組研究人員最近發(fā)表的一篇論文指出，將AI生成的數(shù)據(jù)輸入模型，最終會導(dǎo)致其輸出無意義的內(nèi)容。作者發(fā)現(xiàn)，AI生成的數(shù)據(jù)并非完全不可用于訓(xùn)練，但應(yīng)與真實世界的數(shù)據(jù)相平衡使用。

隨著可用的人類生成數(shù)據(jù)日益枯竭，越來越多的公司開始考慮使用合成數(shù)據(jù)。2021年，研究公司Gartner預(yù)測，到2024年，用于開發(fā)AI的數(shù)據(jù)中有60%將是合成生成的。

“這是一場危機，”紐約大學(xué)心理學(xué)和神經(jīng)科學(xué)榮休教授、AI分析師加里·馬庫斯表示。“人們曾經(jīng)幻想著，只要使用越來越多的數(shù)據(jù)，就能無限提升大型語言模型的性能，但現(xiàn)在他們基本上已經(jīng)用盡了所有可以使用的數(shù)據(jù)。”

他補充道：“沒錯，合成數(shù)據(jù)可能會幫助解決一些問題，但更深層次的問題在于，這些系統(tǒng)并不真正進(jìn)行推理，也不會真正進(jìn)行規(guī)劃。你能想象的所有合成數(shù)據(jù)都無法解決這一根本性問題。”

越來越多的公司開始生成合成數(shù)據(jù)

對“虛假”數(shù)據(jù)的需求取決于一個關(guān)鍵概念：真實世界的數(shù)據(jù)正迅速耗盡。

這部分原因在于，科技公司一直在盡可能快地利用公開數(shù)據(jù)來訓(xùn)練人工智能，以超越競爭對手。另一方面，在線數(shù)據(jù)的擁有者也越來越警惕公司免費獲取他們的數(shù)據(jù)。

2020年，OpenAI的研究人員透露，他們利用來自Common Crawl的免費數(shù)據(jù)來訓(xùn)練最終為ChatGPT提供支持的AI模型。Common Crawl是一個網(wǎng)絡(luò)爬蟲，OpenAI表示其中包含了“近一萬億字”的在線資源。

今年7月，數(shù)據(jù)來源倡議組織發(fā)布的研究發(fā)現(xiàn)，各大網(wǎng)站正在采取限制措施，阻止AI公司使用不屬于它們的數(shù)據(jù)。新聞出版物和其他熱門網(wǎng)站也越來越多地禁止AI公司自由地獲取它們的數(shù)據(jù)。

為了解決這一問題，OpenAI和谷歌等公司紛紛支付數(shù)千萬美元，獲取Reddit和新聞媒體的數(shù)據(jù)訪問權(quán)限，這些數(shù)據(jù)源為訓(xùn)練模型提供了新鮮的數(shù)據(jù)。然而，即便如此，這種方法也有其局限性。

“文本網(wǎng)絡(luò)中已經(jīng)沒有大量等待被抓取的區(qū)域了，”艾倫人工智能研究所的研究員內(nèi)森·蘭伯特在今年5月寫道。

這時，合成數(shù)據(jù)應(yīng)運而生。合成數(shù)據(jù)并非來自真實世界，而是由已經(jīng)在真實數(shù)據(jù)上訓(xùn)練過的AI系統(tǒng)生成的。

例如，今年6月，英偉達(dá)發(fā)布了一款A(yù)I模型，能夠生成用于訓(xùn)練和校準(zhǔn)的人工數(shù)據(jù)集。7月，中國科技巨頭騰訊的研究人員推出了一個名為Persona Hub的合成數(shù)據(jù)生成器，功能類似。

一些初創(chuàng)公司，如Gretel和SynthLabs，甚至專門成立，致力于生成并出售大量特定類型的數(shù)據(jù)，滿足有此需求的企業(yè)。

合成數(shù)據(jù)的支持者為其使用提供了合理的理由。與真實世界一樣，人類生成的數(shù)據(jù)往往是混亂的，研究人員在使用之前必須經(jīng)過復(fù)雜且費力的清理和標(biāo)注工作。

合成數(shù)據(jù)可以填補人類數(shù)據(jù)無法覆蓋的空白。例如，7月下旬，Meta推出了Llama 3.1，這是一系列新的AI模型，能夠生成合成數(shù)據(jù)，并依賴這些數(shù)據(jù)進(jìn)行訓(xùn)練中的“微調(diào)”。特別是在一些特定技能上，如用Python、Java和Rust等語言進(jìn)行編程，以及解決數(shù)學(xué)問題，合成數(shù)據(jù)有助于提升模型的性能。

合成訓(xùn)練對較小的AI模型可能特別有效。去年，微軟(406.81, 0.79, 0.19%)表示，他們?yōu)镺penAI的模型提供了一份多樣化的詞匯表，這些詞匯是典型的3至4歲兒童會知道的，然后要求模型使用這些詞匯生成短篇故事。生成的數(shù)據(jù)集被用來創(chuàng)建一組小型但功能強大的語言模型。

此外，合成數(shù)據(jù)還有助于有效地“反調(diào)校”由現(xiàn)實世界數(shù)據(jù)所產(chǎn)生的偏見。在2021年發(fā)表的論文《論隨機鸚鵡的危險》中，前谷歌研究員蒂姆尼特·蓋布魯、瑪格麗特·米切爾及其他人指出，基于來自互聯(lián)網(wǎng)的大型文本數(shù)據(jù)集訓(xùn)練的大型語言模型很可能反映出數(shù)據(jù)中的偏見。

今年4月，谷歌DeepMind的一組研究人員發(fā)表了一篇論文，提倡使用合成數(shù)據(jù)來解決訓(xùn)練中的數(shù)據(jù)稀缺和隱私問題。他們指出，確保這些AI生成數(shù)據(jù)的準(zhǔn)確性和無偏性“仍然是一個關(guān)鍵挑戰(zhàn)”。

“哈布斯堡AI”

盡管AI行業(yè)在合成數(shù)據(jù)中發(fā)現(xiàn)了一些優(yōu)勢，但它也面臨著不可忽視的嚴(yán)重問題，例如擔(dān)心合成數(shù)據(jù)可能會破壞AI模型。

在Meta關(guān)于Llama 3.1的研究論文中，該公司表示，使用其最新模型的4050億參數(shù)版本進(jìn)行自生成數(shù)據(jù)的訓(xùn)練“并沒有幫助”，甚至可能“降低性能”。

上個月發(fā)表在《自然》雜志的一項研究發(fā)現(xiàn)，在模型訓(xùn)練中“濫用”合成數(shù)據(jù)可能導(dǎo)致“不可逆的缺陷”。研究人員將這一現(xiàn)象稱為“模型崩潰”，并表示如果我們希望持續(xù)享受從網(wǎng)絡(luò)抓取的大規(guī)模數(shù)據(jù)中訓(xùn)練所帶來的益處，就必須認(rèn)真對待這個問題。

蒙納士大學(xué)高級研究員賈森·薩多斯基為這個想法創(chuàng)造了一個術(shù)語：“哈布斯堡AI”，靈感來源于奧地利哈布斯堡王朝，一些歷史學(xué)家認(rèn)為這個王朝因近親繁殖而自我毀滅。自從提出這一術(shù)語以來，薩多斯基告訴《商業(yè)內(nèi)幕》，隨著越來越多的研究支持他關(guān)于模型過度依賴AI生成輸出可能導(dǎo)致變異的觀點，他感到這一想法得到了驗證。

薩多斯基表示：“對于構(gòu)建AI系統(tǒng)的研究人員和公司來說，尚未解決的問題是：到底有多少合成數(shù)據(jù)才算過量？” 他還補充說，他們需要找到任何可能的解決方案，以克服AI系統(tǒng)數(shù)據(jù)稀缺的挑戰(zhàn)，但他也指出，其中一些解決方案可能只是短期修復(fù)，最終可能弊大于利。

然而，4月份發(fā)表的研究發(fā)現(xiàn)，如果模型在訓(xùn)練時同時使用“真實”數(shù)據(jù)和合成數(shù)據(jù)，它們不一定會“崩潰”。現(xiàn)在，一些公司正在押注“混合數(shù)據(jù)”的未來，即通過使用部分真實數(shù)據(jù)生成合成數(shù)據(jù)，以防止模型偏離軌道。

幫助公司標(biāo)注和測試數(shù)據(jù)的Scale AI表示，他們正在探索“混合數(shù)據(jù)”的方向，結(jié)合使用合成和非合成數(shù)據(jù)。Scale AI的首席執(zhí)行官亞歷山大·王最近表示：“混合數(shù)據(jù)才是真正的未來。”

尋求其他解決方案

AI可能需要采用新的方法，因為僅僅向模型中塞入更多數(shù)據(jù)的效果可能有限。

今年1月，谷歌DeepMind的一組研究人員或許證明了另一種方法的優(yōu)點。當(dāng)時，該公司宣布推出AlphaGeometry，這是一種能夠解決奧林匹克水平幾何問題的AI系統(tǒng)。

在一篇補充論文中，研究人員指出，AlphaGeometry采用了一種“神經(jīng)符號”（neuro-symbolic）方法，這種方法結(jié)合了其他AI方法的優(yōu)勢，介于依賴大量數(shù)據(jù)的深度學(xué)習(xí)模型與基于規(guī)則的邏輯推理之間。IBM(189.48, -1.97, -1.03%)的研究團(tuán)隊表示，這可能是一條實現(xiàn)通用人工智能（AGI）的途徑。

更值得注意的是，在AlphaGeometry的案例中，它完全是在合成數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的。

神經(jīng)符號AI領(lǐng)域相對較新，它是否能推動AI的發(fā)展仍有待觀察。

鑒于OpenAI、谷歌和微軟等公司在將AI熱潮轉(zhuǎn)化為利潤方面面臨的壓力，可以預(yù)見它們將嘗試一切可能的解決方案來應(yīng)對數(shù)據(jù)危機。

“除非我們完全采用新的方法，否則我們基本上仍將陷入困境，”加里·馬庫斯說道。（BI）

本文作者：Chowdhury et al．，來源：AI新智能，原文標(biāo)題：《人工智能的訓(xùn)練數(shù)據(jù)正在枯竭，合成數(shù)據(jù)引發(fā)巨大爭議》