无码黄色视频免费在线观看,久久国产免费热播,久久精品伊人一区二区三区,99久久一区二区精品,日本中文字幕巨大的乳专区,a级毛片18以上免费现看,久久无码精品亚洲日韩AV

人民網(wǎng)
人民網(wǎng)>>科普中國(guó)

用AI訓(xùn)練AI,可能越練越“傻”

2024年07月26日07:42 | 來(lái)源:新華網(wǎng)
小字號(hào)

對(duì)于人工智能(AI)大語(yǔ)言模型來(lái)說(shuō),通常給予的訓(xùn)練數(shù)據(jù)越多,模型就會(huì)越“聰明”。但英國(guó)《自然》雜志新發(fā)表的一項(xiàng)關(guān)于大模型的研究顯示,如果只用AI生成的數(shù)據(jù)來(lái)訓(xùn)練大模型,會(huì)使模型性能下降、越練越“傻”。

英國(guó)牛津大學(xué)、劍橋大學(xué)等機(jī)構(gòu)研究人員發(fā)現(xiàn),如果在訓(xùn)練大模型時(shí),只用AI生成的內(nèi)容,會(huì)導(dǎo)致大模型出現(xiàn)不可逆的缺陷,逐漸忘記真實(shí)數(shù)據(jù)的分布,這被稱(chēng)為“模型崩潰”。

研究人員首先使用大語(yǔ)言模型創(chuàng)建類(lèi)似維基百科詞條的文本,然后利用這個(gè)內(nèi)容來(lái)訓(xùn)練該模型的新版本,并反復(fù)使用前代模型生成的文本訓(xùn)練更新的版本。隨著AI生成的信息“污染”訓(xùn)練集,模型的輸出逐漸失去意義。在模型的第九次迭代中,它完成了一篇關(guān)于英國(guó)教堂塔樓的文章,其中一段文字卻在講述野兔尾巴的多種顏色。

研究發(fā)現(xiàn),導(dǎo)致“模型崩潰”的重要原因是,由于模型只能從其訓(xùn)練數(shù)據(jù)中采樣,一些在第一代數(shù)據(jù)中本就低頻出現(xiàn)的詞匯,在每次迭代后出現(xiàn)的頻率變得更低,而一些常見(jiàn)詞匯出現(xiàn)的頻率則逐漸增加。

這種變化的結(jié)果就是,模型逐漸無(wú)法正確模擬真實(shí)世界的復(fù)雜性。隨著時(shí)間推移,這種錯(cuò)誤會(huì)在迭代中被層層累積、逐漸放大,最終導(dǎo)致“模型崩潰”。這有點(diǎn)像生物學(xué)中“近親繁殖”會(huì)導(dǎo)致后代缺陷,如果不能保證基因庫(kù)的多樣性,最終會(huì)導(dǎo)致一個(gè)物種的崩潰。

研究人員還發(fā)現(xiàn),由于訓(xùn)練數(shù)據(jù)被“污染”而導(dǎo)致“模型崩潰”的情況不止發(fā)生在大語(yǔ)言模型中,高斯混合模型、圖片生成器等也可能出現(xiàn)類(lèi)似情況。

不過(guò),應(yīng)對(duì)“模型崩潰”并非束手無(wú)策。研究人員發(fā)現(xiàn),如果能在模型微調(diào)過(guò)程中保留10%左右的真實(shí)數(shù)據(jù),崩潰就會(huì)發(fā)生得更緩慢。還可使用水印技術(shù),將AI生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)區(qū)分開(kāi)來(lái),這需要大型科技公司的協(xié)作。此外,在AI生成的文本重新進(jìn)入數(shù)據(jù)池之前,可由人類(lèi)先篩選過(guò)濾。

更多精彩內(nèi)容,請(qǐng)下載科普中國(guó)客戶(hù)端。

返回人民網(wǎng)科普頻道

(責(zé)編:李慧博、吳昊)

分享讓更多人看到

返回頂部
  • <fieldset id="uasim"></fieldset> <strike id="uasim"><delect id="uasim"></delect></strike>
  • <strike id="uasim"></strike>
    <bdo id="uasim"></bdo>
    
    
  • <abbr id="uasim"></abbr>
  • <tfoot id="uasim"></tfoot>
  • <cite id="uasim"></cite>

      无码黄色视频免费在线观看,久久国产免费热播,久久精品伊人一区二区三区,99久久一区二区精品,日本中文字幕巨大的乳专区,a级毛片18以上免费现看,久久无码精品亚洲日韩AV 成??人免费午夜无码不卡 久久精品免费AV热播 国产国产裸模裸模私拍视频 国产呻吟刺激胡言乱语对白 2020久久国内精品视频 无码精品人妻内射 h无码视频在线播放