GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成「剧毒」,会让模型崩溃!_世界观焦点
最差的人类语料,也要胜过AI生成的文本。
(相关资料图)
随着GPT-4、Stable Diffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术。
甚至,有人已经开始尝试用AI生成的数据来训练AI了。难道,这就是传说中的「数据永动机」?
然而,来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。
也就是,随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免。
因此研究人员呼吁,如果想要继续保持大规模数据带来的模型优越性,就必须认真对待人类自己写出来的文本。
论文地址:https://arxiv.org/abs/2305.17493v2
但现在的问题在于——你以为的「人类数据」,可能并不是「人类」写的。
洛桑联邦理工学院(EPFL)的最新研究称,预估33%-46%的人类数据都是由AI生成的。
训练数据,都是「垃圾」
毫无疑问,现在的大语言模型已经进化出了相当强大的能力,比如GPT-4可以在某些场景下生成与人类别无二致的文本。
但这背后的一个重要原因是,它们的训练数据大部分来源于过去几十年人类在互联网上的交流。
如果未来的语言模型仍然依赖于从网络上爬取数据的话,就不可避免地要在训练集中引入自己生成的文本。
对此,研究人员预测,等GPT发展到第n代的时候,模型将会出现严重的崩溃问题。
那么,在这种不可避免会抓取到LLM生成内容的情况下,为模型的训练准备由人类生产的真实数据,就变得尤为重要了。
大名鼎鼎的亚马逊数据众包平台Mechanical Turk(MTurk)从2005年启动时就已经成为许多人的副业选择。
科研人员可以发布各种琐碎的人类智能任务,比如给图像标注、调查等,应有尽有。
而这些任务通常是计算机和算法无法处理的,甚至,MTurk成为一些预算不够的科研人员和公司的「最佳选择」。
就连贝佐斯还将MTurk的众包工人戏称为「人工人工智能」。
除了MTurk,包括Prolific在内的众包平台已经成为研究人员和行业实践者的核心,能够提供创建、标注和总结各种数据的方法,以便进行调查和实验。
然而,来自EPFL的研究发现,在这个人类数据的关键来源上,有近乎一半的数据都是标注员用AI创建的。
论文地址:https://arxiv.org/abs/2306.07899v1
模型崩溃
而最开始提到的「模型崩溃」,就是在给模型投喂了太多来自AI的数据之后,带来的能够影响多代的退化。
也就是,新一代模型的训练数据会被上一代模型的生成数据所污染,从而对现实世界的感知产生错误的理解。
更进一步,这种崩溃还会引发比如基于性别、种族或其他敏感属性的歧视问题,尤其是如果生成AI随着时间的推移学会在其响应中只生成某个种族,而「忘记」其他种族的存在。
而且,除了大语言模型,模型崩溃还会出现在变分自编码器(VAE)、高斯混合模型上。
需要注意的是,模型崩溃的过程与灾难性遗忘(catastrophic forgetting)不同,模型不会忘记以前学过的数据,而是开始把模型的错误想法曲解为现实,并且还会强化自己对错误想法的信念。
举个例子,比如模型在一个包含100张猫图片的数据集上进行训练,其中有10张蓝毛猫,90张黄毛猫。
模型学到的结论是,黄毛猫更普遍,同时会倾向于把蓝毛猫想象的比实际更偏黄,所以在被要求生成新数据时可能会返回一些类似绿毛猫的结果。
而随着时间的推移,蓝毛的原始特征在多个训练epoch中逐渐被侵蚀,直接从蓝色变成了绿色,最终再演变为黄色,这种渐进的扭曲和丢失少数特征的现象就是模型崩溃。
具体来说,模型崩溃可以分为两种情况:
1. 早期模型崩溃(early model collapse),模型开始丢失有关分布尾部的信息;
2. 后期模型崩溃(late model collapse),模型与原始分布的不同模式纠缠在一起,并收敛到一个与原始分布几乎没有相似之处的分布,往往方差也会非常小。
与此同时,研究人员也总结出了造成模型崩溃的两个主要原因:
其中,在更多的时候,我们会得到一种级联效应,即单个不准确的组合会导致整体误差的增加。
1. 统计近似误差(Statistical approximation error)
在重采样的每一步中,信息中非零概率都可能会丢失,导致出现统计近似误差,当样本数量趋于无限会逐渐消失,该误差是导致模型崩溃的主要原因。
2. 函数近似误差(Functional approximation error)
该误差主要源于模型中的函数近似器表达能力不足,或者有时在原始分布支持之外的表达能力太强。
众所周知,神经网络在极限情况下是通用的函数近似器,但实际上这种假设并不总是成立的,特别是神经网络可以在原始分布的支持范围之外引入非零似然。
举个简单例子,如果我们试图用一个高斯分布来拟合两个高斯的混合分布,即使模型具有关于数据分布的完美信息,模型误差也是不可避免的。
需要注意的是,在没有统计误差的情况下,函数近似误差只会发生在第一代,一旦新的分布能被函数近似器描述出来,就会在各代模型中保持完全相同的分布。
可以说,模型强大的近似能力是一把双刃剑:其表达能力可能会抵消统计噪声,从而更好地拟合真实分布,但同样也会使噪声复杂化。
对此,论文共同一作Ilia Shumailov表示:「生成数据中的错误会累积,最终迫使从生成数据中学习的模型进一步错误地理解现实。而且模型崩溃发生得非常快,模型会迅速忘记最初学习的大部分原始数据。」
解决方法
好在,研究人员发现,我们还是有办法来避免模型崩溃的。
第一种方法是保留原始的、完全或名义上由人类生成的数据集的高质量副本,并避免与AI生成的数据混合,然后定期使用这些数据对模型进行重新训练,或者完全从头训练一遍模型。
第二种避免回复质量下降并减少AI模型中的错误或重复的方法是将全新的、干净的、由人类生成的数据集重新引入训练中。
为了防止模型崩溃,开发者需要确保原始数据中的少数派在后续数据集中得到公正的表征。
数据需要仔细备份,并覆盖所有可能的边界情况;在评估模型的性能时,需要考虑到模型将要处理的数据,甚至是最不可信的数据。
随后,当重新训练模型时,还需要确保同时包括旧数据和新数据,虽然会增加训练的成本,但至少在某种程度上有助于缓解模型崩溃。
不过,这些方法必须要内容制作者或AI公司采取某种大规模的标记机制,来区分AI生成的内容和人类生成的内容。
目前,有一些开箱即用的解决方案,比如GPTZero,OpenAI Detector,或Writer在简单的文本上工作得很好。
然而,在一些特殊的文本中,这些方法并不能有效执行。比如,在EPFL研究中有ChatGPT合成的10个总结,而GPTZero只检测到6个是合成的。
对此,研究人员通过微调自己的模型来检测AI的使用,发现ChatGPT在编写本文时是最常用的LLM。
对于构建的检测AI数据的方法,研究人员利用原始研究中的答案和用ChatGPT合成的数据,训练了一个定制的「合成-真实分类器」。
然后用这个分类器来估计重新进行的任务中合成答案的普遍性。
具体来讲,研究人员首先使用真正由人类撰写的MTurk回应,和合成LLM生成的回应,来训练特定任务的「合成-真实分类器」。
其次,将这个分类器用于MTurk的真实回应(其中众包人可能使用,也可能没有依赖LLM),以估计LLM使用的普遍性。
最后,研究者确认了结果的有效性,在事后比较分析击键数据与MTurk的回应。
实验结果显示,这个模型在正确识别人工智能文本方面高达99%的准确率。
此外,研究人员用击键数据验证了结果,发现:
- 完全在MTurk文本框中写的总结(不太可能是合成的)都被归类为真实的;
- 在粘贴的总结中,提取式总结和LLM的使用有明显区别。
具体来讲,人工智能生成的文本通常与原始总结几乎没有相似之处。这表明AI模型正在生成新文本,而不是复制和粘贴原始内容的一部分。
「人类数据」很重要
现在,人们普遍担心LLM将塑造人类的「信息生态系统」,也就是说,在线可获得的大部分信息都是由LLM生成的。
使用综合生成数据训练的LLM的性能明显降低,就像Ilia Shumailov所称会让模型患上「痴呆症」。
而这个问题将会变得更加严重,因为随着LLM的普及,众包工作者们已经广泛使用ChatGPT等各种LLM。
但对于人类内容创作者来说,这是一个好消息,提高工作效率的同时,还赚到了钱。
但是,若想挽救LLM不陷于崩溃的边缘,还是需要真实的「人类数据」。
1. 人类数据在科学中仍然是至关重要的
2. 在合成数据上训练模型可能会带来偏见和意识形态永久化
3. 随着模型变得流行和更好/多模态,采用率只会增加
总的来说,由人类生成的原始数据可以更好地表示世界,虽然也可能包含某些劣质、概率较低的数据;而生成式模型往往只会过度拟合流行数据,并对概率更低的数据产生误解。
那么,在充斥着生成式AI工具和相关内容的未来,人类制作的内容或许会比今天更有价值,尤其是作为AI原始训练数据的来源。
参考资料:
https://arxiv.org/abs/2306.07899v1
https://arxiv.org/abs/2305.17493v2
本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。
标签:
抢先读
- 世界热议:预计年内上市 奇瑞TJ-1官方定名探索06
- 全球微速讯:平安人寿重庆分公司:关于理性消费、合理借贷的提示
- 五部门:截至4月末涉农贷款余额53.16万亿元 同比增长16.4%
- 盛会将至!第十三届烟台国际葡萄酒博览会6月16日开幕|热点评
- 今日看点:“微手术”避免“通天口” 青滨附院实现一次手术治疗两种疾病
- 曝乔丹正式出售黄蜂:结束13年老板生涯 球队市值暴涨9倍 全球快播报
- 商汤牵手深圳前海管理局、巴士集团 探索自动驾驶巴士商业化运营模式 即时看
- 环球看点!礼赞二十大 致敬功勋精神
- 世界看热讯:网商贷借款还不上怎么办?还不上后果是什么?
- 世界快资讯丨荣威D7官图发布,将于今年年内上市
- 东方意象(中国)时尚盛典在深圳罗湖举办
- 中金公司现10.58亿元大宗交易 买方均为机构专用席位
- 当前动态:男生帅气拍照姿势(男生自拍姿势)
- 天天观速讯丨5月29省份开工率超60% 挖掘机高开工持续,基建热度不减
- 南航深圳——悉尼航线复航
- HDD硬盘被垄断 倪光南院士:SSD取代的时机到了-天天即时
- 黑兔年禁忌 黑兔年是什么意思_环球热讯
- 宝鸡园景装修公司“失联”,已付款业主担心钱“打水漂”
- 环球热讯:一代沙雕泰坦泥壳号攻略详解
- 一图读懂 | 美股期权隐含波动率排行榜 (6.16) 今日热搜
- 2023返郑小学毕业生升初中现场报名指南 环球精选
- 晋江市气象台发布雷电黄色预警信号【2023-06-16】|世界独家
- 广西2023年前5月RCEP国家进资0.6亿美元 同比增长70.58% 全球今日讯
- 环球即时看!普陀暑托班每个班招多少人?(招生规模)
- 爆笑大军师谁在说谎记住所有线索攻略流程
- 关于2008年奥运会的知识资料_关于2008年奥运会的知识 当前滚动
- 观点:武磊最佳或搭档离队,原因曝光,申花有望逆袭夺冠?
- 环球快看:为茶园装上“智慧大脑”,云南电信数字赋能农业信息化再上新台阶
- 世界观点:父亲节送礼推荐iPhone 14 Pro系列 京东618领券至高减1720元
- 武磊梅开二度 中国队4比0胜缅甸
- 遂宁私人西装定制,西服定制的优势有哪些 当前快看
- 今日人民币兑加元最新汇率(2023年6月16日) 全球看点
- 银河L6三季度上市!纯电续航105km 尺寸超比亚迪秦
- 我的微信零钱被冻结了,但不是我本人欠钱,是我父亲用我母亲的身份借的
- 举报云赛智联涉嫌低价转让国有资产遭否认后 格兰仕子公司再发声:还向国资、纪检部门举报了-世界消息
- 提高记忆力的10种自然方法
- 全球观天下!实况王者集结锦标赛怎么参加,实况王者集结手游问答
- 云南镇雄一村庄20天“地震”35次原因未明,县政府组成专班介入 观天下
- 激发国内市场活力 二季度消费市场有望保持平稳增长态势
- 厦门盛辉物流公司网点电话(天天物流公司电话)
- 环球看点!高考女生漆嘉怡火了,因长相神似张纯如,原来她这么优秀
- 今日视点:海信商用显示出席上合组织国家级论坛,共话数字化下显示产业变革趋势
- 青岛市北城发集团7.5亿元中票将兑付 利率3.67% 全球今头条
- 《无敌浩克》版权回归 7.16登陆迪士尼流媒体平台 当前聚焦
- 世界观焦点:上林油菜花田游玩攻略(上林县油菜花景点)
- 天天时讯:包含9个项目表,4张项目地图及5份年度报告!亚化咨询半导体数据全家桶/年报开启订阅
- 2023小红书的7种变现方式
- 全球视点!中国建筑(601668.SH):1-5月新签合同总额16163亿元 同比增长14.8%
- 热点在线丨北京市开展“两类关键人员”消防安全大培训,约1.2万人参会
- 人社部百日千万专项招聘行动推出28.2万个岗位 全球快播报
- 简洁版网易云音乐?这款无广告的音乐神器,免费获取全网音乐资源-全球快报
- 孙颖莎陈梦社区交流 早田希娜伊藤美诚同区角逐冠军 全球速看料
- 《第八个嫌疑人》上影节获赞 大鹏贡献颠覆性表演 今日热讯
- 知名经济学家:美联储“鹰式暂停”只是一种策略|天天快播报
- 内外交困,光伏“大逃杀”
- 武磊闪转腾挪破门!国足3-0领先缅甸 聚焦
- 全球热头条丨今日超20家上市公司披露股东减持计划 多家系控股股东减持
- 全球动态:2022洛阳老城区电动自行车上牌指南(洛阳老城区电动车上牌点)
- 上汽大众、上通五菱回暖缓慢,谁来缓解上汽集团的产销焦虑? 全球时讯
- 全球观热点:网易老将陈伟雄加入拳头游戏,负责《英雄联盟》《无畏契约》等国服开发
- 华东医药(000963.SZ):公司利拉鲁肽和司美格鲁肽原料药均为自主生产
- 天天热点!等离子电视寿命很短,屏幕很容易老化,各种问题,还会烧屏、留下阴影之类的
- 以小鹅通直播为例,探讨SaaS对复杂B2C功能的产品设计原则-简讯
- 头部绿通服务商要上市:合作200多家保险机构,健康之路凭什么实现高增长?|天天日报
- 热推荐:喜报!定南新增1个“江西名牌产品”
- 《阿吉尔》定档2024年2月2日 亨利·卡维尔成间谍
- vivo全系列型号大全:从旗舰到入门级,一网打尽!|全球通讯
- 新动态:风调雨顺中的调字是什么意思
- 中金:维持阅文集团跑赢行业评级 目标价52港元
- 微头条丨西部利得基金QDII资格获批
- 正月不能剪头发吗(正月不能剪头发吗是迷信吗)
- 成都大运会体育比赛门票今天正式开售
- 360免费wifi怎么用 是不是还要买那个360随身wifi 当前观察
- 菲律宾整治电商违规乱象,平台和卖家共同担责
- 环球关注:五月天陷「退票门」:「异常回收」扰乱大盘,演唱会市场正在革新?
- 如果偷东西不超五百元 但被要求赔偿2900
- 天天时讯:百济神州被起诉专利侵权,回应将坚决辩护;涉诉产品年卖38亿近七成销往美国
- 元宵节有什么风俗传统,元宵节美食
- 速讯:承认表现不够稳定,国足主帅扬科维奇表示将马上纠错
- 精彩看点:福田汽车:法院已裁定认可宝沃汽车公司破产财产分配方案
- 最资讯丨因工厂停产改造 小鹏二月销量6225辆
- “紫东太初”全模态大模型发布 AI听《月光曲》就能聊贝多芬-视点
- 天天快看:2023年5月全国受理网络违法和不良信息举报1659.6万件
- GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成「剧毒」,会让模型崩溃!_世界观焦点
- 【世界速看料】大反转!丰田官宣新技术,纯电续航1000公里,全固态电池也安排上了
- 朝阳区人大常委会调研人大代表“家、站、室”标准化建设及工作运行情况
- 售价28.99万元,领克09首款五座车型正式上市
- 关注!城阳南流路东地块项目即将开始设计|天天快报
- “县”在出发——行走百县话振兴 | 砂石地结“致富果” 紫色梦绽贺兰山_今日播报
- 世界快消息!金融街完成发行10亿元公司债 利率3.14%
- 精彩看点:形容热的词语 越多越好
- 今日热闻!基蛋生物: 公司积极推进各款仪器的装机进度,具体装机情况请关注公司披露的定期报告
- 空调外机怎么样维修 空调外机怎么样维修好
- “缩水版”土拍成交1幅宅地 溧水安置房地块底价拍出_全球看点
- 环球今日讯!绍兴这套房,要拆迁!没人继承……
- 报告显示:年轻人对绿色消费的意识觉醒程度明显提高 全球新资讯
- 环球快消息!硬核科技论|别被洗脑 双电机有时候并非你所想
- 第六届2023STM32峰会在深圳重磅回归
- 环球速递!世界黄金协会:全球黄金ETF连续第三个月增加持仓 美债危机余波仍可能利好黄金
- 全球通讯!《上古卷轴5》矮人浑天仪激活方法