人工智能模型在使用人工智能生成的数据进行训练时会产生“胡言乱语”

时间：2024-07-27|浏览：257

一项新研究发现，使用人工智能生成的材料进行训练的大型语言模型 (LLM) 产生的输出缺乏实质内容和细微差别。这一发现给依赖有限的人工数据集来获取内容的人工智能开发人员带来了新的挑战。

另请阅读：报告称，人工智能深度伪造使美国当局难以保护儿童

英国剑桥大学和牛津大学的人工智能研究人员尝试依靠仅包含人工智能生成内容的数据集来编写提示。结果并不理想，因为它产生了难以理解的回答。

人工智能仍然需要人类的理解

该论文的作者之一、剑桥大学的 Zhakar Shumaylov 表示，需要对提供给 LLM 的数据进行质量控制，而 LLM 是 ChatGPT 和谷歌 Gemini 等生成式 AI 聊天机器人背后的技术。Shumaylov 说：

“我们必须非常小心地对待训练数据。否则，事情总是会出错。”

Shumaylov 详细介绍了这种现象，称之为“模型崩溃”。事实证明，它会影响各种人工智能模型，包括那些专门使用文本提示生成图像的模型。

根据这项研究，在一个模型上使用人工智能生成的数据重复文本提示最终产生了乱码。例如，研究人员发现，一个使用有关英国中世纪教堂塔楼的文本进行测试的系统在仅仅九代之后就产生了一个重复的长耳大野兔列表。

加州大学计算机科学家哈尼·法里德 (Hany Farid) 在评论这些输出时，将数据崩溃比作动物近亲繁殖特有的挑战。

法里德说：“如果一个物种与自己的后代进行近亲繁殖，并且没有使其基因库多样化，那么就会导致物种的灭绝。”

当研究人员将人类生成的数据注入人工智能数据中时，崩溃的速度比纯人工智能生成的内容运行时要慢。

人工智能模型在使用人工智能生成的数据进行训练时会产生胡言乱语

人工智能模型在接受人工智能生成的数据训练时会产生胡言乱语。

研究人员：人工智能可能会加剧对少数群体的偏见

语言模型的工作原理是建立大量文本中的标记（单词或单词部分）之间的关联，这些文本通常来自互联网。它们根据这些学习到的模式，通过输出统计上最有可能的下一个单词来生成文本。

另请阅读：由 ChatGPT 提供支持的泰迪熊 Poe 为孩子们读睡前故事

这项研究于 7 月 24 日发表在《自然》杂志上，表明数据集中多次提到的信息很可能不会重复。研究人员担心这可能会对已经边缘化的少数群体产生负面影响。

为了避免模型在实际使用中崩溃，该研究建议对人工智能生成的内容和人类生成的内容进行水印处理。但研究表示，由于竞争对手人工智能公司之间缺乏协调，这也可能带来问题。

该项研究结果发布之际，人们正日益争论人工智能是否会导致人类完全被排除在内容创作之外，包括小说和报纸文章的写作。

该研究的标题为“人工智能模型在对递归生成的数据进行训练时崩溃”，其结果平息了这场争论——人类还没有被排除在外。

热点：数据人工智能训练

欧易(OKX)

用戶喜愛的交易所

币安(Binance)

已有账号登陆后会弹出下载

« 上一条| 下一条 »

相关资讯

首页

热点

消息

合作

注册

人工智能模型在使用人工智能生成的数据进行训练时会产生“胡言乱语”

欧易(OKX)

币安(Binance)

相关资讯

人工智能模型在使用人工智能生成的数据进行训练时会产生

埃隆·马斯克倡导真实的人工智能训练，引发争论

“AI迎来巨大突破，跨越弱人工智能进入‘强人工智能时

法律人工智能首席执行官敦促解决法庭失误而不指责人工智

3 大人工智能加密货币以及为什么您应该在 2024

人工智能可能很快就会抵制关闭？新研究揭示了人工智能

[喜悦]抗议者聚集在 OpenAI 办公室外，反对军

英伟达引领人工智能股，预计人工智能收益将进一步飙升

SuperAI将成为亚洲顶级人工智能大会，吸引全球人

人工智能超级联盟开启去中心化人工智能新时代

合作伙伴

首页

热点

消息

合作

注册

人工智能模型在使用人工智能生成的数据进行训练时会产生“胡言乱语”

欧易(OKX)

币安(Binance)

相关资讯

人工智能模型在使用人工智能生成的数据进行训练时会产生

埃隆·马斯克倡导真实的人工智能训练，引发争论

“AI迎来巨大突破，跨越弱人工智能进入‘强人工智能时

法律人工智能首席执行官敦促解决法庭失误而不指责人工智

3 大人工智能加密货币以及为什么您应该在 2024

人工智能可能很快就会抵制关闭？ 新研究揭示了人工智能

[喜悦]抗议者聚集在 OpenAI 办公室外，反对军

英伟达引领人工智能股，预计人工智能收益将进一步飙升

SuperAI将成为亚洲顶级人工智能大会，吸引全球人

人工智能超级联盟开启去中心化人工智能新时代

合作伙伴

人工智能可能很快就会抵制关闭？新研究揭示了人工智能