OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型并将网页内容保存下来

2024-06-29 06:28:46 [百科] 来源：避面尹邢网

OpenAI 现允许网站阻止其网络爬虫抓取数据，现允许网型避免数据被用于训练 AI 模型

作者：远洋 2023-08-08 09:44:01人工智能网络爬虫是站阻止其抓一种自动化的程序，可以在互联网上搜索和获取信息。网络OpenAI 的爬虫网络爬虫名为 GPTBot，其会以一定的数据数据频率访问各种网站，并将网页内容保存下来，避免被用用于训练 GPT 模型。于训

8 月 8 日消息，现允许网型OpenAI 旗下 GPT 模型的站阻止其抓训练需要大量的网络数据，这可能涉及到数据隐私和版权等问题。网络为了解决这些问题，爬虫OpenAI 最近推出了一个新功能，数据数据让网站可以阻止其网络爬虫（web crawler）从其网站上抓取数据训练 GPT 模型。避免被用

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型并将网页内容保存下来

据IT之家了解，于训网络爬虫是现允许网型一种自动化的程序，可以在互联网上搜索和获取信息。OpenAI 的网络爬虫名为 GPTBot，其会以一定的频率访问各种网站，并将网页内容保存下来，用于训练 GPT 模型。

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型并将网页内容保存下来

OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示，“使用 GPTBot 用户代理（user agent）抓取的网页可能会被用于改进未来的模型，并且会过滤掉那些需要付费访问、已知收集个人身份信息（PII）、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源，“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确，并提高它们的通用能力和安全性。”

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型并将网页内容保存下来

但是，这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。

互联网为大型语言模型（如 OpenAI 的 GPT 模型和谷歌的 Bard）提供了大部分的训练数据，为 AI 训练获取数据已经变得越来越有争议。一些网站，包括 Reddit 和 Twitter，已经采取措施打击 AI 公司免费使用其用户帖子的行为，而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。

责任编辑：姜华来源： IT之家 OpenAIGPT 模型

(责任编辑：娱乐)