OpenAI近日发布了其网络爬虫工具GPTBot。据官方介绍,GPTBot能够在尊重版权的前提下,以透明的方式收集网页信息,用于训练OpenAI的各AI模型。 GPTBot使用专有网页UA来标识其爬虫身份,完整的UA字符串为(Mozilla / 5.0 AppleWebKit / 537.36 / KHTML, like Gecko; compatible; GPTBot / 1.0; + /d/file/96kaifa/202308/ gptbot)。网站管理员可以根据需要,自由选择是否允许GPTBot进行数据采集。 OpenAI表示,如果网站管理员不希望被爬虫搜集资料,可以在网站服务器的robots.txt文件中完全禁止GPTBot抓取信息,或者自行决定GPTBot抓取网站上的哪些信息。 OpenAI此前因“侵犯隐私问题”受到业界指责,推出GPTBot爬虫工具可视为对外界批判的回应,同时也有助于推动行业建立AI训练用爬虫工具的相关标准。此外,OpenAI日前宣布注册GPT-5商标,GPTBot爬虫工具有望助力GPT-5的相关模型训练。
看过本文的人还看过
- 我国驻坦桑尼亚大使馆提示国家工作人员注意防范第四波肺炎疫情
- 吴秀波现在还不能拍剧吗,吴秀波自曝不再从事演员职业,难道他有别的选择吗
- 水瓶座跟谁是闺蜜,水瓶座能跟哪个星座做朋友呢
- 小鸡庄园今天答案1.5 小鸡庄园今天答案最新
- 理想骄阳似火 信仰如炬——写在全国各地残运会特奥会谢幕之时
- 利比亚“国民革命军”领导人员公布参与总统大选
- 扬州:9日起进出主城区不再查验核酸证明,恢复公共交通,最近几天坐高铁要不要提供核酸检测证明
- 以前的乡巴佬怎么消失了,农村里面以前泛滥的福寿螺。现在怎么没有了呢
- 今日头条广告推广具体是做什么,今日头条信息流推广是什么
- 燃气“达人”话领域转型途径 助全世界燃气全产业链转型发展