Уебсайтове, които са блокирали GPTBot CCBot на OpenAI Anthropic Google Extended – проучване на 1000 уебсайта
1 min readАнализирахме 1000-те най-големи уебсайта в света, за да установим кои сайтове вече блокират GPTBot. Актуализирахме това проучване на 22 септември 2023 г. OpenAI сподели подробности за това как да блокирате нейния GPTBot на 7 август 2023 г. и ето как реагират 1000-те най-големи уебсайта.
OpenAI сподели подробности за това как да блокирате своя GPTBot на 7 август 2023 г. В това проучване се разглежда как реагират най-големите 1000 уебсайта. Едно от опасенията ми, като детектор на ИИ, е рискът LLM да продължи да остъргва съдържание и да прави инструменти за писане на ИИ, които да станат неоткриваеми за проверяващите ИИ? В това проучване се анализира как те реагират.
Обобщение на основните констатации (актуализация от 22 септември 2023 г.):
- 25,9% от първите 1000 уебсайта блокират GPTBot
- Топ уебсайтовете, които сега блокират GPTBot, са: Pinterest (последно добавен – 11 септември 2023 г.), Amazon, Quora, Indeed
- Най-големите медии/издатели на новини сега блокират GPTBot: NYTimes, TheGuardian, CNN.com, USAToday, BusinessInsider, Reuters, WashingtonPost, NPR, CBS, NBC, Bloomberg, CNBC, ESPN
- Топ 6 на най-големите уебсайтове, които първи са блокирали GPTBot, са:
– Amazon.com – 17 август 2023 г.
– Quora.com – до 22 август 2023 г.
– NYTimes.com – до 17 август 2023 г.
– Shutterstock.com – до 21 август 2023 г.
– Wikihow.com – 12 август 2023 г.
– CNN.com – до 22 август 2023 г. - Common Crawl Bot е блокиран в 13,9% от случаите. CCBot е съществувал преди GPTBot, но само 5% от уебсайтовете са го блокирали към 1 август 2023 г.
- Само 2 уебсайта се опитват да блокират Anthropic AI: Reuters блокира anthorpic-ai и claude-web на 11 септември 2023 г. и Corriere.it
Разширена актуализация на Google – Sep 29, 2023
Google предостави по-голяма възможност да контролирате как ботовете с изкуствен интелект на Google използват съдържанието на вашия уебсайт.
Обявяване на 28 септември, че ще се използва Google Extended – https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers
Първите два уебсайта, които го блокират, са abc.net.au и francebleu.fr
Актуализирани данни и файлове за резултатите от проучването:
- Топ 1000 Уебсайтове Проверени септември 20, от 5pm EST
- Проверени са 933 от 1000 уебсайта robots.txt
- Проверени са GPTBot, ChatGPT-User, CCBot и Anthropic AI bot
- 242 блокиращи GPTBot
- 61 блокиране на ChatGPT-User
- 130 блокиране на CCBot
- 2 блокиращи Anthropic AI bot
Текст за блокиране на ВСИЧКИ ботове с изкуствен интелект:
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /
не е ясно дали „anthropic-ai“ и „claude-web“ ще бъдат ефективни, тъй като няма документация от Anthropic.