12.07.2024

Уебсайтове, които са блокирали GPTBot CCBot на OpenAI Anthropic Google Extended – проучване на 1000 уебсайта

1 min read

Анализирахме 1000-те най-големи уебсайта в света, за да установим кои сайтове вече блокират GPTBot. Актуализирахме това проучване на 22 септември 2023 г. OpenAI сподели подробности за това как да блокирате нейния GPTBot на 7 август 2023 г. и ето как реагират 1000-те най-големи уебсайта.

OpenAI сподели подробности за това как да блокирате своя GPTBot на 7 август 2023 г. В това проучване се разглежда как реагират най-големите 1000 уебсайта. Едно от опасенията ми, като детектор на ИИ, е рискът LLM да продължи да остъргва съдържание и да прави инструменти за писане на ИИ, които да станат неоткриваеми за проверяващите ИИ? В това проучване се анализира как те реагират.

Обобщение на основните констатации (актуализация от 22 септември 2023 г.):

  1. 25,9% от първите 1000 уебсайта блокират GPTBot
  2. Топ уебсайтовете, които сега блокират GPTBot, са: Pinterest (последно добавен – 11 септември 2023 г.), Amazon, Quora, Indeed
  3. Най-големите медии/издатели на новини сега блокират GPTBot: NYTimes, TheGuardian, CNN.com, USAToday, BusinessInsider, Reuters, WashingtonPost, NPR, CBS, NBC, Bloomberg, CNBC, ESPN
  4. Топ 6 на най-големите уебсайтове, които първи са блокирали GPTBot, са:
    – Amazon.com – 17 август 2023 г.
    – Quora.com – до 22 август 2023 г.
    – NYTimes.com – до 17 август 2023 г.
    – Shutterstock.com – до 21 август 2023 г.
    – Wikihow.com – 12 август 2023 г.
    – CNN.com – до 22 август 2023 г.
  5. Common Crawl Bot е блокиран в 13,9% от случаите. CCBot е съществувал преди GPTBot, но само 5% от уебсайтовете са го блокирали към 1 август 2023 г.
  6. Само 2 уебсайта се опитват да блокират Anthropic AI: Reuters блокира anthorpic-ai и claude-web на 11 септември 2023 г. и Corriere.it

Разширена актуализация на Google – Sep 29, 2023

Google предостави по-голяма възможност да контролирате как ботовете с изкуствен интелект на Google използват съдържанието на вашия уебсайт.

Обявяване на 28 септември, че ще се използва Google Extended – https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers

Първите два уебсайта, които го блокират, са abc.net.au и francebleu.fr

Google-Extended

Актуализирани данни и файлове за резултатите от проучването:

  • Топ 1000 Уебсайтове Проверени септември 20, от 5pm EST
  • Проверени са 933 от 1000 уебсайта robots.txt
  • Проверени са GPTBot, ChatGPT-User, CCBot и Anthropic AI bot
  • 242 блокиращи GPTBot
  • 61 блокиране на ChatGPT-User
  • 130 блокиране на CCBot
  • 2 блокиращи Anthropic AI bot

Текст за блокиране на ВСИЧКИ ботове с изкуствен интелект:

User-agent: GPTBot
Disallow: /
‍User-agent: ChatGPT-User
Disallow: /
‍User-agent: CCBot
Disallow: /
‍User-agent: anthropic-ai
Disallow: /
‍User-agent: Claude-Web
Disallow: /

не е ясно дали „anthropic-ai“ и „claude-web“ ще бъдат ефективни, тъй като няма документация от Anthropic.

5/5 - (1 vote)

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *