Hoe verschijn je in de zoekresultaten van ChatGPT zonder dat je content wordt gebruikt voor AI-training?

By phamsang.eteam
| 25 November, 2024

Met de groei van AI-technologie en het gebruik van zoekmachines zoals Google en Bing, vragen veel uitgevers zich af hoe ze kunnen profiteren van nieuwe zoekmogelijkheden zonder dat hun content gebruikt wordt voor AI-training. OpenAI biedt nu een oplossing waardoor uitgevers opgenomen kunnen worden in de nieuwe zoekresultaten van ChatGPT, zonder dat hun content gebruikt wordt om AI-modellen te trainen.

Wat is er veranderd?

Op 31 oktober 2024 kondigde OpenAI aan dat hun AI-zoekmachineprototype, voorheen bekend als SearchGPT, nu is geïntegreerd in hun vlaggenschipproduct ChatGPT. Deze nieuwe zoekmachine binnen ChatGPT biedt gebruikers zoekresultaten die vergelijkbaar zijn met die van Google en Bing. Dit biedt uitgevers een nieuwe mogelijkheid om hun content onder de aandacht te brengen.

Er was echter een probleem: veel uitgevers hadden alle OpenAI-useragents geblokkeerd om te voorkomen dat hun content werd gebruikt voor het trainen van grote taalmodellen (LLM’s). Gelukkig biedt OpenAI nu een oplossing die ervoor zorgt dat uitgevers kunnen worden opgenomen in zoekresultaten, zonder dat hun content hiervoor wordt gebruikt.

De oplossing van OpenAI

Het goede nieuws voor uitgevers is dat ze niets extra’s hoeven te doen om in de zoekresultaten van ChatGPT te verschijnen. OpenAI gebruikt gegevens van Bing en hun eigen crawler, OAI-SearchBot, om websites in de zoekresultaten van ChatGPT te tonen. Ze stellen daarbij expliciet dat hun crawler niet wordt gebruikt om de generatieve AI-modellen van OpenAI te trainen. Dit betekent dat zolang uitgevers geen blokkade in hun robots.txt-bestand opnemen, hun site kan worden opgenomen in de zoekresultaten.

Wil je in de zoekresultaten van ChatGPT verschijnen, maar niet dat je content wordt gebruikt voor modeltraining? Zorg er dan voor dat je OAI-SearchBot en Bingbot niet blokkeert in je robots.txt-bestand. Daarnaast kun je specifieke AI-bots uitsluiten van het crawlen van je site.

Robots.txt-voorbeeld voor uitsluiting van AI-training

Wil je dat jouw content niet wordt gebruikt voor AI-training door OpenAI en andere AI-bedrijven, maar wil je wel zichtbaar zijn in zoekresultaten? Voeg dan de volgende regels toe aan je robots.txt-bestand:

User-agent: Amazonbot
User-agent: Anthropic-ai
User-agent: Applebot-Extended
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: Cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: Magpie-crawler
User-agent: Omgili
User-agent: Omgilibot
User-agent: Peer39_crawler
User-agent: Peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /

Met dit robots.txt-bestand zorg je ervoor dat jouw content niet wordt gecrawld door verschillende AI-bots, terwijl je wel zichtbaar bent in zoekresultaten zoals die van ChatGPT, Bing en Google.

Conclusie

OpenAI biedt uitgevers nu een flexibele manier om zichtbaar te zijn in de zoekresultaten van ChatGPT, zonder dat hun content wordt gebruikt voor het trainen van AI-modellen. Door slim gebruik te maken van je robots.txt-bestand kun je ervoor zorgen dat jouw content alleen wordt gebruikt waar jij dat wilt.

Wil je het meeste halen uit je zichtbaarheid in AI-zoekmachines? Overweeg dan om deze configuratie toe te passen en zo de voordelen van zichtbaarheid zonder AI-training te benutten.

Heb je vragen of heb je hulp nodig bij het instellen van je robots.txt-bestand? Neem gerust contact met ons op, we helpen je graag verder.