robots.txt に (AI 向けの) 新しいトリックを教える

Senior Security Strategist, Fastly

robots.txt をちょっとチューニングしましょう!🤖
robots.txt ファイルを最後に確認したのはいつですか?Apple と Google は、Web 上で入手可能な膨大な情報を基に新しい AI をトレーニングしています。その上で、私たちのコンテンツがこの目的のために使用されるかどうかをコントロールする新しい方法を提供しています。
今の話題になっているのは?
最近、Google と Apple はどちらも、AI プロダクトと機能の改善に重点を置いた新しいユーザーエージェントを導入しました。
Google-Extended : 新しいクローラーではなく、robots.txt ファイルに追加できる特別な指示のことです。Google に対して、Gemini を含む AI モデルのトレーニングにあなたのコンテンツを使用しないように指示します。あなたのサイトの通常の検索ランキングには影響しません。
Applebot-Extended : Google の新しいエージェントと同様に、この Apple のボットでは、Apple の AI トレーニングにあなたのコンテンツが使用されることをオプトアウトできます。Apple の AI は、Apple Intelligence などの機能を支えています。これを禁止しても、Apple の検索結果からあなたのサイトが削除されることはありません。
robots.txt を更新するべき理由
主な理由はコントロールです。robots.txt ファイルに数行追加することで、Web サイトのコンテンツをこれらの大規模言語モデルのトレーニングデータの一部にするかどうかを決定できます。貴重な知的財産と考えられるコンテンツをお持ちの場合、このアップデートは最適な選択肢です。
やり方 : 簡単なコピー & ペースト
方法は、robots.txt ファイルに次の内容を追加するだけです。
Google の AI トレーニングをブロックするには :
User-agent: Google-Extended
Disallow: / Apple の AI トレーニングをブロックするには :
User-agent: Applebot-Extended
Disallow: / これらのブロックを既存の robots.txt ファイルに追加しましょう。
robots.txt ファイルでこれらの変更が必要な理由は、トラフィックのソースとユーザーエージェントがクローラーと同じであるためです。こちらは Google のドキュメントからの引用です。
「Google-Extended には、個別の HTTP リクエストのユーザーエージェント文字列はありません。クロールは既存の Google ユーザーエージェント文字列を使用して行われます。robots.txt のユーザーエージェントトークンはコントロール機能で使用されます。」
ですから、今日は数分ほど時間を取って robots.txt ファイルを確認し、更新してください。これは、あなたのコンテンツが AI のトレーニングにどのように使用されるかについて大きな発言権を与えることができる、小さな変更です。robots.txt がない場合、またはそのファイルをエンドユーザーの近くに移動したい場合は、Fastly を使用して robots.txt ファイルを簡単に作成できます。Google と Apple は親切にもコンテンツへのアクセス方法をコントロールできるようユーザーを支援してくれましたが、他にも数十のクローラー、フェッチャー、その他のボットがコンテンツにアクセスしている可能性があり、それらを解決するのは簡単な話ではありません。検証可能なボット (AI ボットを含む) や簡単に検証できないボットの可視性を高めるには、Fastly Bot Management をご覧ください。
情報を確認したい場合は、こちらが情報源です。