Semalt:Darodar Robots.txtをブロックする方法

robots.txtファイルは、Webクローラーまたはボットがサイトをクロールする方法についての指示が含まれている典型的なテキストファイルです。それらのアプリケーションは、多数の最適化されたWebサイトで一般的な検索エンジンボットで明白です。 Robots Exclusion Protocol(REP)の一部として、robots.txtファイルは、Webサイトのコンテンツのインデックスを作成し、それに応じてサーバーがユーザー要求を認証できるようにするための重要な側面を形成します。

SemaltのシニアカスタマーサクセスマネージャーであるJulia Vashnevaは、リンクは検索エンジン最適化(SEO)の一側面であり、ニッチ内の他のドメインからトラフィックを獲得することを含むと説明しています。 「フォロー」リンクからリンクジュースを転送するには、サーバーがサイトと対話する方法のインストラクターとして機能するrobots.txtファイルをウェブサイトのホスティングスペースに含めることが不可欠です。このアーカイブから、特定のユーザーエージェントの動作を許可または禁止することにより、手順が示されます。

robots.txtファイルの基本形式

robots.txtファイルには2つの重要な行が含まれています。

ユーザーエージェント:[ユーザーエージェント名]

許可しない:[URL文字列をクロールしない]

完全なrobots.txtファイルには、これらの2行が含まれている必要があります。ただし、一部には、複数行のユーザーエージェントとディレクティブを含めることができます。これらのコマンドには、許可、禁止、クロール遅延などの側面が含まれている場合があります。通常、各命令セットを区切る改行があります。特に複数行のrobots.txtの場合、許可または禁止の各命令はこの改行で区切られます。

たとえば、robots.txtファイルには次のようなコードが含まれる場合があります。

ユーザーエージェント:darodar

許可しない:/ plugin

禁止:/ API

禁止:/ _comments

この場合、これはDarodar WebクローラーがWebサイトにアクセスするのを制限するブロックrobots.txtファイルです。上記の構文では、コードはプラグイン、API、コメントセクションなどのWebサイトの側面をブロックします。この知識から、ロボットのテキストファイルを効果的に実行することで多くの利点を得ることができます。 Robots.txtファイルは、さまざまな機能を実行できます。たとえば、次の準備をすることができます。

1.すべてのWebクローラーのコンテンツをWebサイトページに許可します。例えば;

ユーザーエージェント: *

許可しない:

この場合、Webサイトへのアクセスを要求されているWebクローラーはすべてのユーザーコンテンツにアクセスできます。

2.特定のフォルダーから特定のWebコンテンツをブロックします。例えば;

ユーザーエージェント:Googlebot

禁止:/ example-subfolder /

ユーザーエージェント名Googlebotを含むこの構文は、Googleに属しています。これは、ボットが文字列www.ourexample.com/example-subfolder/内のWebページにアクセスすることを制限します。

3.特定のWebページから特定のWebクローラーをブロックします。例えば;

ユーザーエージェント:Bingbot

禁止:/example-subfolder/blocked-page.html

ユーザーエージェントのBingボットは、Bing Webクローラーに属しています。このタイプのrobots.txtファイルは、Bing Webクローラーが文字列www.ourexample.com/example-subfolder/blocked-pageを含む特定のページにアクセスすることを制限します。

重要な情報

  • すべてのユーザーがrobts.txtファイルを使用するわけではありません。一部のユーザーはそれを無視することに決めるかもしれません。このようなWebクローラーのほとんどには、トロイの木馬やマルウェアが含まれます。
  • Robots.txtファイルを表示するには、最上位のWebサイトディレクトリにある必要があります。
  • 「robots.txt」の文字は大文字と小文字が区別されます。結果として、いくつかの側面の大文字の使用を含め、それらを変更するべきではありません。
  • 「/robots.txt」はパブリックドメインです。 URLのコンテンツに追加すると、誰でもこの情報を見つけることができます。重要な詳細や非公開にしたいページにはインデックスを付けないでください。