Online Toolbox

Robots-Dateien erstellen

 Die Wege sind relativ, aber jeder Weg muss vor dem enthalten.:"/"
 Leer als nichts, Google als XML, Baidu als HTML
Häufig verwendete Suchmaschinen
Ausländische Suchmaschinen
Spezielle Suchmaschinen (Bots)
Andere (unkonventionelle Suchmaschinen, sogar böswillige)
Bitte speichern Sie die folgenden Ergebnisse in einem Notizbuch mit dem Namen robots.txt in das Stammverzeichnis der Website hochladen.

Was ist die Datei robots.txt?

Suchmaschinen durch ein Programm "Spider" (auch Spider genannt), automatisch auf Webseiten im Internet zuzugreifen und Webseiteninformationen zu erhalten. Sie können eine reine Textdatei robots.txt in Ihrer Website erstellen, in der Sie die Teile der Website angeben, die von Spinnen nicht besucht werden sollen, so dass Teile oder alle Inhalte der Website nicht von Suchmaschinen zugegriffen und aufgenommen werden können, oder Sie können mit robots.txt angeben, dass die Suchmaschine nur den angegebenen Inhalt aufnimmt. Die erste Datei, auf die eine Suchmaschine eine Website crawlen wird, ist die robots.txt.

Bitte beschreiben Sie die Datei robots.txt?

  1. Dokumentenstandort

    Die Datei robots.txt sollte im Stammverzeichnis der Website gespeichert werden. Wenn eine Suchmaschine beispielsweise eine Website besucht, prüft sie zunächst, ob die Datei robots.txt auf der Website vorhanden ist, und wenn der Roboter diese Datei findet, wird er den Umfang seiner Zugriffsrechte auf der Grundlage des Inhalts dieser Datei bestimmen. WordPress-Robots - Dateiposition wurde nicht in der WordPress-Website - Root-Programm robots.txt hochgeladen, wenn Suchmaschinen und Benutzer eine Datei besuchen, wird das WordPress-Programm aktiv eine robots.txt für Suchmaschinen und Benutzer generieren; Wenn wir die Robots.txt zum Root-Programm der Website hochladen, werden Benutzer und Suchmaschinen Spinnen besuchen die Datei, die wir hochgeladen haben, WordPress wird diese Datei nicht mehr erzeugen. WordPress generiert diese Datei nur dann, wenn der Server keine Robots findet.

  2. Dokumentenformat

    Die "robots.txt" - Datei enthält einen oder mehrere Datensätze, die durch leere Zeilen getrennt sind (mit CR, CR/NL oder NL als Endzeichen), und jeder Datensatz ist wie folgt aufgeführt: "<field>:<optionalspace><value><optionalspace>" kann in der Datei mit # kommentiert werden, wie es in UNIX üblich ist. Ein Datensatz in dieser Datei beginnt normalerweise mit einer oder mehreren Zeilen User-agent, gefolgt von mehreren Disallow-Zeilen, die wie folgt aufgeführt sind: User-agent: Der Wert dieses Elements beschreibt den Namen des Suchmaschinen-Robots. Wenn in der Datei "robots.txt" mehrere User-Agent - Datensätze vorhanden sind, sind mehrere Roboter dem Protokoll unterworfen. Es muss also mindestens ein User-Agent - Datensatz in der Datei "robots.txt" vorhanden sein. Wenn der Wert dieses Elements auf * (Wildcard) gesetzt ist, gilt das Protokoll für jeden Suchmaschinenbot. In der Datei "robots.txt" darf nur ein Datensatz wie "User-agent:*" enthalten sein. Disallow: Der Wert dieses Elements beschreibt eine URL, auf die nicht zugegriffen werden soll. Diese URL kann ein vollständiger oder teilweiser Pfad sein, und jede URL, die mit Disallow beginnt, wird vom Roboter nicht zugegriffen. Beispielsweise: "Disallow: /help" erlaubt keinen Zugriff auf /help.html und /help/index.html für Suchmaschinen, während "Disallow: /help/" den Zugriff auf /help.html, nicht auf /help/index.html, erlaubt. Jeder Disallow-Eintrag ist leer, was bedeutet, dass alle Bereiche der Website zugegriffen werden dürfen, und mindestens ein Disallow-Eintrag in der Datei "/robots.txt" ist erforderlich. Wenn "/robots.txt" ein Leer-Text ist, ist die Website für alle Suchmaschinenroboter offen.

  3. Allgemeine Abschirmung

    Schutz der Privatsphäre-Seite, Hintergrund-Landing - Seite, Cache-Seite, Bildverzeichnis, CSS-Verzeichnis, Vorlagen-Seite, Schutz der Inhalte von Doppelseiten, während Sie einige schlechte Qualität Seiten, wie zum Beispiel Goldnetz alle Mitglieder Benutzerraum-Seiten, dynamische Links von dz können auch geschirmt werden. Die Einstellung erfolgt über den Befehl Disallow: