Katzenfrau.de Kurzgeschichten und Märchen

Homepages werden nicht für die Ewigkeit gebaut. Oder etwa doch? Sie wussten es vielleicht noch nicht, aber Ihre Internetseite hat schon heute bleibenden Wert. Ob Sie das möchten oder nicht.

Als Betreiber einer Homepage wissen Sie um den Wert von aktuellen Inhalten und vermutlich auch einiges über die Schwierigkeiten, Ihre Texte und Grafiken vor Verletzungen des Urheberrechts zu bewahren. Sie schützen Ihr Werk nach Möglichkeit und aktualisieren Ihre Homepage regelmäßig. Aber ist Ihnen auch klar, dass auch andere um die Bereitstellung Ihrer Daten kümmern?

Hilfreiche Archivare oder Daten-Diebe?

Google.com zum Beispiel verwahrt jede Homepage, die vom System indexiert wurde, als «Arbeitskopie» online. Wer mit dieser populären Suchmaschine die Tiefen des WWW durchsucht, hat sich schon oft über die Cache-Funktion gefreut, die auch dann noch Archiv-Versionen von Homepages bereit hält, wenn diese selbst längst aus dem Web verschwunden sind.

Der Google-Cache ist aber nicht nur praktisch, sondern vor allem der Alptraum all jener Webmaster, die älteren «Content» bewusst und gezielt von ihrer Internetseite entfernt hatten. Wer steht schon gerne mit seinen Anfangswerken oder anderen Entwürfen online? Mit längst weiterverkauftem Wissen oder einem veralteten Design?

Um zu verhindern, dass Ihre Homepage von Suchmaschinen aufgesaugt und im Cache verwahrt wird, fügen Sie in die Meta-Informationen der einzelnen HTML-Seiten folgenden HTML-Befehl ein:

Soll sich der Ausschluss «nur» auf Google beschränken, lautet der entsprechende Tag:

 

http://www.archive.org findet sich die Timeback Machine, ein gigantisches Archiv von Internetseiten aus der Vergangenheit.

Hier wurden die gesammelten Internetseiten sogar in vielen unterschiedlichen Versionen und inklusive aller Bilder und Scripte eingesammelt und können jederzeit in ihren verschiedenen Entwicklungsstufen von allen Surfern eingesehen werden. Private ebenso wie geschäftliche Homepages wurden hier von der leistungsstarken Suchmaschine Alexa.com aufgesaugt, die auch ohne Anmeldung der URL die meisten Webseiten der letzten 10 Jahre gefunden und archiviert hat.

Um Alexa.com und ihre ungefragten Dienste loszuwerden und die Aufzeichnungen der Vergangenheit löschen zu lassen, müssen Sie eine robots.txt in das Hauptverzeichnis Ihrer Homepage ablegen und sich dann neu eintragen lassen.

Die «robots.txt» ist eine einfache Textdatei, in der Befehle zur «Verhaltenskontrolle» von indexierenden Suchmaschinen stehen. Leider kann niemand garantieren, dass alle Suchmaschinen sich daran orientieren, aber die meisten tun es.

Das steht in der robots.txt Datei, die den Alexa-Archivar gezielt ausschaltet:

User-agent: ia_archiver
Disallow: /

Wieder dauert es dann nach der Neuanmeldung bei Alexa.com einige Wochen, bis die Abfrage bearbeitet wird. Wem das nicht schnell genug geht oder wer keinen Zugriff auf das übergeordnete Verzeichnis seiner Homepage hat (zum Beispiel bei AOL- oder T-Online.de Webspace oder bei kostenlosem Speicherplatz), dem bleibt nichts anderes übrig, als sich an die Betreiber direkt zu wenden und das Beste zu hoffen.


Wenn Sie damit beschäftigt sind, Ihre Daten aus diesem historischen Archiv zu holen, dann denken Sie immer auch daran, dass Domain-Namen der Vergangenheit ebenfalls archiviert sein können. Checken Sie sämtliche Internet-Adressen, die Sie jemals hatten! Sie werden staunen, was alles in der «Wayback Machine» steht.

Noch ein Tipp:

Möchten Sie jetzt auch noch verhindern, dass die Grafiken und Fotos Ihrer Internetpräsenz über die praktische Bildersuche von Google images.google.com ganz automatisch jedem Hobby-Bastler des Web-Universums zur Bastelei zur Verfügung gestellt werden, so ergänzen Sie die robots.txt Datei noch um den Befehl:

User-Agent: Googlebot-Image
Disallow: /

Wenn Sie obendrein das lästige kleine Menü über jedem Bild abschalten möchten, mit dem der Internet Explorer jedem Surfer anbietet, die Bilder auf Ihrer Homepage ohne Umweg abzuspeichern, dann fehlt in Ihren Seiten noch dieser Meta-Tag:

 

Mit diesen Meta-Befehlen und der Arbeitsanleitung für die Robots der Suchmaschinen schützen Sie sich zwar nicht gegen Verletzungen des Urheberrechts durch Einzelpersonen, doch immerhin behalten Sie Inhalte und Ihren Datenbestand dort, wo sie hingehören: In der Gegenwart und unter Kontrolle.

Die Meta-Befehle:

Die robots.txt im Hauptverzeichnis der Domain:

robots.txt

*

Worterklärungen:

Cache: Zwischenpuffer, Zwischenspeicher, im Fall von «Google.com» temporärer Archiv-Speicher, wenn Internetseiten vorübergehend oder gänzlich unerreichbar sind
Content: redaktioneller Inhalt einer Homepage, Texte und Grafiken eines Angebots
Meta-Tags: Informationen, die in den «Kopfteil» einer Internetseite eingesetzt werden, für das Auge des Betrachters unsichtbar sind und von den Suchmaschinen zur Katalogisierung eingesetzt werden
Tag: HTML-Befehl (sprich: «Täck»)
URL: «uniform ressource locator», einzigartige Zuordnungsadresse – Internetadresse, beginnt meist mit www.


Eure Fragen:

Wieso nach der Änderung der Metatags Neuanmeldung vornehmen? Auch, wenn man sich noch nie angemeldet hatte?
Die Wahrscheinlichkeit ist groß, dass man bereits von einem Suchmaschinenrobot erfasst wurde, denn diese «crawlen» sich von Webseite zu Webseite durch das ganze Internet und erfassen dabei nach Möglichkeit alle Homepages. Also Eigeninitiative ergreifen und selbst neu anmelden!

Das letzte habe ich nicht so richtig verstanden, das mit der imagetoolbar. Heißt das, dieser Befehl verhindert, dass “speichern unter” im Mausrechtsklick-Menü erscheint?
Nein, es bedeutet, dass das schwebende kleine Menü “Speichern, Drucken, per Mail versenden” ausgeblendet wird, das zu den neueren Versionen des IE gehört.


Frauen und andere Katzen
Frauen und andere Katzen.

Kurzgeschichten, Märchen und erotische Erzählungen.

Taschenbuch mit Geschichten, die zum Teil auf katzenfrau.de veröffentlicht wurden.
(6,60 Euro - 104 S., online bestellen)