Individuelle Webentwicklung

Nicht immer ist eine Standardsoftware ausreichend um individuelle Anforderungen gerecht zu werden, wir schaffen Lösungen

Informationen
Bild: Individuelle Webentwicklung

PDFs in Google-Suchergebnissen

PDFs in Google-Suchergebnissen

Letzte Woche hat einen Videobeitrag von Matt Cutts veröffentlicht, indem er erklärt welche Unterschiede zwischen der Indexierung von PDFs und HTML bestehen. Am 23.09.2011 ging Google detailliert auf Fragen zu dem Thema ein, die häufig im Webmaster-Hilfeforum begegnen.

Das Ziel von Google besteht darin, Informationen weltweit zu organisieren und sie universell zugänglich und nutzbar zu machen. Bei diesem ambitionierten Unterfangen stoß Google häufig auf andere Formate als HTML, etwa PDFs, Tabellen oder Präsentationen. Googles Algorithmen werden durch diese unterschiedlichen Dateitypen jedoch nicht abgebremst. Google arbeitet intensiv an der Extraktion der relevanten Inhalte, um entsprechende Indexe für Suchergebnisse zu erstellen. Wie funktioniert aber die Indexerstellung für diese Dateitypen? Welche Richtlinien gelten für diese Dateien, die weit vom HTML-Standard abweichen? Was passiert, wenn ein Webmaster nicht möchte, dass Google sie indexieren?

 

Seo-Starterguide

 

Google erstellte 2001 erstmals Indexe für PDF-Dateien und hat bis jetzt mehrere hundert Millionen PDF-Dateien indexiert. Google hat die am häufigsten gestellten Fragen zur Indexerstellung aus PDFs gesammelt. Die Antworten findet ihr hier:

F: Kann Google jede Art von PDF-Dateien indexieren?

A: Im Prinzip können wir Textinhalte in jeder beliebigen Sprache aus PDF-Dateien indexieren. Die Datei kann verschiedene Zeichencodierungen enthalten, darf jedoch nicht passwortgeschützt oder verschlüsselt sein. Sollte der Text als Bild eingebettet sein, können wir diese Bilder zur Extraktion des Textes mit OCR-Algorithmen bearbeiten. Die Faustregel lautet: Wenn der Text aus einem PDF-Dokument kopiert und in ein Standard-Textdokument eingefügt werden kann, ist die Indexierung des Texts möglich.

F: Werden Bilder in PDF-Dateien indexiert?

A: Derzeit werden Bilder nicht indexiert. Zur Indexierung eurer Bilder solltet ihr entsprechende HTML-Seiten erstellen. Weitere Informationen darüber, wie ihr die Wahrscheinlichkeit einer Anzeige eurer Bilder in unseren Suchergebnissen erhöhen könnt, findet ihr in unserer Webmaster-Tools-Hilfe.

F: Wie werden Links in PDF-Dokumenten behandelt?

A: In der Regel werden Links in PDF-Dateien ähnlich wie Links in HTML behandelt. Sie können PageRank und andere Indexierungssignale weitergeben und wir folgen ihnen möglicherweise, nachdem die PDF-Datei gecrawlt wurde. Es ist derzeit nicht möglich, „nofollow“ für Links innerhalb von PDF-Dokumenten zu verwenden.

F: Wie kann ich es verhindern, dass meine PDF-Datei in den Suchergebnissen angezeigt wird bzw. wie kann ich sie nachträglich daraus entfernen?

A: Die einfachste Methode, um zu vermeiden, dass eure PDF-Dokumente in den Suchergebnissen angezeigt werden, ist das Hinzufügen eines X-Robots-Tags „noindex“ im HTTP-Header, mit dem die Datei bereitgestellt wird. Sollte die Datei bereits indexiert worden sein, wird sie mit der Zeit entfernt, wenn ihr das X-Robot-Tag mit der Anweisung „noindex“ verwendet. Für eine schnellere Entfernung könnt ihr das Tool zum Entfernen von URLs in den Google Webmaster-Tools verwenden.

F: Können PDF-Dateien in den Suchergebnissen hoch eingestuft werden?

A: Klar! Das Ranking für PDF-Dateien gleicht in der Regel dem Ranking anderer Websites. Zum Beispiel werden in den Suchergebnissen für [mortgage market review], [irs form 2011] oder [paracetamol expert report] zum Zeitpunkt der Veröffentlichung dieses Posts (im englischsprachigen Blog) PDF-Dokumente ganz oben angezeigt. Dies ist aufgrund ihres Inhalts, ihrer Einbettung und Verlinkung von anderen Webseiten möglich.

F: Wird es als duplizierter Inhalt angesehen, wenn ich sowohl eine HTML- als auch PDF-Version meiner Seiten habe?

A: Wir empfehlen, Inhalte wenn möglich immer nur in einer Version bereitzustellen. Sollte das nicht möglich sein, legt am besten eure bevorzugte Version fest, indem ihr die URL dieser Version in eurer XML-Sitemap oder die autorisierte URL im HTML-Code oder HTTP-Header der PDF-Datei angebt. Weitere Tipps zur Autorisierung findet ihr in der Webmaster-Tools-Hilfe.

F: Wie kann ich die in den Suchergebnissen angezeigten Titel meines PDF-Dokuments beeinflussen?

A: Wir verwenden hauptsächlich zwei Elemente zur Bestimmung der angezeigten Titel: die Metadaten des Titels in der Datei und den Ankertext von Links, die auf die PDF-Datei verweisen. Aktualisiert am besten beide Elemente, damit macht ihr es unseren Algorithmen einfacher, den richtigen Titel zu ermitteln.

 

  • Quelle: Gary Illyes, Webmaster Trends Analyst (Veröffentlich von Dominik Zins, Search Quality) Googleblog