Skip to content

Duplicate Content

Definition

In diesem Glossar geht es um Duplicate Content, der betroffene Websites (auch ganz ohne „Textklau“) ins Nirwana der hinteren Suchergebnisseiten führen kann.

„Duplicate Content“ ist ein Fachterminus aus dem Bereich der Suchmaschinenoptimierung. Der Begriff bezeichnet doppelten Inhalt im Internet: Der gleiche Inhalte ist unter unterschiedlichen URLs erreichbar und wird deshalb auch unter mehr als einer URL von Google indexiert.

Duplicate Content ist nicht einfach mit dem Plagiat eines fremden Textes gleichzusetzen, sondern hat in der Welt der SEO eine praktische Bedeutung, die weit über die Aneignung geistiger Leistungen Anderer hinausgeht.

Denn im Netz entsteht Duplicate Content nicht nur durch bewusstes oder fahrlässiges Kopieren fremder Inhalte, sondern auch durch falsche Konfiguration des eigenen Content Management Systems oder des eigenen Webservers, durch Aufbau übergreifender Strukturen für eine Reihe von Artikeln oder die völlig legale Übernahme von Artikelbeschreibungen.

Anders ausgedrückt: Da Suchmaschinen-Algorithmen nicht die inhaltliche Substanz eines Textes, sondern nur Aneinanderreihungen von Worten bewerten können, wird ein Webinhalt auch dann als Duplicate Content einsortiert, wenn die doppelte oder mehrfache Verwendung (nichtssagender oder schlicht beschreibender) Texte eigentlich sinnvoll wäre. Die Betonung liegt auf „wäre“, weil Webseiten-Betreiber mit Nachteilen zu rechnen haben, wenn Google auf ihren Seiten Duplicate Content erkennt:

Ihr

Ansprechpartner

Khalil Agheli Zadeh Geschäftsführer
Khalil Agheli Zadeh
Geschäftsführer

Warum sollte Duplicate Content vermieden werden?

Wenn der Crawler von Google eine Website zwecks Indexierung für die Suchmaschine scannt und auf dieser Webseite Duplicate Content findet, hat das mindestens negative Auswirkungen auf das Ranking in den Suchergebnissen und kann im schlimmsten Fall sogar zum Ausschluss von der Indizierung führen.

Mit diesem Vorgehen fördert Google die Ziele, die mit Ausgabe und Sortierung der Suchergebnisse erreicht werden sollen:

  • Echte Textplagiate sollen aus urheberrechtlichen Gründen vermieden werden, aber Google möchte (kann, darf) keine Recherche vornehmen, wer der berechtigte Urheber ist
  • Google will dem Suchenden ganz oben bei den Suchergebnissen die beste Antwort auf seine Anfrage liefern
  • Und zwar eine beste Antwort, weil es die User nach Googles Erfahrungen frustriert, sich zwischen zwei Seiten mit teils gedoppelten Inhalten entscheiden zu müssen
  • Durch die Abwertung von Duplicate Content soll außerdem Keyword-(Phrasen-) Spamming unterbunden werden, mit dem das Ranking manipuliert werden soll

Deshalb gehört die Unikatskontrolle von Texten zu den Haupt-Tätigkeiten der Such- und Indizierungsalgorithmen von Suchmaschinen.Weil die Unikatskontrolle von Algorithmen und nicht von Menschen vorgenommen wird und die Suchmaschine lediglich eine Sortierung nach (vermuteten) Nutzerkriterien statt einer inhaltlichen Bewertung vornimmt, führt sie unter Umständen auch dort zur Abwertung, wo die Veröffentlichung doppelter Inhalte eigentlich völlig in Ordnung wäre.

Google ist das bewusst, im Support wird auch angegeben, dass „doppelte Inhalte auf einer Webseite kein Grund seien, Maßnahmen gegen diese Seite zu ergreifen, wenn die Seite nicht den Eindruck erweckt, dass Suchmaschinenergebnisse manipuliert bzw. Nutzer getäuscht werden sollen“. Es folgen Hinweise zur Behandlung von „legalem“ Duplicate Content (die gleich unten geschildert werden); wenn diesen nicht gefolgt werde, tut Google sein Bestes, um nur eine Version der Dopplung in den Suchergebnissen anzuzeigen.

Ob eine Seite den Eindruck erweckt, Suchmaschinenergebnisse zu manipulieren oder Nutzer zu täuschen, wird jedoch von Google entschieden; wer die Entscheidungen über die Folgen von Duplicate Content nicht Google überlassen will, tut deshalb gut daran, seine Seiten auf Duplicate Content zu prüfen.

duplicate_content

Wie entsteht Duplicate Content: Die Arten und Ursachen

Duplicate Content kann durch folgende Handlungen oder Unterlassungen entstehen:

1. Die Übernahme fremder Inhalte

Hier geht es um das aus der Welt der gedruckten Texte bekannte Plagiat, die Aneignung fremder geistiger Inhalte. Wer im Internet etwas veröffentlicht, muss in Bezug auf Texte fremder Urheberschaft genau die gleichen Grenzen beachten, die auch für Bücher, Dissertationen und alle weiteren Druckwerke gelten: Fremder Text muss als Zitat gekennzeichnet werden, Original-Werk und -Urheber müssen in auffindbarer Weise benannt werden.

Im Unterschied gegenüber ausschließlich als Druck verfügbaren Texten (die zwar laufend weniger werden, aber durchaus noch existieren) lassen sich Plagiate im Netz blitzschnell finden. Das gilt auch für Übersetzungen, die unverändert aus dem Google Translator übernommen werden. Diese „echten Plagiate“ führen nicht nur zur Abwertung durch Google, sondern auch zu Ärger mit dem wahren Urheber: Wenn dieser an einer guten Position in den Suchergebnissen interessiert ist, wird schnell eine Abmahnung ins Haus flattern.

2. Eigentlich gewollte Dopplung auf eigenen Seiten

Manchmal scheint es Sinn zu machen, auf eigenen Seiten doppelten Inhalt zu veröffentlichen: Auf einer Seite für Deutschland und einer für die Schweiz, die ansonsten andere Inhalte und Angebote für die Kunden enthalten. Oder wortgleiche Einführungen für Übersichten über diverse Themen, oder Herstellerbeschreibungen für Artikel, die eigentlich nicht jedes Mal neu beschrieben werden müssen.

Google wertet all das als Duplicate Content, und Google findet textgleiche Übersetzungen – die ebenfalls als Duplicate Content gewertet werden, auch wenn sie auf den eigenen, in mehreren Ländern veröffentlichten Seiten zu finden sind. Oft kopierte Textbausteine, die auf verschiedenen Seite auftauchen, werden vielleicht nur als „Near Duplicate Content“ erkannt, der aber ebenfalls zu Problemen führen kann.

3. Falsche Programmierung, ungewollte doppelte Indizierung

Mitunter wird der Inhalt von Websites versehentlich unter weiteren Domains/Subdomains angezeigt. Das bekannteste Beispiel ist hier wohl die URL mit und ohne „www“.

Manchmal wird gleiche Text in verschiedenen Kategorien eingestellt, z. B. im Dauer-Inhalt und im News-Bereich, das Content Management System weist dem Text aber keine eindeutige URL zu. Die gleichen Schwierigkeiten hat das CMS, wenn unterschiedliche Attribut-Filter die gleichen Produktlisten ausgeben.

4. Weitere technische Ursachen für Duplicate Content

Durch die fehlerhafte Konfiguration von Servern können noch auf weitere Arten Duplicate Content entstehen: Mehrere Subdomains führen zum gleichen Inhalt, bei Verweisen auf Verzeichnisse fehlen Trailing Slashes, unsauber ausgezeichnete Links führen zur falschen Ziel-URL, die dadurch von Google als Duplicate Content begriffen wird.

Duplicate Content aufspüren

Da es so viele Möglichkeiten gibt Duplicate Content zu „produzieren“, ist dieser nicht immer ganz einfach zu finden. Hierbei hilft ein SEO Duplicate Content Checker Tool, das die URLs sucht und auflistet, die identische oder für Google zu ähnliche Inhalte enthalten. Solch ein Duplicate Content Check ist kostenlos möglich und dringend der „händischen“ Suche vorzuziehen, weil diese z. B. viel Erfahrung damit voraussetzt, was in Googles Augen als Duplicate Content anzusehen ist. Nicht selten rutscht z. B. interner Duplicate Content bei der Prüfung durch Menschen durch, weil niemand außer Google etwas gegen solche doppelten Inhalte hat …
Duplicate Content sollte jedoch möglichst schnell aufgespürt werden, weil auch die Indizierung durch die Suchmaschinen-Crawler immer schneller erfolgt und dann Rankingverluste, Abstrafungen oder sogar Ausschlüsse aus dem Index drohen.

Duplicate Content vermeiden

Wenn der Duplicate Content identifiziert ist, muss er so eingestellt werden, dass er ohne Abwertung akzeptiert wird. Dazu gibt es je nach Art und Ursache verschiedene Möglichkeiten:

1. Unique Content statt Duplicate Content

Im Gegensatz zum wissenschaftlichen Plagiat, das eine gewisse geistige Höhe des Textinhaltes voraussetzt, führt bei Google jeder doppelte Textinhalt zu einem schlechteren Ranking. Wenn fremde Texte in einem anderen Zusammenhang eingebunden werden sollen, sollte das also über Zitate mit Urheberangabe oder direkte Verlinkung auf den Text geschehen – letzteres ist auch gleich suchmaschinenfreundlicher Linkaufbau.

Aber auch Duplicate Content in einer Produktbeschreibung (Übernahme der Hersteller-Produkttexte in Online-Shops), die gleiche Einleitung für verschiedene Kategorietexte oder ein immer gleich bleibender Nachsatz können von Google als Duplicate Content abgestraft werden.

Bei den Produktbeschreibungen möchte Google den Hersteller selbst ganz oben listen – wenn Sie über ihm erscheinen möchten, müssen Sie Google Gründe dafür liefern. Das klappt mit besseren Texten als der Hersteller bietet und noch besser mit zusätzlichen Verweisen auf ein (selbst erstelltes) Preisvergleichs- oder Shoppingportal mit weiterem Unique Content zum Produkt.

Bei Kategorietexten usw. haben Sie die Wahl zwischen „noindex,follow“-Tags für Filter-Seiten (keine Indexierung, aber Links werden verfolgt), der Zusammenlegung von Kategorien oder der Erstellung vieler individueller Texte. Um der Entstehung von internem Duplicate Content vorzubeugen, sollte auch von vornherein die Seitenhierarchie genau geplant werden.

2. Geklauten Content abwehren

Wenn durch externen „Contentklau“ Duplicate Content entstanden ist, sollte der zuständige Webmaster zunächst um Kennzeichnung oder Entfernung gebeten werden. Wenn das eigene Geschäft vom Traffic der Website abhängt, sollte das sofort geschehen, bevor die eigene Seite durch den Duplicate Content im Ranking abstürzt. Sollte der fremde Webmaster keine Einsicht zeigen, kann mit einer Abmahnung wegen Urheberrechtsverletzung gedroht werden. Webmaster können die Seiten außerdem über die Google Search Console bei Google zu melden.

3. 301-Redirect

Externer Duplicate Content, der dadurch entsteht, dass gleiche Inhalten über zwei oder mehrere Domains zu erreichen sind, können oft schon durch 301-Weiterleitungen entkoppelt werden.

4. Mitteilung an Google

Google kann über die Google Search Console über die doppelten Inhalte und die bevorzugte Version benachrichtigt werden. Aber, wie schon oben angesprochen, Google bemüht sich dann, die gewünschte Version vorzuziehen, eine Garantie gibt es nicht.

5. Canonical Tag, Noindex-Tag und Robots.txt

Wenn interner Duplicate Content nicht durch individuelle Texte mit potenziell positiver Wirkung auf das Ranking ersetzt werden soll, muss er zumindest unschädlich gemacht werden. Das kann durch Einsatz des Canonical Tags geschehen; auf der doppelten Unterseite wird auf die Originalseite verwiesen, diese wird bei der Indizierung nicht berücksichtigt. Die Unterseite mit dem Duplicate Content kann zusätzlich mit dem noindex-Tag versehen werden, damit sie überhaupt nicht indiziert wird; durch entsprechende Hinterlegung der Unterseiten in der robots.txt kann diese auch noch vom Crawling ausgeschlossen werden.

Auch hier kann der Entstehung doppelter Inhalte vorgebeugt werden, indem schon beim Anlegen der Produkten im Online-Shop Vorkehrungen für schnelle Implementierung des Canonical-Tags getroffen werden.

6. hreflang-Tags bei übersetzten Seiten

Doppelte Inhalte durch Übersetzung oder gleichsprachige Dubletten für unterschiedliche Zielmärkte können über den hreflang-Tag durch Auszeichnung mit Sprache und Region der jeweiligen URL unique eingestellt werden.

7. rel=alternate-Tag bei mobilen Subdomains

Mobile Subdomains werden durch Einsatz des rel=alternate-Tags, der von der Desktop-Version auf die mobile Version verweist, von der Gefahr einer Abstrafung wegen Duplicate Content befreit werden.

Bei Fragen oder Interesse nehmen Sie bitte einfach Kontakt zu uns auf.

SEO Deutschland – Die kreative SEO Agentur