Skip to content

Inverse Document Frequency

In diesem Glossarbeitrag geht es um die Inverse Document Frequency. Genauer gesagt geht es darum, dass der Nutzen der Berechnung von Worthäufigkeiten immer noch überschätzt wird. Wenn Sie Content auf Ihrer Website sehen möchten, der für Nutzer und Google „King“ ist und dadurch ein gutes Ranking erreicht, können Rechenaufgaben dabei nur sehr wenig helfen

Definition

Die Inverse Document Frequency heißt auf deutsch Inverse Dokumenthäufigkeit, ist in der Fachwelt der Suchmaschinen-Optimierung aber meist unter dem Kürzel IDF anzutreffen.

Die Ermittlung der Inverse Document Frequency bestimmter Terme eines Informationsangebots ist eine der Methoden, die im Fachgebiet des Information Retrieval eingesetzt werden, um den zielgerichteten Abruf von Informationen aus großen Bibliotheken oder Datenbanken zu erleichtern.

Die IDF wird berechnen als Logarithmus aus dem Quotienten (Gesamtzahl der Dokumente / Anzahl der Dokumente, die einen bestimmten Term X enthalten).

Diese Berechnung soll dazu dienen, Artikel, Bücher und Texte auf Webseiten inhaltlich voneinander abzugrenzen: Sie bestimmt, wie sehr ein bestimmter Term (= ein bestimmtes Wort) in einem Text-Dokument zur Trennfähigkeit bzw. Trennschärfe des Textes in einer Vielzahl von Texten beiträgt.

Einfacher ausgedrückt: Wie sehr kann die Häufigkeit, mit der dieses Wort im Text vorkommt, dabei helfen, diesen Text einem bestimmten Thema zuzuordnen und ihn von anderen Texten zu diesem Thema abzugrenzen?

Wenn in einem Cluster von Dokumenten rund um das Thema „Liebe“ in wenigen Dokumenten oft das Wort „Partnerschaft“ vorkommt, wird es sich wahrscheinlicher um einen Text zu „Liebe in der Partnerschaft“ handeln, als wenn dieses Wort in einem Text über „verschiedene Arten der Liebe“ erwähnt wird.

Ihr

Ansprechpartner

Khalil Agheli Zadeh Geschäftsführer
Khalil Agheli Zadeh
Geschäftsführer

Inverse Document Frequency und Suchmaschinen-Indexierung

Die Ermittlung der Inverse Document Frequency ist eine der Berechnungen, die bei einer automatischen Indexierung eingesetzt werden können. Die Suchmaschinen-Indexierung ist eine automatische Indexierung, die Google inzwischen mit einer ganzen Reihe von Such-Algorithmen durchführt.

Diese Such-Algorithmen können aber auch noch viele weitere Berechnungsmethoden einsetzen: Zunächst lässt sich anhand der einfachen Häufigkeit, mit der ein Wort in einem Text vorkommt, die Suchwortdichte ermitteln (oft auch als Keyworddichte bezeichnet, was aber in diesem Zusammenhang falsch ist, weil Google Keywords nur bei Anzeigentexten wertet).

Dann sollen weitere Berechnungsmethoden auf Einzelwort-Ebene dabei helfen, die Häufigkeit des Wortvorkommens im Zusammenhang mit Texten zu werten, die das gleiche Thema oder ähnliche Themen behandeln. Dazu lassen sich neben der normalisierten Termfrequenz die Inverse Document Frequency und die WDF (Within-document Frequency) ermitteln, danach können all diese Berechnungen zueinander ins Verhältnis gesetzt werden. Dazu lässt sich dann ein Tf-idf-Maß ermitteln, aber auch die WDF*IDF; und es gibt natürlich zu jeder dieser Berechnungsmethoden viele Vorschläge aus der Fachwelt, wie die Berechnung zielführender durchgeführt werden könnte.

Zielführend ist das Stichwort – weil Sie bei der Beschäftigung mit solchen Berechnungsmethoden nie eigentliche Ziel aus den Augen verlieren sollten.

Hat die IDF Einfluss aufs Ranking?

Die Berechnung eines IDFs bzw. überhaupt die Beschäftigung mit Berechnungsmethoden, die auf Ermittlung der Häufigkeit einzelner Worte in einem Text aufbauen, kann sich nach den Gesetzen der Logik für einen Website-Betreiber (Text-Verfasser) nur unter ganz bestimmten Voraussetzungen lohnen:
Wenn Sie vor oder nach dem Verfassen eines Textes für eine Website einen IDF etc. berechnen, müsste das dabei helfen, einen Text ins Netz zu stellen, der von den Nutzern und deshalb auch von Google geschätzt wird und so ein hohes Ranking erreicht.

Dazu müsste man wissen, ob Google den IDF bei der Suchmaschinen-Indexierung einsetzt und wie Google den IDF und die auf ihn aufbauenden, weiteren Berechnungsmethoden bei der Sortierung der Texte für die Ausgabe auf eine Suchmaschinen-Anfrage wertet.

Dazu ist festzustellen: Suchmaschinen nutzen in ihren Indexierungs- und Sortierungs-Algorithmen von Anfang an auch Techniken aus dem Fachgebiet „Information Retrieval“, die zunächst auch eine entscheidende Rolle bei der Erkennung des Text-Themas gespielt haben dürften.
Für das Ranking der Suchmaschinen-Ergebnisse waren solche Berechnungen aber noch nie entscheidend: Google ist zum Marktführer unter den Suchmaschinen geworden, weil die Gründer die Idee hatten, die Ausgabe der Suchergebnisse durch Empfehlungen der Nutzer bestimmen zu lassen (die sich vor allem in Backlinks auf die Seite, aber auch in Anzahl der Klicks ausdrücken).

Die Berechnung von IDFs usw. gibt Hinweise darauf, wie nah ein Text dem Suchwort kommt – sagt aber sehr wenig darüber aus, wie gut ein Text die Suchanfrage des Nutzers beantwortet.
Google gibt im Bereich der Suchmaschinen-Abfrage keine Berechnungen von Worthäufigkeiten in Texten vor.
Diese Berechnungen sind dadurch entstanden, dass Google Texte, in denen bestimmte Worte mit manipulativer Absicht häufig eingesetzt wurden, aus dem Index entfernen möchte (und entfernen muss, um weiter führende Suchmaschine zu bleiben). Die gesamten Google-Qualitätsrichtlinien dienen nur der Abwehr solcher Manipulationen – mit denen Texte im Ranking hochgespült werden sollen, die die Nutzeranfrage eigentlich überhaupt nicht oder in schlechter Qualität beantworten.

Um das zu vermeiden, ermittelt Google zur Indexierung nicht nur das Text-Thema, sondern verwendet seit jeher viel Mühe darauf, auch die Qualität des Textes zu erfassen.
Der Teil der rund 10.000 bisherigen Algorithmus-Änderungen, der nicht der Abwehr von Manipulationen dient, beschäftigt sich mit genau diesem Thema. Bis hin zum Einsatz künstlicher Intelligenz; Google ist längst in der Lage, Texte dem Thema „Auto“ zuzuordnen, in denen das Wort „Auto“ kein einziges Mal vorkommt.
Die Verwendung möglichst vieler Synonyme, die die Häufigkeit bestimmter „Suchbegriffe“ zwangsläufig verringert, ist für Google auch schon längst ein Hinweis auf gute Textqualität (weil diese Synonyme von Autoren verwendet werden, die sich gründlich mit dem Thema auseinandergesetzt haben).

Zur Ermittlung des Rankings (zur Sortierung der Suchergebnisse, die auf eine bestimmte Suchanfrage ausgegeben werden), setzt Google heute mit einem Dutzend Algorithmen auf rund 200 unterschiedliche Faktoren, die in unterschiedlicher Gewichtung Einfluss auf die Sortierung nehmen.
Um der Bedeutung einer IDF-Berechnung auf die Spur zu kommen, müssten all diese Faktoren nach Anteil der Gewichtung durch Google gegeneinander berechnet werden – für jeden einzelnen Text. Diese Gewichtung verrät Google nicht, kann sie auch nicht verraten, weil sie sich mit Text und Thema verändert.

Welchen Sinn hat die Messung der Worthäufigkeit?

Zur Förderung des Rankings heute wohl überhaupt keinen mehr (und es darf bezweifelt werden, dass sie im Suchmaschinenbereich jemals einen Sinn hatte).

Bei nachträglicher Berechnung eines IDF, WDF, etc. geht es um Verbesserung eines Faktors, der zu maximal einem Zweihundertstel ins Ranking eingeht.
Verbesserung wäre nur möglich, wenn das Ziel der Verbesserung bekannt wäre, das von Google aus guten Gründen gerade nicht vorgegeben wird.
Wenn es einen solchen Zielwert gäbe, würde das die Annahme voraussetzen, dass ein Text eine Nutzeranfrage besser befriedigt, weil in ihm bestimmte Worte in einer bestimmten Häufigkeit vorkommen. Noch nicht einmal ein Eis schmeckt nur deshalb immer besser, weil genau x ml Milch verwendet werden; zur Erhöhung von Textqualität gibt es ganz bestimmt keine Rezepte.

Eine Vorab-Berechnung bestimmter Wort-Häufigkeiten (die von „SEO-Experten“ immer noch vorgeschlagen wird) kann dem erstrebten Endziel „besseres Ranking“ auch nicht mehr dienen; hat aber dafür gute Chancen, die Entstehung eines wirklich schlechten Textes zu befördern. Das wird schnell klar, wenn Sie sich ins Gedächtnis rufen, wie ein guter Text für die Suchmaschine entsteht.

Worauf kommt es an beim Verfassen eines guten Textes?

Gut ist ein Text für Google, wenn er die Suchanfrage eines Nutzers gut beantwortet. Google möchte immer den Text ganz nach oben sortieren, der die jeweilige Suchanfrage des Nutzers am besten beantwortet. Wenn Sie zu einem Thema etwas schreiben möchten, erfordert das Verfassen eines im Sinne der Nutzer (und im Sinne von Google) guten Textes damit folgende logische Schritte:

1. Klären, was der Nutzer zum Thema wissen will

Immer noch der am meisten vernachlässigte Punkt, Beispiel Unternehmens-Geschichte: Viele Unternehmen sind (zu Recht) sehr stolz auf die lange Historie Ihres Unternehmens, die deshalb auf der Website des Unternehmens in ausführlicher Länge dargestellt wird.

Sehr interessant für einen Autor, der ein Buch über die „Geschichte der deutschen Unternehmen“ schreiben möchte. Der normale Nutzer möchte durch den Abstecher auf diese Seite nur sichern, dass er es mit einem seriösen Unternehmen zu tun hat, dass schon länger solide arbeitet und weiß, was es tut. Der normale Nutzer hat auch meist nicht viel Zeit und ist Ihnen sehr dankbar, wenn Sie ihn kurz, knackig und unterhaltsam aufklären.

2. Guten Text zu den Punkten verfassen, die der Nutzer zum Thema wissen will

Ein guter Text ist ein gut verständlicher und gut lesbarer Text. Dieser Text beantwortet das Hauptanliegen des Nutzers in angemessener Ausführlichkeit und gibt auch gleich Antworten auf möglichst viele der weiteren Fragen, die sich aus dem Thema der Suchanfrage ergeben.

Diese Texte sollten von Menschen verfasst werden, die schreiben können und gerne schreiben. Lassen Sie diese Menschen unbedingt schreiben, ohne Ihnen durch Vorgaben von Wortgerüsten Fesseln anzulegen. Solche Vorgaben bestimmter „Keywords“ (die im Rahmen der Suchmaschinentexte keinerlei Bedeutung haben, s. [Link zum Artikel „Keyword Density“]), führen dazu, dass viele Seiten mit absurd schlechten Texten das Netz „verstopfen“.

Diese Texte sind für Menschen, die schon einmal ein Buch gelesen haben, auf Anhieb zu erkennen – wenn Sie das nicht glauben, sollten Sie selbst einmal einen freien Text und einen Text mit fest, ohne Möglichkeit grammatikalischer Beugung vorgegebenen Wörtern schreiben und das Ergebnis vergleichen.


Eine Grundentscheidung: Kommunikation mit Leidenschaft oder simple Information mit individuellem Touch

Hinter den Ideen, durch Berechnung von Worthäufigkeiten die Textqualität zu erhöhen, steht eine grundsätzliche Entscheidung:

Ein Unternehmen, das besondere Produkte/Dienstleistungen mit speziellem Nutzen für den Kunden anbietet und seine Kunden ernst nimmt, wird viel Sorgfalt und Leidenschaft auf die Kommunikation mit seinen Kunden verwenden – auch und gerade auf der Website, über die viele Kunden Unternehmen und Produkte erstmals kennenlernen.

Ein Unternehmen, das Massen-Produkte an potenziell jeden Kunden auf der Welt vertreibt, kann das auch tun – und dadurch sein Profil schärfen, siehe z. B. Apple. Wenn keine Mittel, Zeit, Leidenschaft, nicht die richtigen Texter für solche Webauftritte zur Verfügung stehen, kann es sich durch einen gleichbleibenden Textrahmen ein „Profil der Verlässlichkeit“ bauen – in dem dann Wort-Berechnungen eine glättende Rolle spielen können.

Kann die IDF überhaupt etwas bringen?

Möglicherweise, wenn Sie z. B. für Massen-Produkte ständig eine Fülle von Verkaufsbeschreibungen verfassen müssen, um Google-Abstrafungen wegen Duplicate Content zu entgehen [Link zum Artikel „Duplicate Content“].

Dann sollten Sie einen individuellen Rahmen für diese Verkaufsbeschreibungen entwerfen, innhalb dessen die Berechnung eines IDF (WDF*IDF) für Kontinuität sorgen kann.

Auch dann sollte dieser Abgleich aber nach dem Verfassen der Texte erfolgen, besonders bei Outsourcing an externe Texter, die Ihnen oft viele aus Kundensicht wichtige Synonyme liefern.

Bei Fragen oder Interesse nehmen Sie bitte einfach Kontakt zu uns auf.

SEO Deutschland – Die kreative SEO Agentur