Googles Kampf gegen Content-Scraping

zurück zum Blog

Content-Scraping ist ein altbekanntes Problem, dass sowohl Webmastern als auch Google schon seit längerem zu schaffen macht. Die Verbannung kopierter Inhalte aus den SERPs wird Google zu einem immer dringlicheres Problem. Die Chronologie eines Kampfes gegen geklaute Inhalte.

Content-Scraping ist ein altbekanntes Problem, das sowohl Webmastern als auch Google schon seit längerem zu schaffen macht. Beim Content Scraping werden Inhalte von einer Webseite extrahiert und dann auf einer anderen Webseite erneut veröffentlicht. Hierdurch kann für den ursprünglichen Herausgeber des Inhaltes ein nicht zu unterschätzendes Problem mit Duplicate Content entstehen.

Die Gefahren von Content Scraping

Geschieht das Scraping in Übereinstimmung mit dem Urheber des Artikels, kann die Gefahr des Duplicate Content durch einige simple Maßnahmen unterbunden werden. Unschön wird es, wenn Content maschinell und ohne Einverständnis des Urheber kopiert und auf einer fremden Webseite veröffentlicht wird. Diese Methode ist gleich für mehre Akteure ein Ärgernis:

Wo ist das Problem für die betroffenen Webseiten?

  • Die Scraper stehlen der Original-SeiteTraffic.
  • Sie ranken möglicherweise mit dem gestohlenen Inhalt höher als das Original und verdrängen die Original-Seite damit in den SERPs auf untere Positionen.
  • Es entsteht Duplicate Content und solange der Scraper nicht kooperiert und freiwillig auf die Original-Quelle hinweist (s.u.), kann nicht garantiert werden, dass Google den richtigen abstraft, wenn es zu einer Abstrafung aufgrund von Duplicate Content kommen sollte.

Wo ist das Problem für Google?

  • Verärgerte User: Webseiten, die Artikel nur veröffentlichen, weil sie Content benötigen, um sich selbst zu promoten, sind selten hilfreich.
  • Verärgerte Webmaster: Was nützt die ganze Arbeit in gute Artikel, wenn dieser anschließend kopiert wird und die „Diebe“ damit am Ende sogar höher ranken?
  • Webseiten mit gescraptem Content verstopfen die Top-10 der SERPs für Webseiten mit guten Original-Inhalten (hiergegen ging das Panda-Update bereits vor).
  • Webseiten mit kopierten Inhalten verstoßen gegen die Google-Qualitätsvorstellungen zu einzigartigem Inhalt.

Google Maßnahmen gegen Content Scraping

Seitdem diverse Blog Artikel Anfang des Jahres die mangelhafte Qualität der Google Trefferliste beklagten, wurde die Verbesserung der Qualität der SERPs für Google zu einem immer dringlicheres Problem. Google stellte im Januar 2011 einen Rückgang von klassischem Webspam, jedoch ein vermehrtes Aufkommen von Content-Farmen fest. Ende Januar bestätigte Matt Cutts seinem Blog die Umsetzung einer Algorithƒmus-Veränderung in. Sein Fazit:

„The net effect is that searchers are more likely to see the sites that wrote the original content rather than a site that scraped or copied the original site’s content.“

Der große Schlag gegen Content-Farmen erfolgte dann ab Februar 2011 mit dem Panda-Update. Mit diesem großen Update bemühte sich Google, die SERPs von minderwertigen Suchergebnissen zu bereinigen. Die Algorithmus-Anpassung wurde im Verlauf des nächsten halben Jahres in mehreren Schritten weltweit ausgerollt.

Meldung von Scraper Pages

Kaum war das Panda-Update in den meisten Teilen der Welt über den Tisch gegangen, kündigten sich auch schon neue Umgestaltungen an. Am Freitag den 26.08. sandte Matt Cutts folgende Meldung über Twitter:

„Scrapers getting you down? Tell us about blog scrapers you see: http://goo.gl/S2hIh We need datapoints for testing.“

Der Link im Tweet leitet den User zu einem Google Docs Formular weiter, in dem Google ankündigt, eine Algorithmus-Veränderung zu testen, die sich spezifisch an Blog Scraper richtet. User sind aufgerufen, Fälle von Scraping an Google zu melden. Dafür stellt das Spreatsheet ein Eingabefeld zur Verfügung.

Googles Formular zur Meldung von Scrapern; Stand: 02.12.2011Googles Formular zur Meldung von Scrapern; Stand: 02.12.2011

Googles Kampf gegen Web Spam geht weiter

Das offiziell erklärte Motto des Panda-Updates hieß: „Finding more high-quality sites in search“. Das Problem Content Scraping konnten die bisherigen Maßnahme offensichtlich nicht zur Zufriedenheit aller Beteiligten lösen. Nun ist die Identifizierung von Original-Content erneut Bestandteil eines Google-Updates. Der Kampf gegen Content-Spam wird wohl sobald nicht beendet sein. Google veröffentlicht mehr als 500 Updates im Jahr. Vielleicht nimmt das nächste Update erneut pandaeske Züge an – vielleicht geht es auch völlig unbemerkt an der SEO-Welt vorüber. Bleibt abzuwarten, was die Köche um Matt Cutts Anti-Spam-Team künftig auskochen werden.

Maßnahmen gegen Duplicate Content

Für Webmaster gibt es verschiedene Möglichkeiten, Content-Klau vorzugehen. Hierzu gehört vor allem das „canonical-tag“. Deshalb wollen wir hier demnächst der Frage nachgehen, wie man intelligent syndiziert und was man bei einem vorliegenden Fall von Content-Klau machen kann.

Autor

Kathrin Rockenfeller
SEO und Online-Redaktion

Kategorie:

Kommentare

Und was meinen Sie?

Der Inhalt dieses Feldes wird nicht öffentlich zugänglich angezeigt.