Als SEO Agentur in Münster werden wir immer mal wieder gefragt: „Wie funktioniert eigentlich die Google Suche?“ Je nach Situation und Zeit kann unsere Antwort dann sehr unterschiedlich ausfallen. Denn das Thema ist komplex: Vieles ist für die Fragenden meist nicht relevant. Vieles wissen wir auch einfach nicht mit Sicherheit.
Das macht eine schnelle Übersicht nicht einfach. Wir haben ein zumindest grobes Modell der Prozesse hinter der Google-Suche bisher immer vermisst. Gerade für die interne Weiterbildung, für Seminare und Hilfen von Studierenden wäre eine visuelle Stütze eine echte Hilfe.
Also wurden wir selbst mutig. Unser SEO-Consultant Sebastian Slawik hat sich hingesetzt und unseren Wissensstand dazu, wie Google arbeitet, was wir davon kontrollieren können, was wir sehen und was wir vermuten, in eine einzige poster-taugliche Infografik gepackt.
- Ist das „Die Wahrheit über Google“? – Nein. Es ist ein Modell voller Vermutungen.
- Ist es eine hilfreiche Orientierung und Gedankenstütze? – Wir hoffen es.
- Darf die Grafik geteilt und verbreitet werden? – Gerne gemäß CC BY-NC-ND 4.0 und wir freuen uns über einen Link zu online-profession.de.
- Kann man die Grafik als Poster von uns bekommen? – Natürlich, sogar kostenlos. Sendet uns unten gerne eine Nachricht.
Wie funktioniert die Google-Suche? by Sebastian Slawik is licensed under CC BY-NC-ND 4.0
Hintergründe zur Grafik
Diese Infografik ist eine starke Vereinfachung. Ein Modell. Es bildet in übersichtlicher Form unseren Wissensstand und Vermutungen mit Stand Frühjahr 2022 dazu ab „wie Google funktioniert“, genauer die Google-Suche.
Dabei wollen wir ehrlich sein. Nur einige Elemente in diesen Prozessen können wir tatsächlich direkt beeinflussen (blaue Markierungen). Bei manchen können wir, oft über die Google Search Console, Ergebnisse und Zwischenstände ablesen (gelbe Markierungen). Bei den meisten wissen wir nur, dass es sie gibt (lila Markierungen) und schon die Verbindungen unter ihnen sind Annahmen.
Unsere Ziele hinter der Grafik
Unser erstes Ziel ist bei dieser Grafik ist es, ein Gefühl für die vielfältigen Prozesse zu geben, die hinter der Google-Suche stehen. Zu zeigen, dass es nicht mehr „Den Google-Algorithmus“ gibt, sondern ein Netz verschiedener Funktionen, die selbst als vereinfachte Übersicht ein veritables Geflecht aus Verbindungen haben. Wir wollen helfen, bestimmte Begriffe und Abläufe in ein großes Gesamtbild einzuordnen.
Ein zweites Ziel ist, dass die Übersicht auch als DIN A0 Poster funktioniert. Deshalb sind die Vernetzungen der Übersicht linearisiert und wir haben einen „Hauptweg“ mit dickeren Pfeilen hervorgehoben, der von einem SEO-Start zu einem SEO-Ziel führt. In der ganzen Grafik kreuzen sich nur an einer Stelle Kanten/Pfeile.
Herausforderungen
Es war eine echte Herausforderung, möglichst viele Funktionen zu zeigen, ohne Aussagekraft zu verlieren. Die Prozesse und Elemente sind deshalb auch nicht komplett abgebildet. Speziell im Element „Indexing“ haben wir uns entschieden nur zwei Beispiele aufzuführen, die gut zeigen, wie im Indexing Daten aus mehreren Quellen zu gut speicherbaren Werten und Vektoren kombiniert und umgewandelt werden.
Und dann ist da noch die Back Box im Scoring: Welche dieser Werte bei welchen Suchanfragen verwendet werden, um die passenden Suchergebnisse zu finden und wie sie gewichtet werden, um die Suchergebnisse anzuordnen, wird wohl auch in Zukunft Googles Betriebsgeheimnis bleiben. Deshalb sind die Black Boxes auch mit Fragen beschriftet.
Es gibt natürlich auch Annahmen dazu und Studien zu „Rankingfaktoren“, aber da wollen wir uns ganz bewusst nicht noch weiter aus dem Fenster lehnen. Für die Aussage des Posters mit der Skizze der Abläufe hinter der Google-Suche sind konkrete Rankingfaktoren auch schlicht nicht relevant.
Grafik und Poster nutzen
Wir freuen uns, wenn die Übersicht angehenden und etablierten SEOs, Studenten und generell Online Marketern hilft und weitergegeben wird, solange es unverändert, nicht kommerziell und mit Namensnennung (und gerne Link zu online-profession.de) erfolgt. Es gilt CC BY-NC-ND 4.0.
Natürlich dürft ihr die Grafik auch selbst als Poster ausdrucken. Ihr bekommt sie aber auch gerne kostenfrei in voller Glorie als DinA 0 Poster von uns. Schickt uns einfach über das Formular eine Nachricht.
Habt ihr weitere Fragen und Anmerkungen zur Übersicht, dann diskutiert gerne mit uns in Kommentaren hier oder auf anderen Plattformen. Wir wissen, dass das Ergebnis nicht perfekt ist, glauben aber, dass es seinen Zweck gut erfüllt und lernen gerne dazu.
Sehr schöne Grafik. Inhaltlich gibt es glaube ich noch Potenzial für eine Version 2.0.
Die Punkte, die mir spontan aufgefallen sind, habe ich versucht einmal knapp zusammenzufassen:
Bei den Startpunkten fehlen:
* Sitemaps
* Interne Links
Scheduler:
* Lastmod Timestamp in Sitemap fehlt
* „Das muss ich mir mal wieder anschauen“ steckt implizit in Änderungsfrequenz aber nicht explizit
Parsen würde ich hinter Crawlen hängen. Meiner Kenntnis nach parsed Google URLs nicht, die auf noindex stehen. Das würde aber nur funktionieren, wenn Google erst auf die Indexierung und dann auf das Rendering schaut und nicht parallelisiert.
Die Robots.txt schlägt natürlich vor dem Crawlen zu.
Bild- (und Videoinhalte) werden auch von „Webseite nicht gerendert“ gesehen. Ich bin mir sicher, dass wir die Liste er Dinge, die Google sich anschaut noch nicht vollständig haben: Canonicals beispielsweise, oder etc.
Die Unterscheidung in den Inhalten zwischen Rendering/Kein Rendering müssen wir glaube ich im Wesentlichen aufheben. Wir wissen ja beispielsweise, dass strukturierte Daten und Meta-Tags auch im Rendering extrahiert werden.
Wahrscheinlich würde ich auch das Noindex nach vorn ziehen. Links extrahieren macht ja Sinn, wenn noindex, aber Content extrahieren nicht. Wir können also viel Energie sparen, wenn wir Noindex-Dokumente gar nicht erst durch die komplette Pipeline schieben.
Was mir auch noch auffällt: Die Normalisierung des HTMLs macht ja vor dem Extrahieren der Inhallte Sinn. Nachdem ich alles extrahiert habe brauche ich das HTML nicht noch zu normalisieren.
Phase 2:
TF*IDF wird nicht von Google gespeichert. Noch nicht mal berechnet. Hör‘ Dir mal die Folgen rund um diese von Search Off the record an: https://www.seroundtable.com/information-retrieval-at-google-search-31615.html
In dem Zusammenhang geht es auch um den Index-Aufbau. Dabei wird auch klar, dass Google nicht „Suchanfragen“ indexiert, sondern Terme, also einzelne Worte. Zur Frage, wie daraus das initiale Ranking entsteht — und wie das wiederum dem Re-Ranking unterzogen wird — gibt es ebenfalls eine coole Folge.
Zur gesamten Prozesskette hab ich eine Präsentation auf Basis des Google-Podcasts gebaut. https://youtu.be/uqeSVf9jLZg?t=379
(Martin Splitt fand‘ den entweder halbwegs korrekt oder sehr belustigend: https://twitter.com/g33konaut/status/1454044341811486726😉 )
Verantwortlich dafür, dass ich das gemacht habe war übrigens Juan Gonzalez, der mich für Sistrix darum gebeten hat.
Das sind gute Ergänzungen, danke sehr.
Speziell bei Parsen und Crawlen wird der Platz schnell eng, aber da geht wirklich noch was.
Mir ist klar, dass alleine die Nennung von TF*IDF aufschrecken lässt, das Grundprinzip, wie aus Text-Inhalten eines Dokuments index-taugliche und durch den Gesamtkorpus vorgewichtete Vektoren werden, ist einfach eines der besten Beispiele dafür, was die Hauptherausforderung für Google beim Indexieren ist. Unabhängig vom tatsächlichen Stellenwert dieses speziellen Datensatzes im weiteren Prozess.
Du bringst Caffeine auch viel besser rüber, als ich in meinem Bereich „Indexieren“, die Substrukturierung „Des Index“ mit Shards und Tokens mit seinen Auswirkungen, rockst du auch in dem sehr guten Talk, aber an das und die Schleifen aus Ranking und Re-Ranking habe ich mich ganz bewusst nicht rangetraut.
Da ergänzen wir uns, denke ich, sehr gut.
Bitte schickt mir euer großartiges Poster an
Bernhard Hinsken
Mülheimer Str. 176
47057 Duisburg