Gibt es den perfekten Suchalgorithmus?

Kategorie: Suchmaschinen

Zuletzt wurde ich einmal bei einem Vortrag gefragt, warum denn Google ständig seinen Suchalgorithmus ändert, und, ergänzend dazu, ob es nicht so etwas wie einen perfekten Suchalgorithmus gibt. Diese beiden Fragestellungen möchte ich in diesem Blogartikel kurz aufgreifen. Beide Fragen sind nämlich sehr spannend und hängen eng zusammen.

Die Ausgangssituation ...

Um die beiden oben genannten Fragen beantworten zu können, ist es zunächst hilfreich sich nochmals folgende (und letztlich natürlich stark vereinfachte) Ausgangssituation vor Augen zu halten: Eine Suchmaschine - wie z. B. Google oder Bing – ist im Kern nichts anderes als eine mathematische Funktion (Suchfunktion genannt). Diese Funktion erhält als Input eine Menge an Suchbegriffen und generiert bzw. berechnet dann auf Basis dieses Inputs eine Menge an Suchergebnissen (vgl. Abbildung 1). Die berechneten Suchergebnisse sollen schließlich dabei helfen (den Nutzern der Funktion), die in Form der angegebenen Suchbegriffe formulierte Fragestellung zu beantworten. Die Berechnung der Suchergebnisse erfolgt dabei automatisiert durch einen Algorithmus, der die Funktion implementiert (diesen Algorithmus bezeichnet man auch als Suchalgorithmus).

Abbildung 1: Suchfunktion.

Wichtig: Aufgabe der Suchfunktion ist dabei nicht nur allein die grundsätzliche Berechnung der Suchergebnisse, sondern auch deren Priorisierung. Denn: Gerade im Falle sehr umfangreicher Suchergebnisse, die Nutzern nur sehr schwer bzw. unmöglich nicht alle gleichzeitig bereitgestellt werden können, müssen die Suchergebnisse zusätzlich sortiert werden, so dass relevantere Suchergebnisse (aus der Gesamtmenge der berechneten Suchergebnisse) eben vor weniger relevanten Suchergebnissen angezeigt werden. [Tatsächlich ist die Priorisierung von Suchergebnissen im Vergleich zu deren Berechnung die wesentlich komplexere Aufgabe.]

Für den weiteren Verlauf des Artikels wollen wir annehmen, dass auch die Priorisierung bzw. Sortierung der Suchergebnisse durch die Suchfunktion vorgenommen wird.

Suchmaschinen im Internet sind somit nichts anderes als Suchfunktionen. Suchfunktionen, die jetzt eben Internetnutzern zur Verfügung gestellt werden, die zu eigenen Fragestellungen Antworten suchen (dass solche Suchfunktionen für die Nutzung des Internets sinnvoll sind, ist sofort und intuitiv klar). Die Herausforderung für Suchmaschinen im Internet ist es nun möglichst genau diejenigen Suchergebnisse zu berechnen die möglichst gut die Fragen der Nutzer beantworten.

Konsequenterweise stehen die Suchmaschinenbetreiber in den beiden Bereichen der Suchergebnisberechnung und der Suchergebnissortierung in einem harten Wettbewerb. Die Ausgestaltung der jeweiligen Suchfunktionen ist dementsprechend ein wohl behütetes Geheimnis.

Was hat das jetzt aber mit den beiden obigen Fragen zu tun?

Suchfunktionen sind Theorien!

Man könnte den oben geschilderten Sachverhalt auch anders beschreiben: Eine Suchfunktion (z. B. diejenige von Google) ist eigentlich nichts anderes als eine Theorie! In unserem Kontext nämlich diejenige Theorie, die es aus Sicht des Anbieters der Suchfunktion erlaubt, auf Basis vorgegebener Suchbegriffe und der Menge aller insgesamt erfassten potentiellen Suchergebnisse (d. h. der Menge aller erfassten Webseiten) genau diejenigen Suchergebnisse (d. h. die Menge aller der zu den Suchbegriffen passenden Webseiten) herauszufiltern, die die durch die Suchbegriffe formulierte Fragestellung beantworten können.

Aha - Was bringt es uns nun aber, von einer Theorie zu sprechen?

In seinem faszinierenden Buch "Eine kurze Geschichte der Zeit" schreibt Stephen Hawking in Kapitel 1 (Rowohlt Taschenbuch Verlag, 1997, S. 23ff): "Jede Theorie ist insofern vorläufig, als sie nur eine Hypothese darstellt: Man kann sie nie beweisen. Wie häufig auch immer die Ergebnisse von Experimenten mit einer Theorie übereinstimmen, man kann nie sicher sein, dass das Ergebnis nicht beim nächsten Mal der Theorie widersprechen wird. Dagegen ist eine Theorie widerlegt, wenn man nur eine einzige Beobachtung findet, die nicht mit den aus ihr abgeleiteten Voraussagen übereinstimmt."

Die Erfahrung zeigt doch ganz klar: Auch wenn ein Nutzer 1000mal mit den (priorisierten) Suchergebnissen einer Suchmaschine wie Google zufrieden ist, also 1000 experimentelle Anwendungen der einer Suchmaschine zugrundeliegenden Theorie geklappt haben, so wird doch beim 1001mal (oder 1002 mal oder 1003mal oder ggf. auch sehr viel früher) die Situation eintreten, dass der Nutzer nicht mehr mit den Suchergebnissen zufrieden ist. Und genau in diesem Moment stimmt dann auch die der Suchmaschine zugrundeliegende Theorie nicht mehr.

Betrachten wir schließlich und ergänzend heutige Nutzungszahlen von Suchmaschinen (Google Deutschland beispielsweise verarbeitet pro Tag deutlich mehr als 150 Millionen Suchanfragen) kann bzw. muss angenommen werden, dass die hinter den Suchmaschinen stehenden Suchfunktionen respektive Theorien jeden Tag nahezu beliebig oft widerlegt werden.

In anderen Worten: Es bleibt Suchmaschinenbetreibern letztlich gar nichts anderes übrig, als ihre Theorien fortwährend anzupassen und zu verbessern. Die Theorie muss besser werden. So passt auch Google den eigenen Suchalgorithmus ständig an. Einige größere Anpassungen des Google-Algorithmus habe ich in einem früheren Blogartikel ja bereits zusammengefasst.

Somit ist die erste der ganz am Anfang genannten Fragen beantwortet.

Bleibt noch die zweite Frage:

Gibt es dann aber einen perfekten Suchalgorithmus?

Nun – die Frage ist eigentlich ebenfalls schon beantwortet. Natürlich nicht! Denn, wie Hawking treffend sagt: "Jede Theorie ist insofern vorläufig, als sie nur eine Hypothese darstellt: Man kann sie nie beweisen."

Hawking schreibt weiter: "Gut ist eine Theorie, wenn sie zwei Voraussetzungen erfüllt: Sie muss eine große Klasse von Beobachtungen [...] beschreiben, das nur einige wenige beliebige Elemente enthält, und sie muss Voraussagen über die Ergebnisse künftiger Beobachtungen ermöglichen."

Die Beurteilung dessen, ob die heutigen Suchmaschinen (und die den Ihnen zugrundeliegenden Theorien) gut sind, bleibt letztlich jedem Nutzer selbst überlassen. Interessante Ergebnisse zu einem Experiment in diesem Kontext finden sich in verschiedenen Studien, u. A. in dem Paper "On the Precision of Search Engines: Results from a Controlled Experiment", an dem ich selbst als Autor mitgewirkt habe. Die Ergebnisse unserer Experimente zum Vergleich klassischer und semantischer Suchmaschinen wurden im Rahmen der "15th International Conference on Business Information Systems" (BIS 2012) vorgestellt, die im Mai 2012 in Vilnius, Litauen stattfand. Das Paper steht hier für interessierte Leser als PDF zum Download bereit.

Weitere Themen
in unserem Blog

Wer Wind sät, wird Sturm ernten - Beispiele berühmter Shitstorms

Ab und zu kommt es zu der Situation, dass sich im Web 2.0 Rückmeldungen von Nutzern in Blogs, bei Twitter oder auf Facebook verselbständigen und plötzlich auf eine Art und Weise und in einem Umfang über Unternehmen, Verbände oder Privatpersonen (und deren Verhaltensweisen) diskutiert wird, wie man…

Einfaches Zeit- und Aufgabenmanagement:  So behalten Sie die Kontrolle über Ihren Webauftritt!

Ihr Webauftritt wird, und das ist nachvollziehbar, nicht zu jedem Zeitpunkt Ihre volle Aufmerksamkeit haben. Schließlich gibt es auch noch viele andere Dinge und Themen, um die Sie sich kümmern müssen, v. a. ihr ganz normales Alltagsgeschäft. Um aber zu verhindern, dass Ihr Webauftritt langsam aber…

Fachbegriffe einfach erklärt: Responsive Design

Seit einiger Zeit sorgt der Begriff des Responsive Design für Aufsehen im Bereich Webdesign, also im Bereich der Gestaltung und Programmierung von Webseiten. Was aber verbirgt sich hinter diesem Begriff? Dieser Blogartikel erklärt den Begriff.

Unser Themen-Blog rund um das Thema "Digitalisierung und Digitale Transformation“

Die Digitalisierung überrennt Gesellschaft, Unternehmen und jeden Einzelnen von uns mit unvorstellbarer Dynamik und Wucht. Während manche Auswirkungen in unserem Alltag sichtbar und spürbar sind, bleibt vieles andere vage und im Verborgenen. Das Bild eines Eisbergs beschreibt diese Situation treffend. Wir sehen v. a. das, was über der Wasseroberfläche zu erkennen ist. Das jedoch, was unterhalb des Wasserspiegels verbleibt, ist weitestgehend unbekanntes Land. Dieses unbekannte Land greift das Blog „Ereignishorizont Digitalisierung“ auf. Es geht um Neuland-Missverständnisse, Gar-Nicht-So-Weit-Weg-Zukunftsfantasien und What-the-Fuck-Momente. Sicher selektiv. Immer auch subjektiv! Besondere Zielgruppe sind Entscheider und Gestalter der Digitalisierung und Digitalen Transformation.

Zum Blog