Google, Bing & Co. - wie funktionieren Internet-Suchmaschinen?

Google, Bing & Co. - wie funktionieren Internet-Suchmaschinen?

Eine Suchmaschine zu benutzen ist für jeden, der das Netz nutzt, selbstverständlich. Wie sonst sollte man in den Milliarden von Internetseiten das finden, was einen interessiert? Aber wie funktionieren Suchmaschinen eigentlich? Und finden Suchmaschinen alles, was es im Internet gibt?


Das ist eine grafische Darstellung des Internet. Deutlich erkennt man, dass Seiten mehr oder weniger stark mit anderen vernetzt sind.

Seit Anfang der 1990er Jahre steht das Internet jedem offen, der einen Computer hat und Zugang zum Telefonnetz hat. Rasend schnell wuchs seither die Zahl der verfügbaren Webseiten an. Bald wurde klar, dass man ohne technische Hilfe die Vielzahl an Seiten nicht sinnvoll nutzen kann. Die Idee der Internet-Suchmaschine war geboren.


Die bekannteste Suchmaschine im Internet, aber längst nicht die einzige, ist Google. 80 Prozent aller Internetsuchanfragen werden darüber abgewickelt. Sogar in den Duden hat es der Begriff "googeln" geschafft.


Gibt man einen gesuchten Begriff bei Google ein, erhält man im Bruchteil einer Sekunde das Ergebnis. Das ist fast unglaublich, wenn man bedenkt, dass mehr als eine Billion (1.000.000.000.000) Webseiten durchsucht werden.


Was wird durchsucht?


Internetsuchmaschinen verwenden einen sogenannten "Index". Index ist ein lateinisches Wort und bedeutet "Verzeichnis". Darin findet man nach einem bestimmten System geordnet alle Webseiten, die die Suchmaschine nach Eingabe eines Suchwortes durch den Nutzer durchforstet.


Eine Webseite kann auf verschiedene Arten in den Index gelangen. Entweder machen das Menschen, was sehr aufwändig ist, oder es geschieht automatisch durch so genannte "Webcrawler".


So funktioniert eine sogenannte "Indexsuchmaschine" wie Google oder auch der Konkurrent Bing aus dem Hause Microsoft eine ist. Informationsquelle ist in diesem Fall natürlich das Internet.

Das sind kleine Programme, die eine Internetseite aufrufen und dann deren Inhalt analysieren und den Links auf der Seite folgen. Seiten, die sehr beliebt sind und auf denen sich oft etwas ändert, bekommen öfters Besuch von einem Crawler als andere Seiten.


Die Kunst des Suchens


Gibt nun ein Nutzer einen Suchbegriff oder eine Anfrage bei der Suchmaschine ein, wird diese zunächst in eine für Computer verständliche Form gebracht. Die einfachste Eingabe ist ein einzelner Suchbegriff wie etwa "Auto".

Oft geben Nutzer aber auch richtige Fragen ein, etwa "Wie ist das Wetter in Nürnberg?" Da Computer keine menschliche Sprache verstehen, muss diese Eingabe erst zerlegt werden in die wesentlichen Elemente, hier also "Nürnberg" und "Wetter".


Schließlich kann man auch der Suchmaschine etwas helfen und seine Suchanfrage schon computerfreundlich gestalten. So führt die Eingabe "+Picasso +Dali -Museum" auf Seiten, auf denen die Worte Picasso und Dali gemeinsam vorkommen. Seiten, die ebenfalls das Wort "Museum" enthalten, werden aber nicht angezeigt. Das heißt, man bekommt also so gut wie keine Museumsseite angezeigt.


Hat man Return gedrückt, wird die Suchanfrage blitzschnell zu einem Rechenzentrum des Suchmaschinenbetreibers geschickt. Dort stehen tausende von handelsüblichen Computern mit unglaublich vielen Festplatten, die den Index der Suchmaschine beinhalten. Eine einzige Suchanfrage kann dabei von vielen hundert Rechnern gleichzeitig bearbeitet werden.


Mit Hilfe komplexer mathematischer Formeln werden dann rasend schnell die Seiten gefunden, die die gesuchten Ergebnisse beinhalten. Übrigens gibt es auch ganz viele Seiten, die gar nicht von Google und anderen Suchmaschinen durchsucht werden. Das Netz ist also viel größer als das, was Suchmaschinen einem anzeigen.


Eine Metasuchmaschine nimmt die Anfrage des Nutzers und gibt sie selbst bei anderen Suchmaschinen ein. So erhält der Nutzer viel mehr Ergebnisse.

Was sind sinnvolle Ergebnisse?


Als Nutzer möchte man natürlich nicht irgendeine Seite angezeigt bekommen, auf der sich die gesuchten Begriffe befinden. Man möchte gerne das als erstes möglichst hochwertige Seiten angezeigt werden, auf die man sich auch verlassen kann.


Um herauszufinden, wie die Qualität einer Webseite einzuschätzen ist, kommt wieder Mathematik zum Einsatz. Man untersucht zum Beispiel, wie viele andere Seiten auf eine spezielle Seite verlinken. Je mehr das sind, desto beliebter scheint die entsprechende Seit zu sein.


Betreibt man nun selbst eine Webseite, möchte man natürlich, dass diese auch möglichst auf der ersten Ergebnisseite angezeigt wird, denn die Nutzer einer Suchmaschine schauen sehr selten auf die zweiten oder dritten oder noch weiter hinten liegenden Ergebnisseiten. Dafür haben sich ganz neue Firmen gegründet, sogenannte Suchmaschinenoptimierer. Sie versuchen, die eigene Seite eben möglichst hoch in den Suchergebnissen zu platzieren.


In der Zwischenzeit sind auch sogenannte Metasuchmaschinen aufgetaucht. Das sind Suchmaschinen, die ihre Eingabe selbst bei vielen anderen Suchmaschinen eingeben. Das ist besonders bequem für den Nutzer.


Ihr seht, im Internet zu suchen ist also eine ziemlich komplizierte und mathematische Angelegenheit. Aber das muss einen als Nutzer zum Glück nicht viel kümmern. Und Forscher arbeiten schon an Suchmaschinen, die tatsächlich in gewisser Weise verstehen, was man sucht - die Zukunft gehört den sogenannten "semantischen Suchmaschinen".


Suchmaschinen jenseits von Google


Die bekannteste Suchmaschine ist, wie schon gesagt, Google. Daneben gibt es aber auch noch einige Konkurrenz, etwa Fireball, Magellan, Bing, oder, speziell für Kinder, fragfinn.de oder auch Blinde Kuh.


Hier findet ihr eine kleine Anleitung für Google. Damit könnt ihr noch besser finden, wonach ihr sucht.

Wenn dich das Internet und Unterhaltungselektronik interessieren, dann wirf doch auch einen Blick in unseren WAS IST WAS-Band 100: Multimedia und virtuelle Welten.



Text: -jj- 29.3.2010 // Bilder: Indexsuchmaschine Jakob Voss/cc-by-sa 3.0; Metasuchmaschine Jakob Voss/cc-by-sa 3.0; Internetdarstellung Matt Britt/cc-by-sa 2.5;

Hinweis: Im Archiv wurden alle Bilder und Links entfernt