Suchmaschine
Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten,
die in einem Computer oder einem Computernetzwerk wie z. B. dem World
Wide Web gespeichert sind. Nach Eingabe eines Suchbegriffs liefert
eine Suchmaschine eine Liste von Verweisen auf möglicherweise
relevante Dokumente, meistens dargestellt mit Titel und einem kurzen
Auszug des jeweiligen Dokuments. Dabei können verschiedene Suchverfahren
Anwendung finden.
Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine
sind:
* Erstellung und Pflege eines Indexes (Datenstruktur mit Informationen
über Dokumente),
* Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen)
sowie
* Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.
In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch
Webcrawler, auf einem einzelnen Computer durch regelmäßiges
Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen
im lokalen Dateisystem.
Arten von Suchmaschinen
Suchmaschinen lassen sich nach einer Reihe von Merkmalen kategorisieren.
Die drei nachfolgenden Merkmale sind orthogonal zueinander. Man kann
sich beim Entwurf einer Suchmaschine also für eine Möglichkeit
aus jeder der drei Merkmalsgruppen entscheiden, unabhängig von
den anderen Merkmalen. Die gängigste und meistgenutzte Kombination
ist eine indexbasierte (Realisierung) Websuchmaschine (Datenquelle)
auf HTML-Textdokumenten (Art der Daten), wie sie unter anderem von
den drei großen Suchmaschinenanbietern Google, Yahoo! Search
und MSN Search bereitgestellt wird.
Art der Daten
Verschiedene Suchmaschinen können unterschiedliche Arten von
Daten durchsuchen. Zunächst lassen sich diese grob in Dokumenttypen
wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten
werden in Abhängigkeit von dieser Gattung gestaltet. Bei einer
Suche nach Textdokumenten wird üblicherweise ein Textfragment
angezeigt, welches die Suchbegriffe enthält. Bildsuchmaschinen
zeigen eine Miniaturansicht der passenden Bilder an.
Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften
ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt
man beim Beispiel Text, so kann bei Usenet-Beiträgen nach bestimmten
Autoren gesucht werden, bei Web-Seiten im HTML-Format nach dem Dokumententitel.
Je nach Datengattung ist als weitere Funktion eine Einschränkung
auf eine Untermenge aller Daten einer Gattung möglich. Dieses
wird im Allgemeinen über zusätzliche Suchparameter realisiert,
die einen Teil der erfassten Daten ausschließt. Alternativ kann
sich eine Suchmaschine darauf beschränken, von Anfang an nur
passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine
für Weblogs (statt für das komplette Web) oder Suchmaschinen,
die nur Dokumente von Universitäten verarbeiten, oder ausschließlich
Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder
einem bestimmten Dateiformat.
Datenquelle
Ein weiteres Merkmal zur Kategorisierung ist die Quelle, aus der
die von der Suchmaschine erfassten Daten stammen. Meistens beschreibt
bereits der Name der Suchmaschinenart die Quelle.
Websuchmaschinen erfassen Dokumente aus dem World Wide Web, Usenetsuchmaschinen
Beiträge aus dem weltweit verteilten Diskussionsmedium Usenet.
Intranetsuchmaschinen beschränken sich auf die Rechner des Intranets
einer Firma. Als Desktopsuchmaschinen werden neuerdings Programme
bezeichnet, welche den lokalen Datenbestand eines einzelnen Computers
durchsuchbar machen.
Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren
vorgenommen, spricht man von einem Katalog oder Verzeichnis. In solchen
Verzeichnissen wie dem Open Directory Project sind die Dokumente hierarchisch
in einem Inhaltsverzeichnis nach Themen organisiert.
Realisierung
Dieser Abschnitt beschreibt Unterschiede in der Realisierung des
Betriebs der Suchmaschine.
* Die heutzutage wichtigste Gruppe sind indexbasierte Suchmaschinen.
Diese lesen passende Dokumente ein und legen einen Index an. Dabei
handelt es sich um eine Datenstruktur, die bei einer späteren
Suchanfrage verwendet wird. Nachteil ist die aufwendige Pflege und
Speicherung des Indexes, Vorteil ist die Beschleunigung des Suchvorgangs.
* Metasuchmaschinen schicken Suchanfragen parallel an mehrere indexbasierte
Suchmaschinen und kombinieren die Einzelergebnisse. Als Vorteil ergibt
sich die größere Datenmenge sowie die einfachere Implementierung,
da kein Index vorgehalten werden muss. Nachteil ist die relativ lange
Dauer der Anfragebearbeitung. Außerdem ist das Ranking durch
reine Mehrheitsfindung von fragwürdigem Wert. Die Qualität
der Ergebnisse wird unter Umständen auf die Qualität der
schlechtesten unterliegenden Suchmaschine reduziert. Metasuchmaschinen
sind vor allem bei selten vorkommenden Suchbegriffen sinnvoll.
* Weiterhin existieren Hybridformen. Diese besitzen einen eigenen,
oft relativ kleinen Index, befragen aber auch andere Suchmaschinen
und kombinieren schließlich die Einzelergebnisse. Sogenannte
Echtzeitsuchmaschinen starten etwa den Indexierungsvorgang erst nach
einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die
Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten
Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht.
* Ein relativ neuer Ansatz sind verteilte Suchmaschinen. Dabei wird
eine Suchanfrage an eine Vielzahl von einzelnen Computern weitergeleitet,
die jeweils eine eigene Suchmaschine betreiben, und die Ergebnisse
zusammengeführt. Vorteil ist die hohe Ausfallsicherheit aufgrund
der Dezentralisierung und je nach Sichtweise die fehlende
Möglichkeit, zentral zu zensieren. Schwierig zu lösen ist
allerdings das Ranking, also die Sortierung der grundsätzlich
passenden Dokumente nach ihrer Relevanz für die Anfrage.
Sortierung der Ergebnisse
Die Darstellung der Suchergebnisse geschieht sortiert nach Relevanz
(Suchmaschinenranking), wofür jede Suchmaschine ihre eigenen,
meistens geheim gehaltenen Kriterien heranzieht. Dazu gehören:
* Die grundlegende Bedeutung eines Dokuments (bei Google der PageRank-Wert).
* Häufigkeit und Stellung der Suchbegriffe im jeweiligen gefundenen
Dokument.
* Einstufung und Anzahl der zitierten Dokumente.
* Häufigkeit von Verweisen anderer Dokumente auf das im Suchergebnis
enthaltene Dokument sowie in Verweisen enthaltener Text.
* Einstufung der Qualität der verweisenden Dokumente (ein Link
von einem guten Dokument ist mehr wert als der Verweis
von einem mittelmäßigen Dokument).
Manche Suchmaschinen sortieren Suchergebnisse nicht nur nach Relevanz
für die Suchanfrage, sondern lassen gegen Bezahlung auch Einflussnahme
auf ihre Ausgabe zu. In den letzten Jahren hat sich allerdings bei
den großen Anbietern eine Trennung zwischen Suchergebnissen
und als bezahlte Treffer markierte eingeblendeter Werbung
durchgesetzt welche auf die Suchanfrage zugeschnitten ist.
Herausforderungen
Suchmaschinen müssen im Betrieb mit verschiedenartigen Problemen
umgehen:
* Mehrdeutigkeit Suchanfragen sind oft unpräzise. So
kann die Suchmaschine nicht selbstständig entscheiden, ob beim
Begriff Laster nach einem LKW oder einer schlechten Angewohnheit gesucht
werden soll (semantische Korrektheit). Umgekehrt sollte die Suchmaschine
nicht zu stur auf dem eingegebenen Begriff bestehen. Sie sollte auch
Synonyme einbeziehen, damit der Suchbegriff Rechner Linux auch Seiten
findet, die statt Rechner das Wort Computer enthalten.
* Grammatik Viele mögliche Treffer gehen verloren, weil
der Nutzer nach einer bestimmten grammatikalischen Form eines Suchbegriffes
sucht. So findet die Suche nach dem Begriff Auto zwar alle im Suchindex
enthaltenen Seiten, die diesen Begriff enthalten, nicht aber jene
mit dem Begriff Autos. Manche Suchmaschinen erlauben die Suche mittels
Wildcards, mit denen sich dieses Problem teilweise umgehen lässt
(z. B. berücksichtigt die Suchanfrage Auto* auch den Begriff
Autos oder Automatismus), allerdings muss der Nutzer die Möglichkeit
auch kennen. Weiterhin wird oft Stemming verwendet, dabei werden Wörter
auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach
ähnlichen Wortformen möglich (schöne Blumen findet
so auch schöner Blume), außerdem wird die Anzahl der Begriffe
im Index reduziert. Eine weitere Möglichkeit ist der Einsatz
statistischer Verfahren, mit denen die Suchmaschine die Anfrage z.
B. durch das Auftauchen verschiedener verwandter Begriffe auf Webseiten
danach bewertet, ob mit der Suche nach Auto reparieren auch die Suche
nach Autos reparatur oder Automatismus repariert gemeint gewesen sein
könnte.
* Datenmenge Das Web wächst schneller als die Suchmaschinen
mit der derzeitigen Technik indexieren können. Dabei ist der
den Suchmaschinen unbekannte Teil das so genannte Deep Web
noch gar nicht eingerechnet.
* Aktualität Viele Webseiten werden häufig aktualisiert,
was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln
(Robots) immer wieder zu besuchen. Dieses ist auch notwendig, um zwischenzeitlich
aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger
als Ergebnis anzubieten. Das regelmäßige Herunterladen
der mehreren Milliarden Dokumente, die eine Suchmaschine im Index
hat, stellt große Anforderungen an die Netzwerkressourcen (Traffic)
des Suchmaschinenbetreibers.
* Spam Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber,
den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine
bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl
den Betreibern der Suchmaschine als auch deren Kunden schadet dieses,
da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
* Technik Suchen auf sehr großen Datenmengen so umzusetzen,
dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen
und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft
pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten
erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber.
Systeme müssen sehr redundant ausgelegt sein, zum einen auf den
Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr
als ein Rechenzentrum geben, welches die komplette Suchmaschinenfunktionalität
anbietet.
* Recht Suchmaschinen werden meistens international betrieben
und bieten somit Benutzern Ergebnisse von Servern, die in anderen
Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder
unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt
sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse
Seiten von ihren Ergebnissen auszuschließen. Die deutschen Internet-Suchmaschinen
wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle
aus ihren Trefferlisten streichen.
Artikel Suchmaschine. In: Wikipedia, Die freie Enzyklopädie.
Bearbeitungsstand: 2. Februar 2007, 17:42 UTC. URL: http://de.wikipedia.org/w/index.php?title=Suchmaschine&oldid=27276103
(Abgerufen: 3. Februar 2007, 19:21 UTC)
|