Tutorial zur Suche im WWW

Bernard Bekavac - Informationswissenschaft - Universität Konstanz

bearbeitet von Lukas Müller, August 1999

Die Teile 1 und 2 bieten Grundinformationen zum Verständnis des WWW und der Suchmaschinen.

Für das Handling der Suchmaschinen sind die Teile 3 und 4 wichtig. Kenntnisse der Teile 1 und 2 sind nicht vorausgesetzt.

1 Informationen im WWW

1.1 Welche Informationsdienste sind über WWW erreichbar?

1.2 Wer sind die Informationsanbieter?

2 Suchverfahren im WWW

2.1 Suche in lokalen WWW-Servern / Gateways zu Datenbanken
2.2
Katalog- und verzeichnisbasierte Suche
2.3
Roboterbasierte Suche / Suchmaschinen

2.3.1 Funktionsweisen von Suchmaschinen

2.3.1.1 Akquisition
2.3.1.2
Indizierung
2.3.1.3
Aktualisierung
2.3.1.4
Anfragebearbeitung

2.3.2 Tips für die Erstellung eigener WWW-Seiten

2.4 Hybride Suchmaschinen
2.5
Metasuchmaschinen
2.6
Intelligente / Mobile Agenten

3 Suchoperatoren und Suchmethoden

3.1 Suchmodi
3.2
Groß-/Kleinschreibung
3.3
Trunkierung
3.4
Gewichtung
3.5
Boolesche Operatoren
3.6
Phrasensuche und Abstandsoperatoren
3.7
Suchraumeingrenzung
3.8
Treffermengeneingrenzung
3.9
Ranking
3.10
Trefferanzeige
3.11
Treffer-Weiterverarbeitung

4 Vorgehensweise bei der Suche

4.1 Ermittlung des Informationsbedürfnisses
4.2
Auswahl der richtigen Suchbegriffe
4.3
Auswahl geeigneter Suchverfahren
4.4
Durchführung der Recherche und Relevanzbeurteilung

1 Informationen im WWW

1.1 Welche Informationsdienste sind über WWW erreichbar?

Viele Internetdienste, die schon lange vor dem WWW existieren und dem Benutzer verschiedene Arten von Informationen zur Verfügung stellen, sind heutzutage komfortabel über das WWW erreichbar. Die verbreitetsten und wichtigsten werden nachfolgend kurz erläutert: FTP, E-Mail, NewsGroups und natürlich das WWW selbst.

WWW

Durch seine grafische Aufbereitung und durch die einfache Handhabung ist das WWW (World Wide Web) zum häufigst genutzten Dienst im Internet geworden. Jeder, der eine grafische Oberfläche bedienen kann, ist in der Lage, sich rund um die Uhr von Seite zu Seite zu hangeln (zu "surfen"), Informationsserver anzusteuern, Zeitungsstände und Bibliotheken zu befragen oder selbst eine globale, (fast) kostenlose Informationsseite anzubieten.
Dokumente sind im WWW in Form von Hypertext organisiert. Das bedeutet: sie enthalten Verweise (sog. 'Links' oder 'Hyperlinks') auf andere Dokumente. Somit ist es z.B. möglich, inhaltlich verwandte Themen miteinander zu verbinden, oder ein 'assoziatives Lesen' zu ermöglichen. Ein Link bezieht sich nicht nur auf Textdokumente, sondern auch auf eine Video- oder Audiosequenz, ein Bild, auf andere Dienste wie z.B. E-Mail, News oder FTP.

FTP (File Transfer Protocol)

Fast alle Hard- und Software-Hersteller nutzen das Internet, um der Öffentlichkeit Zugriff auf ihre Softwarearchive zu geben. Damit sparen sie Geld, welches sie für den Disketten- bzw. CD-ROM-Versand per Briefpost ausgeben müßten. Das Internet ist schneller, billiger und inzwischen verbreitet genug. Das Spektrum der verfügbaren Dateien kann nur anhand einiger Beispiele angedeutet werden:

Zur Übertragung dieser großen Datenmengen eignet sich besonders der Datei-Transfer-Dienst FTP, der schon lange vor dem WWW existierte.
Der Zugriff auf FTP-Server verlangt normalerweise eine Benutzerkennung und zugehöriges Paßwort. Bei den meisten FTP-Severn gibt es aber allgemein bekannte und gültige Benutzerkennungen wie guest oder anonymous, weshalb auch die Bezeichnung anonymous ftp verwendet wird. Beim Zugang zu FTP über einen WWW-Browser wird die Benutzeranmeldung vom Browser automatisch vorgenommen und das FTP-Dateiverzeichnis in WWW-Look angezeigt, so daß der Benutzer meistens gar nicht bemerkt, daß mit einem anderem Dienst als WWW gearbeitet wird.

Auch Software muß erst gefunden werden. Da FTP bereits sehr früh zu den Internetdiensten gehörte, wurde auch sehr früh der Ruf nach zentralen Softwarekatalogen laut. Weltweit gibt es sogenannte Archie-Server, die genau diese Funktion erfüllen. Die meisten Archie-Server sind inzwischen über WWW erreichbar, aber auch viele Suchdienste des WWW durchstöbern mittlerweile FTP-Server und bieten die Suche in diesen Softwarearchiven an.

E-Mail / Mailinglisten

Auf Briefköpfen und Visitenkarten sieht man es immer öfter das Sonderzeichen @, auch "Klammeraffe" genannt. Dieses Zeichen steht für das englische "at" und steht bei den meisten E-Mail-Adressen hinter dem Namen des Benutzers und vor dem Rechnernamen des elektronischen Briefkastens.
Wer eine E-Mail-Adresse besitzt, ist nicht nur von jedem Computer der Welt aus , auch off-line, erreichbar, er selbst kann von jedem Computer der Welt aus seinen Briefkasten kontrollieren und entleeren. E-Mail bietet neben einer schnellen und direkten Kontaktaufnahme mit Personen in der ganzen Welt auch die Möglichkeit z.B.:

Ein weiterer Vorteil von E-Mail ist der "File-Attach", das Mitsenden digitaler Daten. Formatierte Winword-Texte, farbige Grafiken, eingescannte Fotos, Videoclips und Sounddateien können per E-Mail versendet werden.

Um über E-Mail kommunizieren zu können, muß natürlich die E-Mail-Adresse des Kommunikationspartners bekannt sein. Ist dies nicht der Fall, so ist die Suche nach der richtigen E-Mail-Adresse nicht einfach, denn im Gegensatz zu den anderen Diensten ist das Sammeln von E-Mail-Adressen durch einen Suchdienst gar nicht bzw. nur eingeschränkt automatisierbar.
Deshalb werden im WWW immer größer werdende E-Mail-Kataloge mit Zusatzinformationen zu den jeweiligen E-Mail-Adressen von den Internet-Benutzern aufgebaut und gepflegt.

Newsgroups / FAQ

Bei Newsgroups handelt es sich um ein System von öffentlichen Schwarzen Brettern, die nach Themen bzw. Foren unterteilt sind und in ihrer Gesamtheit fast jedes denkbare Thema abdecken. Beim Gedankenaustausch der Teilnehmer werden insbesondere aktuelle Ereignisse diskutiert oder angekündigt.
Hervorgegangen ist das System aus den sogenannten Usenet News , die sich zunächst unabhängig vom Internet entwickelt haben. Es war ein System von mehreren tausend Rechnern weltweit, die die Beiträge der Teilnehmer zu den einzelnen Diskussionsforen untereinander austauschten. Heute wird zwar der größte Teil des Datentransfers über das Internet abgewickelt.

Um die riesige Menge an Foren übersichtlich zu strukturieren, sind die einzelnen Gruppen in hierarchische Kategorien aufgeteilt, was sich an ihren Namen ablesen läßt.

alt           alternative - Mischung aus allen Themen, die nicht    
              in eine der anderen Gruppen einzuordnen sind                                               
biz           business - Kommerzielle Themen                                         
comp          Computer-Themen (Software und Hardware)    
misc          miscellaneous - Verschiedene Themen, die sonst keine eigenen    
              Foren haben                         
news          Themen rund um das Newssystem selber                        
rec           recreational - Hobby und Freizeit                   
sci           scientific - wissenschaftliche Themen                        
soc           social - soziale und kulturelle Foren aus vielen Ländern der Welt

Es gibt noch eine Vielzahl weiterer Kategorien - die Namen sind meist selbsterklärend. Für deutsche Benutzer ist jedoch vor allem die .de-Kategorie interessant:

de            deutschsprachige Gruppen. .de wird den oben genannten Kategorien 
              vorangestellt (z.B. de.sci.chemie)

Einige Newsgroups werden von WWW-Suchdiensten abonniert und somit sind deren aktuelle Artikel bei der Suche nachweisbar.

In vielen Newsgroups gibt es eine sogenannte FAQ-Datei (Frequently Asked Questions). Diese Dateien beinhalten eine Sammlung der häufigsten Fragen und zugehörigen Antworten, die in der jeweiligen Gruppe gestellt wurden. Bevor ein Benutzer eine Frage an eine Newsgroup stellt, soll dieser die Möglichkeit haben, die häufigsten Fragen vorab in der FAQ-Datei zu lesen, damit die regelmäßigen Leser einer Gruppe nicht immer wieder mit den gleichen Fragen konfrontiert werden. Der Standort der FAQ-Dateien wird in regelmäßigen Abständen in der Gruppe veröffentlicht. FAQ-Dokumente sind im Internet aber auch zu vielen anderen Themen verfügbar, unabhängig von entsprechenden Newsgroups. Sie werden auf FTP-Servern, aber auch immer öfter über WWW zugänglich gemacht und sind somit über verschiedene WWW-Suchdienste auffindbar.

zurück zur Übersicht

1.2 Wer sind die Informationsanbieter?

Privatpersonen

Es werden eine Vielzahl von Privaten Home-Pages der Internetbenutzer angeboten. Diese enthalten meist Angaben zur Person, Adresse, E-Mail und sonstige Informationen. Zusätzlich werden auf Home-Pages auch mehr oder weniger umfangreiche Verweise und Informationssammlungen zu eigenen Interessensgebieten angeboten. Home-Pages sind oft in privaten Unterverzeichnissen von WWW-Servern zu finden und über ein Sonderzeichen "~" (Tilde) in der URL direkt ansprechbar und somit leicht zu erkennen.

Bsp.: "http://www.inf-wiss.uni-konstanz.de/~mustermann/"

Kommerzielle Organisationen / Firmen

Firmen aller Größen und Sparten präsentieren sich und ihre Produkte auf WWW-Seiten. Dabei gehen immer mehr Unternehmen dazu über, auch Anwendungen über Internet anzubieten. D.h. es können über Internet Bestellungen absolviert, Geschäfte transparent gemacht oder wie im Falle von einigen Direktbanken auch die komplette Kontoführung übernommen werden. Ein 24-Stunden-Service versteht sich dabei von selbst.
Die meisten Unternehmen haben eigene Server bzw. Domain-Namen und sind oft an diesem erkennbar.

Bsp: "http://www.ibm.com/", "http://www.microsoft.de/"

Universitäten, Institute und sonstige Forschungseinrichtungen

Über die WWW-Seiten von Universitäten stehen recht unfangreiche Informationen zu Studiengängen, Fakultäten, Forschungsprojekten und sonstigen für das Studium wichtigen Informationen bereit. Immer mehr wissenschaftliche Einrichtungen gehen dazu über, WWW-Bereiche und E-Mail-Accounts sowohl allen Mitarbeitern als auch Studenten kostenlos zur Verfügung zu stellen. Wissenschaftliche Publikationen, Berichte und Ergebnisse werden immer mehr auch von nicht-informatikbezogenen Bereichen über WWW zugänglich gemacht. Traditionell beinhalten FTP-Server von Universitäten eine große Anzahl an Public-Domain Software.
Deutsche Universitätsserver beinhalten meistens Universitätskürzel (uni, fu, tu, fh), amerikanische ".edu" in ihren Domain-Namen.
Bsp: "http://www.uni-konstanz.de/", "http://www.tu-berlin.de/", "http://www.berkeley.edu/"

Nicht-kommerzielle Organisationen

Politische Parteien und Regierungen, Umwelt- und Menschenrechtsorganisationen wie z.B. Greenpeace oder Amnesty International, diverse kirchliche Organisationen, Interessens- und Sportverbände bis hin zu kleinen Freizeitvereinen bieten ihre offiziellen Informationen über WWW an.
Dabei liegt das Informationsangebot von auf mehreren WWW-Servern, bei größeren Organisationen, bis in einfachen Home-Pages bei kleineren Interessensgebieten verteilt.

Bsp: "http://www.bundesregierung.de/", "http://www.greenpeace.org/", "http://www.amnesty.org/"

Medienanbieter und Anbieter kommerzieller Datenbanken

Traditionelle Vermittler von gedruckter und nicht-gedruckter Information wie Zeitungen, Verlage, Agenturen, Buchhandlungen, Radio- und Fernsehsender bieten ihre Produkte in bereits professionellem Design über das WWW an. Dabei wird oft auch die Möglichkeit gegeben, in Archiven zu stöbern, was früher nur bestimmten Personen möglich oder ansonsten recht schwierig war.

Datenbankanbieter, sogenannte Hosts, bieten schon seit längerem die Recherche in Tausenden von elektronischen Datenbanken aus allen Bereichen, mit bibliographischen Angaben (Autor, Titel, Thema, Verlag...) oder Volltext, online an. Auch hier war früher die Recherche wegen den technischen Zugangsmöglichkeiten, vor allem aber wegen den recht komplexen und unterschiedlichen Retrievalsprachen eher den professionellen Informationsvermittlern überlassen.
Über WWW-Seiten kann nun in den Datenbanken über komfortable Formulare direkt recherchiert werden. Anmeldung und Kosten für die Recherche in kommerziellen Datenbanken entfallen jedoch nicht.

Bsp: "http://www.ard.de/", "http://www.buchkatalog.de/", "http://www.fiz-karlsruhe.de", "http://www.genios.de"

Bibliotheken

Auch Bibliotheken bieten ihre Literaturkataloge seit einigen Jahren und schon vor dem WWW online an - die sogenannten OPACs (Online Public Access Catalogs). Aber auch hier gab es Hürden, wie z.B. verschiedene Retrievalsprachen und Benutzeroberflächen. Die einzelnen OPACs beinhalten auch jeweils nur den Bestand einer Bibliothek.
Der Gang der Bibliotheken an das WWW brachte nicht nur komfortablere und einfachere Oberflächen mit sich, sondern auch Verbunde mehrerer OPACs und die gleichzeitige Suche in diesen.

Bsp.: "http://www.bib-bvb.de/" - Bibliotheksverbund Bayern

zurück zur Übersicht


2 Suchverfahren im WWW

Über WWW sind die wichtigsten, oben beschriebenen, Internet-Dienste erreichbar. Dank vieler und verschiedenartiger Suchdienste, Gateways und vor allem auch der schier unendlichen Fülle von individuellen Tips, Hinweisen und Nachweisen auf persönlichen und institutionellen WWW-Seiten kann man davon ausgehen, daß sich der überwiegende Teil von Internet-Ressourcen über das WWW aufspüren läßt. So sind die nachfolgend beschriebenen Suchverfahren auf das WWW eingeschränkt, zumal traditionelle Internet-Suchverfahren sich immer mehr auf das WWW konzentrieren und daher in ihrer ursprünglichen Form immer mehr an Brauchbarkeit und Bedeutung verlieren.

2.1 Suche in lokalen WWW-Servern / Gateways zu Datenbanken

Die lokale Suche innerhalb eines WWW-Servers war eine der ersten Möglichkeiten, dem Benutzer die Suche nach relevanten Informationen im WWW zu ermöglichen. Dabei handelt es sich um eine einfache Stichwortsuche, die auf das Dokumentverzeichnis des lokalen WWW-Servers zugreift. Dieses einfache Suchverfahren war schon von den WWW-Entwicklern am CERN durch die Dokumentbeschreibungssprache HTML und das WWW-Übertragungsprotokoll HTTP vorgegeben. Das HTML-Element <ISINDEX> kennzeichnet dabei eine Suchmöglichkeit innerhalb des jeweiligen Dokuments. Es ist dann die Aufgabe des WWW-Browsers, innerhalb dieser WWW-Seite ein Eingabefeld für Suchbegriffe anzubieten. Die dort eingegebenen Suchbegriffe werden dann nach HTTP-Protokollspezifikation mit einem vorangehenden ,,?" und durch ein ,,+" voneinander getrennt an die Dokumentadresse angehängt. Wurden z.B. Hypertext und Information als Suchbegriffe eingegeben, so hängt der WWW-Client diese Suchbegriffe in seinem Request an die Dokumentadresse an: ,,http://host/suche?hypertext+information". Darauf sucht der WWW-Server in all seinen Dokumenten nach diesen Suchbegriffen und liefert eine Liste mit Verweisen, deren Dokumente die Suchbegriffe beinhalten, an den Client zurück.

Diese Suchmöglichkeit war in den Anfängen des WWW sicherlich ausreichend. Heutzutage beinhalten schon viele WWW-Server so eine große Anzahl an Dokumenten, daß eine einfache Stichwortsuche nur unbefriedigende Ergebnisse erzielt. Eine diesbezügliche Erweiterung von HTML und HTTP steht vorerst nicht zur Diskussion, so mußte man andere Wege zu besseren Suchverfahren finden.
Sollte die Suche also nicht nur auf Volltextsuche und einfache Suchoperatoren beschränkt sein, sondern auch Dokumentstruktur, bestimmte Felder (URL, TITLE...), Relevanzgrade usw. in die Suche miteinbezogen werden, so müssen zusätzliche Software-Komponenten in Verbindung mit Datenbanken auf der Server-Seite die Anfrageabarbeitung erledigen. Zum Zweck der Weitergabe von WWW-Requests an Programme auf dem Server gibt es die CGI-Schnittstelle (Common Gateway Interface). Dokumente, die Programme über CGI aktivieren und dem Benutzer einen bestimmten Dienst ermöglichen, werden auch als Gateway bezeichnet. Dabei werden Daten über HTML-Formulare in verschiedenen Eingabefeldern eingegeben und die Eingaben auf Server-Seite an Hintergrundprogramme über CGI weitergeleitet. Wird dieses Verfahren für die Suche nach WWW-Dokumenten verwendet, so können fast uneingeschränkt Suchhilfen über CGI-Programme implementiert und genutzt werden. Eine große Anzahl von WWW-Servern bieten inzwischen solch ein Gateway an, um dem Nutzer eine professionelle Suche nach lokalen Dokumenten zu ermöglichen.

Im Hinblick auf Information Retrieval allgemein werden über WWW-Gateways die Suchmöglichkeiten nicht alleine auf WWW-Dokumente beschränkt, gibt es schon viele Datenbankanbieter und Produzenten, die komfortable WWW-Schnittstellen zu ihren Datenbanken bieten. Das gleiche gilt für die Suche nach Literatur in Bibliotheken. Dabei wird ein Zugang zu verschiedenen Bibliotheksdatenbanken mit diversen literaturüblichen Suchfeldern (Autor, Verlag...) ermöglicht.

zurück zur Übersicht

2.2 Katalog- und verzeichnisbasierte Suche

Zusammenstellungen von Verweisen zu bestimmten Sachgebieten kennzeichneten den Beginn der globalen Suche im WWW. Die Entwickler des WWW bauten solch eine Zusammenstellung aus, um das WWW zu verbreiten, aber auch um diese Verbreitung mitzuverfolgen. Daraus entstand einer der umfangreichsten WWW-Kataloge, die WWW Virtual Library, die inzwischen auf mehrere Institutionen weltweit verteilt ist. Parallel dazu entstanden auch andere Kataloge großen Umfangs und dienten »lange« Zeit der WWW-Welt als beste globale Suchmöglichkeit.

Das Suchverfahren in Katalogen basiert auf der Navigation in hierarchisch aufgebauten Sachgebieten oder geographischen Listen bzw. Karten. Dadurch, daß nicht zu viele Dokumente auf einer Ebene sein dürfen, da sonst der Benutzer schnell das Interesse durch ein informationelles Überangebot verlieren könnte, sind die Organisatoren von Katalogen gezwungen, nach »guten« Startseiten (Home Pages) zu den einzelnen Themen zu suchen. So werden nur bekannte und themenrelevante WWW-Dokumente aufgenommen. Auf den Inhalt eines Katalogs kann man aber auch selbst Einfluß nehmen, indem über WWW-Formulare Verweise auf eigene Dokumente eingetragen oder Vorschläge gemacht werden können. Fast jeder Katalog bietet eine Rubrik »Home Pages« für Privatpersonen an, in dem beliebige Dokumentverweise erlaubt sind. In beiden Fällen erfolgen die Einträge manuell und die Aktualität sowie richtige Einordnung der Einträge hängt von den Eintragenden ab.

Kataloge eignen sich vor allem, wenn man zu einem gewissen Thema bzw. Sachgebiet einen Einstieg finden will ohne dabei ganz gezielt nach bestimmter Information zu suchen. Das Browsen des Benutzers in einem Katalog erlaubt auch Einblicke in ähnliche und benachbarte Themen (Serendipity), die beim Einstieg in neue Gebiete durchaus wünschenswert sind und bei der Stichwortsuche eher ausbleiben.

Aber auch WWW-Kataloge sind so umfangreich, daß die Navigation in diesen schwerfällig ist und Möglichkeiten zur schnellen Suche über Stichworte und Suchhilfen angeboten werden. Diese Stichwortsuche ist aber für den Benutzer meist sehr unzufriedenstellend, da die Suche nicht auf den Volltexten basiert, sondern nur über Inhalte des Titels und der Dokumentadresse gesucht wird. Die angebotenen Suchmethoden und -operatoren sind deshalb meist nur auf Boolesche Operatoren und eine Suchraumeingrenzung auf die einzelnen Katalogrubriken beschränkt.

Jedoch gibt es auch Kataloganwendungen, bei denen die Stichwortsuche eine größere Rolle spielt als die Navigation, wie z.B. bei E-Mail-Adressverzeichnissen. Abgesehen davon, daß die globale Suche hierbei nur über WWW-Kataloge bzw. Verzeichnisse möglich ist, da E-Mail-Adressen im Gegensatz zu Web-Seiten nicht automatisch abgefragt werden können, ist der Anwender weniger daran interessiert, in einem E-Mail-Verzeichnis zu navigieren, sondern eher über die Stichwortsuche die gewünschte E-Mail-Adresse herauszufinden.

zurück zur Übersicht

2.3 Roboterbasierte Suche / Suchmaschinen

Roboter, auch Spider, Wanderer oder Worm genannt, sind Programme, die entlang von WWW-Hypertextstrukturen Dokumente automatisch verarbeiten. Dabei wird ein Dokument geladen, der Inhalt analysiert und es werden referenzierte Dokumente rekursiv weiterverfolgt. Einige große Suchdienste haben über ihre Roboter schon große Teile des Webs abgearbeitet. Die zugehörigen Volltextindizes oder auch nur Teilindizes der Dokumente wurden in Datenbanken gespeichert. Diese Datenbanken bilden die Grundlage für die Suchmaschinen bzw. Such-Server, die inzwischen über Benutzerschnittstellen mit diversen Abfrageformularen die Suche nach WWW-Dokumenten ermöglichen.

Die Vorteile dieses Suchverfahrens liegen auf der Hand. Über Abfrageformulare, über die die meisten Suchmethoden und -operatoren angewendet werden können, kann der Benutzer weltweit nach Informationen suchen. Die Suchanfrage wird in einer üblicherweise angemessenen Zeit vom Suchserver abgearbeitet und das Ergebnis dem Benutzer in Form einer meist nach Relevanzgrad sortierten Trefferliste präsentiert. Teilweise werden zu den Treffern auch Teile des Originaldokuments oder automatisch generierte Abstracts sowie andere Zusatzinformationen hinzugefügt, die dem Benutzer helfen sollen, die Relevanzbestimmung zu erleichtern. Dieser kann dann direkt zu den Trefferdokumenten navigieren und von dort aus, falls nötig, über weitere Navigation die gewünschte Information erarbeiten. Die semantische Zusammengehörigkeit von WWW-Hypertexten oder die hierarchische Struktur, die WWW-Kataloge wenigstens ansatzweise wiedergeben, lassen roboterbasierte Suchdienste allerdings ganz außer acht.

Die ständigen Zugriffe der Suchmaschinen belasten natürlich auch weltweite WWW-Server. Die Belastung von WWW-Server durch Roboter hängt zum einem von der Anzahl Roboter und ihrer Zugriffshäufigkeit ab und zum anderem von der Strategie des Zugriffs. Dabei wird unterschieden, ob parallel auf mehrere Dokumente zugegriffen wird oder ob die WWW-Seiten sukzessive abgerufen werden. Tests haben ergeben, daß sich sowohl die eine oder andere Zugriffsstrategie bei WWW-Servern negativ auf die Performance auswirken kann. Natürlich spielen dabei auch weitere Faktoren eine Rolle, wie z.B. die Leistungsfähigkeit einer Server-Maschine und ob diese zusätzlich anderweitig genutzt wird. Immerhin gibt es die Möglichkeit, über den »Standard for Robot Exclusion« WWW-Server vor Roboterzugriffen zu schützen. Im Prinzip ist dies eine spezielle Datei im Serververzeichnis, über die Roboter erfahren, welche Dokumente bzw. Teile des Servers gelesen werden dürfen. Dies ist jedoch kein richtiger Zugriffsschutz, sondern eine Art Abmachung unter den Betreibern der Suchdienste.

Die Bekanntheit und Beliebtheit von Suchservern spiegelt sich in ihrem Zugriff wieder: Die bekanntesten Suchmaschinen bearbeiten bis zu 15 Millionen Anfragen pro Tag.
Die Verarbeitung und Aktualisierung einer stark wachsenden Anzahl von WWW-Dokumenten weltweit sowie die große Menge von Suchanfragen verlangen die höchsten Ansprüche an Hard- und Software des Suchservers. Meistens sind die Aufgaben in solch einem System auf mehrere in einem Netz verbundene Rechner verteilt. Dabei werden unterschiedliche Softwarekomponenten eingesetzt. Welche Programme dies konkret sind, ist von Dienst zu Dienst unterschiedlich. Als Hauptkomponenten kann man aber auf jeden Fall Roboter, Datenbank und die Anfragebearbeitung herausstellen.

Die Suchmaschinen sind zweifellos die weitaus meistbenutzten und komfortabelsten Suchdienste des Internet. Um diese richtig einzusetzen und damit einen hohen Nutzen daraus zu ziehen, bedarf es neben der Kenntnis und Anwendung der weiter unten beschriebenen Suchmethoden und -operatoren auch eines tieferen Einblickes in ihre Funktionsweisen. Dies ist vor allem wichtig, um sich bewußt zu machen, welche Internet-Dokumente nun tatsächlich von den Robotern erschlossen werden und welche nicht.

2.3.1 Funktionsweise von Suchmaschinen

Der technische Aufbau einer Suchmaschine soll hier beispielhaft anhand des Suchdienstes WebCrawler demonstriert werden:

Systemaufbau der Suchmaschine WebCrawler

Die Suchmaschine betrachtet das Web als riesigen gerichteten Graphen, wobei Knoten WWW-Dokumente und gerichtete Kanten die Verweise darstellen, die von einem Dokument ausgehen. Von einem bestimmten Knoten aus wird dann der Graph entlang den Kanten abgearbeitet.
Bei jedem so erreichten Dokument wird von der Suchmaschine eine lexikalische Analyse durchgeführt, bei der inhaltsrelevante Terme aus dem Dokument extrahiert und in der Datenbank (DB) abgelegt werden. Das Abrufen der WWW-Dokumente erledigen parallel laufende Agenten-Prozesse. Diese geben der Suchmaschine entweder das gewünschte HTML-Dokument oder eine entsprechende Fehlermeldung, warum auf das gewünschte WWW-Dokument nicht zugegriffen werden konnte. Ferner nutzen die Agenten den Katalog WWW Virtual Library für die Dokumentbesorgung.
Der Benutzer greift auf das System über den Suchserver (User-Interface) zu, der zwecks Anfragebearbeitung auf die von der Suchmaschine aufgebaute Datenbank zugreift.

Die Aufgaben einer Suchmaschine lassen sich grob in vier Teilaufgaben zerlegen: Akquisition, Indizierung, Aktualisierung und die Anfragebearbeitung. Im folgenden werden diese vier Teilaufgaben genauer beschrieben.

2.3.1.1 Akquisition

Um zu wissen, welche Internet-Dokumente von den Suchrobotern erreicht werden, ist es wichtig, die Akquisition der Dokumente näher zu betrachten.

Woher bekommen Suchmaschinen die Adressen der zu holenden Dokumente?

Welche Dienste können von Suchmaschinen erreicht werden?

Welche Problembereiche gibt es bei den erreichbaren Diensten?

Welche Bereiche werden von Suchmaschinen nicht erreicht?

2.3.1.2 Indizierung

Das Angebot von Suchmethoden und -operatoren ist in erster Linie von der Indizierung und der daraus resultierenden Datenbank abhängig. Dabei sind sowohl Analysemethoden als auch der Umfang der Indizierung der einzelnen WWW-Seiten von großer Bedeutung. Zur Dokumentanalyse werden von den verschiedenen Suchmaschinen diverse Methoden eingesetzt:

Auch im Umfang werden verschiedene Strategien verfolgt

Einige Suchmaschinen erlauben auch das Abfragen und Löschen der Datenbankeinträge eigener URLs.

2.3.1.3 Aktualisierung

Technisch gesehen ist beim Übertragen einer WWW-Seite ein für die Aktualisierung wichtiger Mechanismus im WWW-Protokoll vorhanden:

Bei der Aktualisierungsfrequentierung gibt es große Unterschiede in Art und Zeit bei den Suchmaschinen:

Nicht zugreifbare Dokumente, d.h. Seiten, die nach mehrmaligen Zugriffsversuchen nicht zugreifbar waren, werden von den meisten Suchmaschinen wieder gelöscht.

2.3.1.4 Anfragebearbeitung

Das Angebot an Funktionalität bei der Anfragebearbeitung ist natürlich abhängig von der Erschließung der Dokumente. Je besser die Analyse und Indizierung der Dokumente ist, desto umfangreicher ist das Angebot an Suchmethoden und -operatoren.
Die Benutzerschnittstelle ist nach der Funktionalität ausgerichtet und bei den meisten Suchmaschinen über verschiedene Stufen komfortabel bedienbar:

Für die Relevanzbeurteilung (Ranking) und die damit verbundene Sortierung der Treffermenge werden fast nur statistische Methoden verwendet:

Immer mehr Suchmaschinen gehen aber auch dazu über, die Popularität eines Dokuments beim Ranking zu bewerten. Je öfter ein Dokument über eine Suchmaschine nachgewiesen wird, desto höher wird dieses im Rankingverfahren bewertet.

Manche Suchmaschinen erlauben aber auch die Sortierung der Trefferliste nach anderen Kriterien wie Größe, Alter oder nach Servern. Die Sortierung nach Servern (Excite) bietet eine leichte Verbesserung der Relevanzbeurteilung für den Benutzer, da sich auf einem Server meist gleichartige Dokumente befinden. So genügt es oft, nur noch ein Dokument pro Server zu betrachten.

2.3.2 Tips für die Erstellung eigener WWW-Seiten

Um nicht nur professionell nach relevanten Informationen im WWW suchen zu können, sondern damit auch die eigenen WWW-Dokumente von anderen bei entsprechenden Suchbegriffen gefunden werden, werden nachfolgend einige Tips für die Erstellung von WWW-Seiten aufgeführt.
Vornweg soll aber darauf hingewiesen werden, daß die vielfache Wiederholung von Begriffen im TITLE- / META-Element (oder sonstigen Bereichen einer WWW-Seite, die vom Browser nicht angezeigt wird), auch »spamming« genannt, für die stärkere Gewichtung der Begriffe bei der Suche nichts (mehr) einbringt. Im Gegenteil! Viele bekannte Suchmaschinen sind inzwischen dazu übergegangen, solche Seiten nicht mehr in ihre Datenbanken zu speichern.

Tips für die Erstellung von WWW-Seiten:

 zurück zur Übersicht

2.4 Hybride Suchmaschinen

Der Begriff »Hybride Suchmaschinen« etabliert sich immer mehr für Suchdienste, die mehrere Suchverfahren vereinen. Dabei wird meist der (roboterbasierte) Suchraum mit einen Katalog kombiniert und die Suche durch Gateways zu anderen Informationsquellen erweitert:

zurück zur Übersicht  

2.5 Metasuchmaschinen (Multi-Search Engines)

Als Metasuchmaschine wird die Suche in mehreren Suchmaschinen, von einer WWW-Seite aus, bezeichnet. Wichtig dabei ist, daß die Suchmaschinen nur über ein einziges Suchformular angesprochen werden.
Fälschlicherweise werden aber auch WWW-Seiten mit einfachen Schnittstellen, d.h. mehrere Suchmasken verschiedener Suchmaschinen, als Metasuchmaschinen bezeichnet. Dies sind zwar keine »echten« Metasuchmaschinen, bringen aber trotzdem gewisse Vorteile:

Echte Metasuchmaschinen weisen folgende Charakteristiken auf:

Dabei werden zwei grundlegende Techniken unterschieden: Der sequentielle und der parallele (gleichzeitige) Zugriff auf mehrere Suchmaschinen:

Sequentielle Suche in mehreren Suchmaschinen

Parallele Suche in mehreren Suchmaschinen

Metasuchmaschinen eignen sich vor allem bei ganz speziellen Informationsproblemen, bei denen einzelne Suchmaschinen nur wenige Treffer aufweisen. Metasuchmaschinen sind aber auch meistens auf dem neuesten Stand und beinhalten ganz neue Suchmaschinen oder ganz spezielle Datenbanken, die man selbst sonst noch gar nicht kennt.

zurück zur Übersicht

2.6 Intelligente / Mobile Agenten

Mit dem Fortschreiten der weltweiten Vernetzung und der damit verbundenen steigenden Komplexität bedarf es neben den teilweise schon ausgereiften Suchdiensten auch der Erforschung und Entwicklung neuer Methoden zur Unterstützung der Nutzer für ein effizientes und zielgerichtetes Arbeiten im Internet.
In diesem Zusammenhang hört man oft den Begriff »Intelligente« oder »Mobile« Agenten. Diese weiterführenden Konzepte aus dem Bereich der Künstlichen Intelligenz versprechen eine weitere Professionalisierung des Umgangs mit dem Internet. Die aufgrund dieser Konzepte entwickelten intelligenten Agenten sind Programme, die Aufträge eines Benutzers oder eines anderen Programmes mit einem gewissen Grad an Eigenständigkeit und Unabhängigkeit ausführen und dabei Wissen über die Ziele und Wünsche des Benutzers anwenden.
Wenn auch momentan keine universell gültige und akzeptierte Definition des Begriffs »Agenten« existiert, gibt es doch einige Charakteristiken, die solche Agenten gemeinsam haben (sollten):

Als »Mobile Agenten« werden solche bezeichnet, die sich selbst mitsamt ihrem Code und ihrem inneren Zustand, d.h. mit den bis dahin von ihnen gesammelten Informationen, durch das Internet bewegen können. Die hier besprochenen Charakteristiken sind nicht notwendig mobil. Nicht alle mobilen Agenten benutzen Mittel der Künstlichen Intelligenz.

Beim heutigen Stand der Technik ist man bei der Realisierung der meisten hier genannten Eigenschaften intelligenter Agenten jedoch noch weit entfernt. Einige der Eigenschaften werden möglicherweise auch immer eine Utopie bleiben.
Der momentane Stand der Agententechnologie soll deshalb an zwei Beispielen existierender WWW-Agenten gezeigt werden:

Webhound (http://webhound.www.media.mit.edu/projects/webhound/)
Das am Media Lab des Massachusetts Institute of Technology entwickelte Projekt »Webhound«, auch Webdoggie genannt, stellt dem WWW-User einen persönlichen Document Filtering-Agent zur Verfügung, der auf Basis einer Analyse der Vorlieben des Users regelmäßig eine Empfehlung für neue WWW- Seiten gibt. Je größer die Datenbasis über die individuellen Präferenzen des Nutzers ist, desto treffender sind die Vorschläge von Webhound. Dabei wird eine Methode namens »Feature-Guided Automated Collaborative Filtering« angewendet, die die Präferenzen des Nutzers mit denen anderer User vergleicht und bei einer Übereinstimmung deren Empfehlungen an den Nutzer von Webhound weitergibt. Das System läuft als Client-Server-Architektur auf mehreren Rechnern im Internet und unterhält dort Datenbanken über die registrierten User, die auf Webhound entweder mittels eines WWW-Interfaces oder eines Webhound-Clients, der zusammen mit einem modifizierten XMosaic- 2.4-Browser auf dem eigenen Rechner installiert wird, zugreifen können.

BargainFinder (http://bf.cstar.ac.com/bf/)
BargainFinder wurde im Rahmen einer unter dem Titel "Smart Store Virtual" von der Arthur Andersen Consulting Group durchgeführten Studie erstellt und ist in der momentanen Form in der Lage, zu einem beliebigen eingegebenen CD-Titel das preisgünstigste Angebot bei den im Netz vertretenen Anbietern zu ermitteln.

(Dieser Abschnitt über Agenten stammt teilweise aus der Proseminar-Arbeit »WWW-Unterstützung durch intelligente Agenten« von Michael Rohs, TH-Darmstadt und aus dem Referat »Intelligente Software-Agenten in elektronischen Märkten« von Christof Abert, Uni-Frankfurt!)

zurück zur Übersicht


3 Suchoperatoren und Suchmethoden

Die Suchdienste des WWW bieten immer mehr und immer fortschrittlichere Methoden und Operatoren zur besseren und exakteren Suche an. Die verschiedenen Möglichkeiten sind meist bei den Hilfe-Funktionen der einzelnen Suchdienste ausführlich und mit Beispielen beschrieben. Nachfolgend werden Methoden und Operatoren erläutert, wie sie bei den meisten Suchdiensten in der einen oder anderen Weise, anwendbar sind.

3.1 Suchmodi

Einige Suchdienste bieten verschiedene Suchmodi an. Mit einfacher Suche (Simple Search) wird dabei eine triviale Stichwortsuche bezeichnet, die mögliche Angabe zusätzlicher Kriterien und Operatoren als erweiterte Suche (Extended oder Power Search).

Bsp.: Simple Search

Alta Vista

Search and Display the Results 

Bsp: Extended Search

Yahoo!


Yahoo Categories  Web Today's News  Net Events  All

exact match  keys AND  keys OR  person's name  default 
Max. Document age:  Matches/page:

3.2 Groß-/Kleinschreibung

Bei den meisten Diensten wird Groß-/Kleinschreibung nicht beachtet. Bei einigen Suchdiensten kann man die Unterscheidung bei Groß-/Kleinschreibung einstellen. Zum Beispiel wird nach Auftreten eines Großbuchstabens in der Suchanfrage die Schreibweise automatisch beachtet oder man muß das Wort in Hochkomma setzen.

Bsp:

Ultraseek

Type a specific question, phrase or Capitalized Name

3.3 Trunkierung

Mit Trunkierung bezeichnet man die Suche nach verschieden Wortvariationen. Meist ist wahlweise eine echte Teilwortsuche oder exakte Suche des Suchbegriffs einstellbar. Bessere Suchdienste erlauben auch die Benutzung des sogenannten *-Operators, sogar an mehreren Positionen eines Suchwortes.

Bsp:
"hand*" - sucht nach allen Worten, die mit "hand" anfangen: Hand, Handschuh, Handlung...
"ha*nd" - sucht nach allen Worten, die mit "ha" anfangen und mit "nd" enden: Haushund, halbrund, Hainbund...
"*hand" - sucht nach allen Worten, die mit "hand" enden: Treuhand...

3.4 Gewichtung

Einige Dienste bieten auch Gewichtung der Suchbegriffe an. Stärker gewichtete Suchbegriffe werden dann bei der Suche bevorzugt. Dabei variiert die Art der Angabe nach Häufigkeit des Auftretens eines Begriffs in der Suchanfrage bis zur Angabe eines Gewichtungsgrades.

Bsp.: Vergleich der Suche nach »hypertext einfuehrung« und »hypertext hypertext hypertext einfuehrung« :

Excite 

Search:
Where:

3.5 Boolesche Operatoren

AND, OR, NOT (auch AND NOT), bei manchen Diensten auch mit &, |, ! bzw. +, -, ~ geschrieben.
Mit AND verknüpfte Begriffe einer Suchanfrage liefern nur diejenigen Dokumente, in denen alle verknüpften Begriffe vorkommen.
Bei der OR-Verknüpfung werden alle Dokumente geliefert, die mindestens einen der verknüpften Begriffe beinhalten.
Mit NOT können Begriffe ausgeschlossen werden, d.h. Dokumente mit den NOT verknüpften Begriffen werden nicht angezeigt.
Die Anwendung Boolescher Operatoren ist von Dienst zu Dienst unterschiedlich, manche erlauben diese sogar mit Klammerung, andere aber nicht einmal Mischung der verschiedenen Operatoren.

Bsp.: Boolesche Operatoren beliebig anwendbar:

HotBot 

Search: for 

Return  results with 

Bsp.: Boolesche Operatoren nur beschränkt anwendbar (siehe "Art":)

Finde:
Ansicht:  Anzahl:  Art:  Sortierung: 

3.6 Phrasensuche und Abstandsoperatoren

Mit der Phrasensuche (auch ADJ-Operator) bezeichnet man die Suche nach der exakten Reihenfolge der angegebenen Suchbegriffe. Um eine Phrasensuche einzuleiten, müssen die Suchbegriffe meist in Hochkomma eingeschlossen sein.
Abstandsoperatoren, auch Proximity-Operatoren genannt, werden in diversen Formen unterstützt. Mit dem NEAR- oder FOLLOWED-BY-Operator werden die Suchbegriffe meist im Umkreis von 10 bis 100 Worten gesucht. Bei manchen Diensten kann man auch angeben, wie nahe (Anzahl Worte) die Suchbegriffe im Text auftreten müssen.

Bsp.: Vergleich der Suche nach »Bayern München« und der Phrasensuche nach »"Bayern München"«:

flipper

Suchbegriffe:
Ergebnisdokumente sollen  enthalten. 
Alle Dokumente sollen in  Sprache sein. 
Pro Ergebnisseite sollen  gefundene Dokumente angezeigt werden. 

Bsp.: Begriffe »hypertext« und »informationswissenschaft« in einer 20 Worte-Nähe

WebCrawler

Search in  for  matches/page

zurück zur Übersicht

3.7 Suchraumeingrenzung

Es werden von einigen Diensten verschiedene Eingrenzungen des Suchraums angeboten. Dabei kann der Suchraum auf verschiedene Bereiche eingegrenzt werden:

Bsp: Advanced Search von AltaVista

Alta Vista

Search  and Display the Results 
Selection Criteria:
Please use Advanced Syntax (AND, OR, NOT, NEAR).

Results Ranking Criteria: Documents containing these words will be listed first.

Start date:  End date:  e.g. 21/Mar/96

Suchraumeingrenzung über »Constraining searches« :

It is possible to restrict searches to certain portions of documents by using the following syntax. The keyword (link, title, image,...) should be in lower-case, and immediately followed by a colon. 

Constraining searches in Web pages:

title:"The Wall Street Journal" 
Matches pages with the phrase The Wall Street Journal in the title. 
anchor:click-here 
Matches pages with the phrase click here in the text of a hyperlink.
text:algol68 
Matches pages that contain the word algol68 in any part of the visible text of a page. (ie, the word is not in a link or an image, for example.) 
applet:NervousText 
Matches pages containing the name of the Java applet class found in an applet tag; in this case, NervousText
object:Marquee 
Matches pages containing the name of the ActiveX object found in an object tag; in this case, Marquee
link:thomas.gov 
Matches pages that contain at least one link to a page with thomas.gov in its URL. 
image:comet.jpg 
Matches pages with comet.jpg in an image tag. 
url:home.html 
Matches pages with the words home and html together in the page's URL. Equivalent to url:"home html"
host:digital.com 
Matches pages with the phrase digital.com in the host name portion of the URL. 
domain:fr 
Matches pages from the domain fr. There are few domain names: .com, .edu, .net, country codes (.fr is for France), and a few others.

Constraining searches in Usenet news articles:

from:napoleon@elba.com 
Matches news articles with the words napoleon@elba.com in the From: field. 
subject:"for sale" 
Matches news articles with the phrase for sale in the Subject: field. 
You can combine this with a word or phrase. For example, subject:"for sale" "victorian chamber pots"
newsgroups:rec.humor 
Matches news articles posted (or crossposted) in news groups with rec.humor in the name. 
summary:invest* 
Matches news articles with the word invest, investment, investiture, etc., in the summary. 
keywords:NASA 


Matches news articles with the word NASA in all caps in the keyword list. 

Bsp.:

HotBot 

Search: for 

Return  results with 

Suchraumeingrenzung über »Meta Words« :

These special search words can be added to queries to restrict search results in a number of ways. Most of these effects can also be achieved by using the controls on the HotBot page.

domain:[name] 
Restricts search to the domain selected. Domains can be specified up to three levels deep (com, intel.com, or support.intel.com). 
depth:[number] 
Restricts depth of pages retrieved. 
linkdomain:[name] 
Restricts search to pages containing links to the specified domain. For example, linkdomain:hotbot.com finds pages that point to HotBot.
linkext:[extension] 
Restricts search to pages containing embedded files with the specified extension. For example, linkext:ra finds pages containing RealAudio files. 
scriptlanguage:[language] 
Search for pages containing JavaScript or VBScript. 
newsgroup:[full newsgroup name] 
Restricts Usenet searches to articles that have been posted to the specified newsgroup. 
feature:[name] 
Limits your query to pages containing the specified feature. Most of these controls are also available under the Media Type menu. Name can be any of the following:

feature:embed 

Detects plugins. 

feature:script 

Detects embedded scripts. 

feature:applet 

Detects embedded Java applets. 

feature:activex 

Detects ActiveX controls or layouts. 

feature:audio 

Detects a range of audio formats. 

feature:video 

Detects a range of video formats. 

feature:shockwave 

Detects Shockwave files. 

feature:acrobat 

Detects Acrobat files. 

feature:frame 

Detects the use of frames in HTML. 

feature:table 

Detects the use of tables in HTML. 

feature:form 

Detects the use of forms in HTML. 

feature:vrml 

Detects VRML files. 

feature:image 

Detects image files (GIF, JPEG...). 

Date Meta Words 
The date meta words can be used to restrict query results to pages last modified within specific date ranges. Currently, they are special cased in the search engine and will only function correctly if used without pluses or minuses as a single term within a boolean clause. So (+cloning -sheep) AND within:8/months is OK, but +cloning -sheep) +within:8/months will not work.
after:[day]/[month]/[year] 
Restricts search to documents created or modified after the specified date (Example: currents AND after:30/6/96). 
before:[day]/[month]/[year] 
Restricts search to documents created or modified before the specified date (Example: "cyber crime" AND before:30/6/96). 
within:number/unit 


Restricts search to documents created or modified within the last specified time period (i.e. (pet +care) AND within:3/months). Units can be days, months, or years. 

3.8 Treffermengeneingrenzung

Die meisten Dienste bieten eine Eingrenzung durch Angabe einer Trefferanzahl pro Ergebnisseite an. Blätterfunktionen am Ende einer Ergebnisseite ermöglichen das Navigieren zu den anderen Trefferseiten.

3.9 Ranking

Alle Suchdienste berechnen Relevanzgrade, nach denen die Ergebnismenge sortiert ist. Die Berechnung basiert dabei meist auf statistischen Verfahren, d.h. Worthäufigkeit, Wortabstände usw.

3.10 Trefferanzeige

Die Treffer werden in Form einer nach Relevanz sortierten Verweis-Liste angezeigt (Ranking). Bei jedem Suchdienst werden zumindest URL`s und Dokumenttitel angezeigt. Die meisten Dienste präsentieren zusätzlich Ausschnitte, Kommentare oder Zusammenfassungen aus den Originaldokumenten sowie zusätzliche Angaben wie Erstellungsdatum, Größe usw. Meistens ist die Ausführlichkeit der Ergebnismenge stufenweise einstellbar. Das Ranking ist teilweise auch farbig oder graphisch aufbereitet.
Kataloge zeigen bei der Stichwortsuche auch die Katalog-Hierarchie der einzelnen Treffer an.

Bsp.: siehe Trefferanzeige nach folgender Suche:

Yahoo!

3.11 Treffer-Weiterverarbeitung

Im Gegensatz zu den Hosts der Online-Datenbanken ist die direkte Weiterverarbeitung einer Treffermenge auf Seite des Suchservers nicht möglich. Dies liegt daran, daß HTTP ein ,,zustandsloses" Protokoll ist, d.h. daß ein Server einen HTTP-Request in einem Ablauf abarbeitet und nach dem Verbindungsabbau keine Möglichkeit mehr bietet, auf diese Interaktion zurückzugreifen.
Trotzdem kann bei einigen Diensten eine Art Weiterverarbeitung bei einzelnen Treffern genutzt werden. Diese erlauben die weitere Suche nach ähnlichen Dokumenten eines Treffers oder die Anzeige aller Zeilen/Abschnitte eines Originaldokuments, in denen der Suchbegriff vorkommt.

Bsp: Suchabfrage starten und den Link »[More Like This]« bei einem interessanten Treffer verfolgen

Excite 

Search:
Where:

zurück zur Übersicht


4 Vorgehensweise bei der Suche

4.1 Ermittlung des Informationsbedürfnisses

Jede erfolgreiche Informationsrecherche im Internet erfordert eine gewisse Vorbereitung. Je mehr Aufmerksamkeit dieser Vorbereitung gewidmet wird, desto weniger Zeit braucht man bei der eigentlichen Suche.

4.2 Auswahl der richtigen Suchbegriffe

Bei der Suche über Stichworte, also hauptsächlich bei Suchmaschinen und speziellen Datenbanken, ist die geeignete Auswahl der Suchbegriffe entscheidend.

zurück zur Übersicht

4.3 Auswahl geeigneter Suchverfahren
 
Informationsbedürfnis

Suchverfahren

Allgemeines Interesse und Neugier. Überraschung und Zufall stehen im Vordergrund.

Surfen, also von interessanten Seiten aus Links weiterverfolgen
Spezielle Seiten mit interessanten Links zu aktuellen und populären Web-Seiten (Top 100, Cool Links, Wohin heute?, Top.deusw.) sind vor allem bei den Suchdiensten zu finden.

Ein erster Überblick über ein bestimmtes Thema. 

Man weiß nicht ganz genau, wonach bzw. mit welchen Begriffen man suchen soll (»anomalous state of knowledge«).

 1. Verzeichnisse /Kataloge:
Internationale Kataloge und Deutschsprachige Kataloge

2. FAQ-Listen / Posting-Archive und 
Spezielle Home-Pages 
zu dem bestimmten Thema 
(z.B. Java-Dienste, Software-Kataloge)

3. Sonstige Übersichten, z.B. :
Internationale Server-Listen/-Karten und Deutsche Server-Listen/-Karten

4. (Hybride) Suchmaschinen:
Internationale Suchroboter und Deutschsprachige Suchroboter

Ein konkretes Informationsproblem liegt vor. Man kennt die Suchbegriffe und es wird eine präzise Antwort erwartet.

 1. (Hybride) Suchmaschinen: 
Internationale Suchroboter und Deutschsprachige Suchroboter

2. Metasuchmaschinen
3. Spezielle Kataloge, z.B.:
E-Mail Adressensuche
Internationale Yellow Pages und Deutschsprachige Gelbe Seiten
Software-Kataloge und Java-Dienste
Sonstige Suchmöglichkeiten

4. Spezielle Home-Pages zu einem bestimmten Thema und, falls möglich, eine lokale Suche in diesen.
5. Gateways zu speziellen Datenbanken (Online-Markt) (z.B. bei FIZ-Karlsruhe)

Man möchte laufend über ein Thema informiert werden, z.B. Nachrichten über eine Firma, Aktienkurse, Wetter usw.

 Bookmarks sorgfältig organisieren und pflegen!
Einschlägige Newsgroups lesen.

Eintragen in Mailinglisten (Über WWW Listen finden und dann per E-Mail anmelden) bzw. Teilnahme an Diskussions-Foren


Überwachung bestimmter Seiten über Überwachungsdienste (http://www.netmind.com/), d.h. bei jeder Änderung der Seite bekommt man eine E-Mail.

Einige WWW-Dienste ermöglichen Anmeldungen über Formulare, um laufend über ein Thema informiert zu werden 


Elektronische Journale / E-Zines

4.4 Durchführung der Recherche und Relevanzbeurteilung

Damit bei der Durchführung der Recherche die oben genannten Vorbereitungen gezielt umgesetzt werden können, sollten noch einige Punkte beachtet werden:

Die Treffer der jeweiligen Suchdienste sollten zur Relevanzbeurteilung in möglichst aussagekräftiger Form angezeigt und schon vor dem Laden der Treffer analysiert werden:

zurück zur Übersicht