|
|
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
|
InfoCrawler 3000 |
| |
| |
|
| |
vorhergehende Seite - nachfolgende Seite 
Aufbau des InfoCrawlers 3000 - Beschreibung
URL-Datenbank und Katalogfunktion
Am Anfang steht die Erfassung der Internet- oder Intranetadressen, die Sie recherchierbar anbieten möchten.
Das geschieht beim InfoCrawler 3000 mit Hilfe einer Datenbank. Hier werden die Adressen eingegeben und diese können
dabei gleichzeitig kommentiert und kategorisiert werden. Diese Adressen bilden die Grundlage der Suchmaschine, denn
aus dieser Datenbank heraus wird zum einen die URL - Liste erzeugt, nach welcher der eigentliche Webcrawler die
Internetseiten scannt und zum anderen auch die Katalogfunktion der Suchmaschine unterstützt.
Diese Datenbank kann manuell oder auch von den Nutzern der Suchmaschine online erweitert werden. Dies kommt ganz
darauf an, wie man die vielfältigen Möglichkeiten handhaben möchte. Die schnellste Variante besteht aus einer
einfachen ASCII-Datei mit den URL-Adressen, die man recherchieren möchte. Die komfortabelste Lösung entsteht aus der
URL-Datenbank, wenn neue Internetadressen und Beschreibungen des jeweiligen Internetangebotes online eingepflegt
werden können.
Crawling mit Sinn und Verstand
Anhand der Liste mit den zu scannenden Internet- oder Intranetadressen tritt der Webcrawler in Aktion.
Er besucht die adressierten Webseiten und legt die Informationen auf einem Rechnersystem ab.
Der Crawler ist sehr vielfältig einstellbar. Man kann zum Beispiel festlegen,
- wie groß die maximale Rekursionstiefe sein darf,
- wieviele Versuche unternommen werden eine Seite zu laden,
- welche Zeit zwischen zwei Versuchen vergehen soll,
- welche URLs und Verzeichnisse vom Crawling ausgeschlossen sein sollen (Negativliste),
- wie mit Zeitstempeln zu verfahren ist (beim ersten Crawling erfasste Dateien, die inzwischen nicht geändert
wurden, müssen beim nächsten Crawling nicht nochmals geladen werden).
- wie groß die zu ladenden Dateien und welcher Art sie sein dürfen etc.
Die Einstellmöglichkeiten sind nahezu unbegrenzt.
Nachdem der Webcrawler seine Arbeit beendet hat, tritt ein Konvertermodul in Aktion, das die eigentliche
Suchmaschinen - Datenbank mit den gescannten Informationen versorgt. Nach der Erstellung der Indizes steht ein
komplette Datenbank zur Recherche zur Verfügung.
Die Datenbank - Recherchieren wie die Profis
Die Daten liegen nun in der Datenbank vor und sind somit mit den vom PFS 3000 und InterHost 3000 bekannten
Recherchemöglichkeiten recherchierbar.
| Die Datenbank besitzt folgende Datenfelder |
Die Datenbank besitzt folgende Suchfelder |
| | |
- Inhalt der Datei (TXT, HTML, RTF, PDF als reine Textdatei)
- Laufende Nummer (wird vom System bei der Konvertierung automatisch vergeben)
- Eingangsdatum (wird vom System bei der Konvertierung automatisch eingetragen)
- Protokoll (http, ftp)
- URL der Seite
- Titel (Text der zwischen den title-Tags der HTML Seite steht)
- Inhalt der Meta-Tags (description, keywords, author)
- Lokaler Pfad der Datei
- Größe der Datei
|
- Volltext-Index (Einzelbegriffe aus allen Textfeldern)
- Dateityp (html, pdf, txt, doc etc))
- Datum der letzten Aktualisierung
- Meta-Tags
- Hosts
- Toplevel-Domänen (.de, .at, .com, etc.)
|
Zurück zur Übersicht
vorhergehende Seite - nachfolgende Seite 
|
|
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
 |
|