G.E.I. KRAMER & HOFMANN mbH - Unternehmenspräsentation

Aktuell

Standpunkt

Profil

Produkte

Test u. Demo

Referenzen

Lob

Kontakt

Anreise

Hinweise

Impressum

SiteMap

Startseite

InfoCrawler 3000

vorhergehende Seite - nachfolgende Seite

Aufbau des InfoCrawlers 3000 - Beschreibung

URL-Datenbank und Katalogfunktion

Am Anfang steht die Erfassung der Internet- oder Intranetadressen, die Sie recherchierbar anbieten möchten. Das geschieht beim InfoCrawler 3000 mit Hilfe einer Datenbank. Hier werden die Adressen eingegeben und diese können dabei gleichzeitig kommentiert und kategorisiert werden. Diese Adressen bilden die Grundlage der Suchmaschine, denn aus dieser Datenbank heraus wird zum einen die URL - Liste erzeugt, nach welcher der eigentliche Webcrawler die Internetseiten scannt und zum anderen auch die Katalogfunktion der Suchmaschine unterstützt.

Diese Datenbank kann manuell oder auch von den Nutzern der Suchmaschine online erweitert werden. Dies kommt ganz darauf an, wie man die vielfältigen Möglichkeiten handhaben möchte. Die schnellste Variante besteht aus einer einfachen ASCII-Datei mit den URL-Adressen, die man recherchieren möchte. Die komfortabelste Lösung entsteht aus der URL-Datenbank, wenn neue Internetadressen und Beschreibungen des jeweiligen Internetangebotes online eingepflegt werden können.

Crawling mit Sinn und Verstand

Anhand der Liste mit den zu scannenden Internet- oder Intranetadressen tritt der Webcrawler in Aktion. Er besucht die adressierten Webseiten und legt die Informationen auf einem Rechnersystem ab.
Der Crawler ist sehr vielfältig einstellbar. Man kann zum Beispiel festlegen,
- wie groß die maximale Rekursionstiefe sein darf,
- wieviele Versuche unternommen werden eine Seite zu laden,
- welche Zeit zwischen zwei Versuchen vergehen soll,
- welche URLs und Verzeichnisse vom Crawling ausgeschlossen sein sollen (Negativliste),
- wie mit Zeitstempeln zu verfahren ist (beim ersten Crawling erfasste Dateien, die inzwischen nicht geändert wurden, müssen beim nächsten Crawling nicht nochmals geladen werden).
- wie groß die zu ladenden Dateien und welcher Art sie sein dürfen etc.
Die Einstellmöglichkeiten sind nahezu unbegrenzt.
Nachdem der Webcrawler seine Arbeit beendet hat, tritt ein Konvertermodul in Aktion, das die eigentliche Suchmaschinen - Datenbank mit den gescannten Informationen versorgt. Nach der Erstellung der Indizes steht ein komplette Datenbank zur Recherche zur Verfügung.

Die Datenbank - Recherchieren wie die Profis

Die Daten liegen nun in der Datenbank vor und sind somit mit den vom PFS 3000 und InterHost 3000 bekannten Recherchemöglichkeiten recherchierbar.

Die Datenbank besitzt folgende Datenfelder	Die Datenbank besitzt folgende Suchfelder

Inhalt der Datei (TXT, HTML, RTF, PDF als reine Textdatei) Laufende Nummer (wird vom System bei der Konvertierung automatisch vergeben) Eingangsdatum (wird vom System bei der Konvertierung automatisch eingetragen) Protokoll (http, ftp) URL der Seite Titel (Text der zwischen den title-Tags der HTML Seite steht) Inhalt der Meta-Tags (description, keywords, author) Lokaler Pfad der Datei Größe der Datei	Volltext-Index (Einzelbegriffe aus allen Textfeldern) Dateityp (html, pdf, txt, doc etc)) Datum der letzten Aktualisierung Meta-Tags Hosts Toplevel-Domänen (.de, .at, .com, etc.)

Zurück zur Übersicht

vorhergehende Seite - nachfolgende Seite