Aktuell 
 Standpunkt 
 Profil 
 Produkte 
 Test u. Demo 
 Referenzen 
 Lob 
 Kontakt 
 Anreise 
 Hinweise 
 Impressum 
 SiteMap 
 Startseite 

 © 1996-2003
 G.E.I. KRAMER & HOFMANN mbH
 Kleinblittersdorf
  InfoCrawler 3000       






 
  
vorhergehende Seite - nachfolgende Seite

Aufbau des InfoCrawlers 3000 - Beschreibung

URL-Datenbank und Katalogfunktion

Am Anfang steht die Erfassung der Internet- oder Intranetadressen, die Sie recherchierbar anbieten möchten. Das geschieht beim InfoCrawler 3000 mit Hilfe einer Datenbank. Hier werden die Adressen eingegeben und diese können dabei gleichzeitig kommentiert und kategorisiert werden. Diese Adressen bilden die Grundlage der Suchmaschine, denn aus dieser Datenbank heraus wird zum einen die URL - Liste erzeugt, nach welcher der eigentliche Webcrawler die Internetseiten scannt und zum anderen auch die Katalogfunktion der Suchmaschine unterstützt.

Diese Datenbank kann manuell oder auch von den Nutzern der Suchmaschine online erweitert werden. Dies kommt ganz darauf an, wie man die vielfältigen Möglichkeiten handhaben möchte. Die schnellste Variante besteht aus einer einfachen ASCII-Datei mit den URL-Adressen, die man recherchieren möchte. Die komfortabelste Lösung entsteht aus der URL-Datenbank, wenn neue Internetadressen und Beschreibungen des jeweiligen Internetangebotes online eingepflegt werden können.

Crawling mit Sinn und Verstand

Anhand der Liste mit den zu scannenden Internet- oder Intranetadressen tritt der Webcrawler in Aktion. Er besucht die adressierten Webseiten und legt die Informationen auf einem Rechnersystem ab.
Der Crawler ist sehr vielfältig einstellbar. Man kann zum Beispiel festlegen,
- wie groß die maximale Rekursionstiefe sein darf,
- wieviele Versuche unternommen werden eine Seite zu laden,
- welche Zeit zwischen zwei Versuchen vergehen soll,
- welche URLs und Verzeichnisse vom Crawling ausgeschlossen sein sollen (Negativliste),
- wie mit Zeitstempeln zu verfahren ist (beim ersten Crawling erfasste Dateien, die inzwischen nicht geändert wurden, müssen beim nächsten Crawling nicht nochmals geladen werden).
- wie groß die zu ladenden Dateien und welcher Art sie sein dürfen etc.
Die Einstellmöglichkeiten sind nahezu unbegrenzt.
Nachdem der Webcrawler seine Arbeit beendet hat, tritt ein Konvertermodul in Aktion, das die eigentliche Suchmaschinen - Datenbank mit den gescannten Informationen versorgt. Nach der Erstellung der Indizes steht ein komplette Datenbank zur Recherche zur Verfügung.

Die Datenbank - Recherchieren wie die Profis

Die Daten liegen nun in der Datenbank vor und sind somit mit den vom PFS 3000 und InterHost 3000 bekannten Recherchemöglichkeiten recherchierbar.

Die Datenbank besitzt folgende Datenfelder Die Datenbank besitzt folgende Suchfelder
  
  • Inhalt der Datei (TXT, HTML, RTF, PDF als reine Textdatei)
  • Laufende Nummer (wird vom System bei der Konvertierung automatisch vergeben)
  • Eingangsdatum (wird vom System bei der Konvertierung automatisch eingetragen)
  • Protokoll (http, ftp)
  • URL der Seite
  • Titel (Text der zwischen den title-Tags der HTML Seite steht)
  • Inhalt der Meta-Tags (description, keywords, author)
  • Lokaler Pfad der Datei
  • Größe der Datei
  • Volltext-Index (Einzelbegriffe aus allen Textfeldern)
  • Dateityp (html, pdf, txt, doc etc))
  • Datum der letzten Aktualisierung
  • Meta-Tags
  • Hosts
  • Toplevel-Domänen (.de, .at, .com, etc.)


Zurück zur Übersicht

vorhergehende Seite - nachfolgende Seite