| Metadaten im Web: Die Spider-Plugin-Architektur |
Home |
Previous: Anwendung und Kommandozeilenoptionen
Up: Spider.py
Next: rdfBridge.py
Die Spider-Plugin-Architektur
Das Spider-Programm ist im Prinzip beliebig durch Plugins erweiterbar. Hiebei handelt es sich um eigenständige Programme, welche sich im Spider-Plugin5.2 Verzeichnis befinden und beim Start vom Spider-Hauptprogramm initialisiert werden.
Dies geschieht, indem das Hauptprogramm alle Programme mit der Dateiendung .splug im SPIDER_PLUGIN Verzeichnis mit der Option -info aufruft.
Diese liefern ein Array mit allen von ihnen unterstützten Dateiendungen zurück, welches über die Python-Funktion marshal.dumps in eine für den Spider direkt verwendbare interne Darstellung übersetzt wird, sodass Parser-Klassen zwischen den einzelnen Programmmodulen nicht notwendig sind.
Beim eigentlichen Scanvorgang, vergleicht der Spider die Dateiendung der eingelesenen Dateien mit der Liste der von Plugins registrierten Dateitypen und führt das jeweils zuständige Plugin mit der Option -triples und dem Dateinamen der zu analysierenden Datei aus.
Das Plugin generiert somit die benötigten Metadaten, legt diese im Triple Format ab und übergibt die Daten mit Hilfe von marshal.dumps wieder an das Spider-Hauptprogramm, welches die erhaltenen Datentriples in eine XML/RDF Darstellung konvertiert und abspeichert.
Das Triple Format entspricht den Vorgaben in Lassila und Swick (1999) (vergleiche dazu auch Abschnitt 3.4.1), wobei die Triple in Form eines Arrays der Dimension 3 und in der Reihenfolge
Subjekt, Prädikat, Objekt
abgespeichert werden.
Previous: Anwendung und Kommandozeilenoptionen
Up: Spider.py
Next: rdfBridge.py
© 2001, 2002, Albert Weichselbraun betreut von Walter Ebner,
Diplomarbeit,
Abteilung für Informationswirtschaft,
Wirtschaftsuniversität Wien.
Letzte Änderung: 29. 1 2002, 12:47
View Metadata