TheO
Eine Anwendung von DesIRe und Harvest-NG
Stefan Kokkelink
Fb Mathematik/Informatik
Universität Osnabrück

Gliederung
Harvest-NG
Workflow
Konfiguration
Summariser
TheO: Testumgebung für Harvest-NG und DesIRe
DesIRe: Übersicht
Konfiguration
Suchmaske

Harvest

Harvest-NG - Merkmale
Entwickelt im Projekt Tardes - University of Edinburgh (http://www.tardis.ed.ac.uk/harvest/ng/)
Funktionalität der Gatherer-Komponente von Harvest
Abwärtskompatibel zu Harvest
Übersichtliches Software-Desing durch objektorientierte Programmierung
Ausführlich dokumentierter Quellcode
Komplett in Perl5 geschrieben

Gatherer - Workflow

Gatherer - Konfiguration

Der Gatherer

Notwendige Erweiterungen

XML/RDF-Erweiterung

Gewünschte Funktionalität
Extraktion von eingebetteten Metdaten (z.B.  aus HTML, PDF, Word)
Extraktion von Metadaten durch Layoutanalyse (z.B. Autor, Titel) bei PDF,PostScript und Word.
Automatische Klassifikation des Inhalts und des Dokumententyps von Dokumenten
allgemeiner: automatische Generierung bzw. Anreicherung von Metadaten

Der (momentane) HTML-Summariser
<?xml version="1.0" encoding="utf-8"?>
<description about="http://elib.uni-osnabrueck.de/dissertations/kmk.html">
     <manageData>
        <last-modified>Wed, 24 Jun 1998 13:57:21 GMT</last-modified>
        <md5>fbe99b68629c9cc12cc04e17e505b8b0</md5>
     </manageData>
    <metaElements>
       <meta name="dc.creator">Karl Mustermann</meta>
       <meta name="dc.title" lang="ger"> Beschluß der KMK</meta>
    </metaElements>
    <full-text>Beschluß der KMK KMK (Kultusministerkonferenz)-Empfehlung vom 30.10.1997 Grundsätze für die
    </full-text>
</description>

Anwendung des Prototyps: TheO
Konfiguration der Gatherer-Komponente
Konfiguration von DesIRe
Demonstration

Gatherer-Konfiguration: Beispiel Osnabrück
<RootNode>
   URL http://elib.Uni-Osnabrueck.DE/dissertations/
  <Prefilter>
  Depth 3
  Hosts  1
  </Prefilter>
</RootNode>

DesIRe

DDL(1): Füllen der Datenbank
<description about="http://elib.uni-osnabrueck.de/dissertations/kmk.html">
    ...
    <metaElements>
       <meta name="dc.creator.personalname">Karl Mustermann</meta>
       ...
    </metaElements>
</description>

DDL(2): Die Headline
....
<element name="Creator">
    <element name="Name">
       <query query="/description/metaElements/meta
                                [@name='dc.creator.personalname']"/>
    </element>
</element>
....

TheO - Theses Online
Indexiert 29 Standorte in Deutschland, davon 15 Standorte mit MetaDaten
(Triviale) Heterogenitätsbehandlung durch Wrapping-Mechanismen für MetaDaten
Realisiert durch Harvest-NG Gatherer und DesIRe