Deduktiv-heuristische Verfahren zur automatischen Metadatengenerierung

Ausgangssituation

Polyzentrische Informationsmengen

Lösungsstrategie

Methodenkatalog

Testkorpus Sozialwissenschaften
Umfang: ca. 2350 Dokumente (von ca. 50 versch. Einrichtungen):
Themen:
Migration: 1600 (21)
Frauenforschung: 500 (10)
Industrie-/Betriebssoziologie: 250 (18)
Quelle: Clearinghouse Sozialwissenschaften
Dokumenttypen: keine Einschränkungen (Projektbeschreibungen, Literaturangaben, Institutionsprofile, Konferenzthemen, Zeitschrifteninhaltsverzeichnisse, Vorlesungsverzeichnisse u.ä.)
Dateiformate: keine Einschränkungen (HTML, PDF, RTF)

Methodische Probleme
Problem: Welche Internetseiten bilden eine inhaltlich abgeschlossene Einheit?
Beschränkung auf End-URLs, die eine inhaltliche Beschreibung einer wissenschaftlichen Aktivität darstellen
Problem: End-URLs nicht zwingend vollständige Beschreibung der Aktivität
Bewahrung der Kontext-Information, d.h. Speicherung der jeweiligen Startseite

Probleme automatischer Metadatengenerierung
Fehlende oder uneinheitliche Verwendung von Meta-Tags (author, keywords, DC-Tags)
Inkonsistente Verwendung inhaltsbeschreibender HTML-Tags (title, h1, h2, address etc.)
Uneinheitliche Formatierungen inhaltsrelevanter Angaben (Schriftgrad, Fett, zentriert etc.)
Fehlende Kontextinformationen (Datum, Autor, Institution u.ä.)

Beispiel “Dokumenttitel”
Kennzeichnung des Dokumenttitels in 16 untersuchten Texten:
<HEAD> < TITLE>: 5
<H1> - <H3>: 3
<BODY> <TITLE>: 1
TABLE DATA: 3
EMPHASIS: 1
keine besondere Kennzeichnung: 3

Beispiel “Dokumenttitel”

Beispiel “Dokumenttitel”
<HEAD>
   <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
   <META NAME="Author" CONTENT="Jasmin Touati">
   <TITLE>Inhalt Heft 2/1999</TITLE>
</HEAD>
<BODY TEXT="#004F00" BGCOLOR="#FFFFDB" BACKGROUND="graphs/gelbfempol.gif" LINK="#006600" VLINK="#A80000" ALINK="#FF8080">
<A NAME="Anfang"> </A>
<NOBR><FONT FACE="Comic Sans MS"><FONT COLOR="#000000"><FONT SIZE="+4"> femina
politica</FONT></FONT></FONT></NOBR>

Ausblick
Systematische Analyse des Gesamtkorpus
Deduktiven Ansatz zur Metadatengenerierung auf Tragfähigkeit prüfen
Gewichtungen einsetzen