Probleme mit Material aus der Mathematik
SOIF
RDF
MSC
PostScript

Content
Mathematik interne Heterogenität:
MSC1991 --- MSC2000
Formale Heterogenität:
Unterschiedliche MetaDatenformate
Fehlende MetaDaten
Zusammenspiel zwischen Mathematik und Physik
MSC --- PACS

Anwendungen
MPRESS:
Weltweiter Preprint Index
40.230 Dokumente total
8.927 MSC klassifizierte Dokumente
22.683 Dokumente mit MetaDaten (Autor)
Dokumente ohne MetaDaten sind in Layout orientierten Formaten gespeichert (PostScript, PDF)

MPRESS / MathNet.preprints

Anwendungen
Verknüpfung von MPRESS und PhysDoc (AP9)
Verbesserung der Gatherer Komponente der Harvest Software (AP7)
Verbesserung der Inhaltserschließung von Verlagsmaterialien in ELib (AP6)

Probleme
...innerhalb der Mathematik
Änderung der MSC

Probleme
...durch Einführung neuer MetaDaten Formate
Neue Version des MMM

MMM erzeugt RDF

MMM: Eingabe der MSC

MetaDaten: HTML META

MetaDaten: RDF

RDF - graphisch

Probleme
...fehlender MetaDaten
zugrunde liegendes Format ist graphisch orientiert (PostScript, PDF)
Bestimmung der Autoren
Bestimmung des Fachgebietes (bis zur Klassifikation nach MSC)

Beispiel für PostScript

Behandlung von PostScript
Analyse von existierenden PostScript Summarizern
nach Schriftgröße und Font
nach Wortlisten
Test von Clustering Verfahren zur Klassifizierung nach MSC

Mathematik --- Physik
MPRESS enthält 178 Dokumente, die sowohl nach MSC, als auch nach PACS klassifiziert sind
Analyse
wo kommen diese Dokumente her
welche Klassifikationen kommen vor
Erstellung eines Werkzeugs für Konkordanzen (Zusammenarbeit mit AP12)

Zusammenfassung
Unterschiedliche Formate: Konverter
(MAJOUR, RDF, HTML Meta, + Variationen)
Unterschiedliche Versionen: Konverter
Wandlung von Klassifikationen
Unterschiedliche Tiefe der Struktur: Graphische Analyse, Clusteringverfahren
(PostScript)
fachübergreifendes Material: empirische und theoretische Konkordanz (PACS, MSC)

Stand der Arbeiten (AP9)
Extraktion von Dokumenten, die sowohl nach MSC, als auch nach PACS klassifiziert sind
Aufbereitung der so entstandenen empirischen Konkordanz
Erstellung von Konvertern zur Generierung von Spielmaterial
Analyse von Werkzeugen zur verteilten Suche auf XML Schnittstellen

Stand der Arbeiten (AP11)
Aufbau einer DB2 Datenbank zum Vorhalten von Spielmaterial
Auswahl von Spielmaterial aus der Mathematik (MPRESS/ELib)
Analyse von PostScript Summarizern
Erstellung des MMM
Analyse theoretischer Ansätze zum Clustering