CARMEN
  AP 1
  AP 2/5
  AP 4
  AP 6
  AP 7
  AP 9
  AP 11
  AP 12
AG Metadaten
AG Retrieval
AG Heterogenität
ECAC
   

CARMEN-AP 11: Heterogenitätsbehandlung bei textueller Information verschiedener Datentypen und Inhaltserschließungsverfahren

Partner

J. Krause Interessen-
bekunder Autoren/Leser
Universität Koblenz, Institut für Informatik/ InformationsZentrum Sozialwissenschaften Bonn jk@mail.bonn.iz-soz.de 0228/ 2281 -145
J. Plümer
R.Schwänzl
Vorprojekt Autoren/Leser Fachbereich
Mathematik/Informatik
Universität Osnabrück
judith@
roland@
mathematik.uni-osnabrueck.de
0541/ 969 -2526
-2531
F. Geißelmann Bibliothek Fachhochschule/Universität Regensburg Friedrich.Geisselmann@
bibliothek.uni-regensburg.de
0941/ 943 -3900
Kontaktadresse
Prof. Dr. Jürgen Krause
InformationsZentrum Sozialwissenschaften (IZ)
Lennéstr. 30
D-53113 Bonn
Tel: 0228/2881-145
Fax: 0228/2881-120
E-Mail: jk@mail.bonn.iz-soz.de


Keywords

Content analysis, indexing, text retrieval, heterogeneity handling, mathematics, social sciences

Abstract

Scientists or users of informational services are presently confronted with a decentralized and highly heterogeneous space of documents in a different stage of content analysis and relevance: e.g. books in libraries with intellectually choosen keywords or databases offering automatically generated keywords. Using intelligent transfer moduls for example on the base of crossconcordances of thesauri and classifications or statistical and deductive methods one achieves a semantically and pragmatically more precise relation between the documents. On this basis a higher quality in resource discovery is expected. The work package will build an examplary model for documents in mathematics and social sciences being sure that the necessary transfers between them highly depend on the subject of the documents. Mathematics and social sciences appear to be representative for different kinds of scientific subjects.

I. Ziele: Gesamtziel des Vorhabens, Bezug zu den förderpolitischen Zielen
(Einordnung in das Basispapier von CARMEN und State of the Art)

Benutzer informationeller Dienste stehen heute einem hochgradig dezentralisierten und heterogenen Dokumentenraum mit unterschiedlichster Inhaltserschließung gegenüber.

Generell können überall auf der Welt Gruppen auftreten, die zu Spezialgebieten Informationen gesammelt haben. Eine Folge hiervon sind die unterschiedlichsten Konsistenzbrüche. Relevante, qualitätskontrollierte Daten stehen neben irrelevanten und eventuell nachweislich falschen. Kein Gutachtersys tem sorgt für eine Trennung von Ballast und potentiell erwünschter Inf ormation.

Ein Deskriptor A kann in einem solchen System die unterschiedlichsten Bedeutungen annehmen. Auch im engen Bereich der Fachinformation kann ein Deskriptor A, der aus einem hochrelevanten Dokumentenbestand, mit viel Aufwand intellektuell und qualitativ hochwertig ermittelt wurde, nicht mit dem Term A gleichgesetzt werden, den eine automatische Indexierung aus einem Randgebiet liefert.

Der Benutzer wird trotz solcher Probleme auf die verschiedenen Datenbestände zugreifen wollen, gleich nach welchen Verfahren sie erschlossen oder in welchem System sie angeboten werden. Er hält auch in der Welt dezentralisierter, inhomogener Datenbestände die Forderung an die Systementwickler aufrecht, dafür zu sorgen, daß er möglichst nur die relevanten Dokumente und möglichst alle relevanten bekommt, die seinem Informationsbedürfnis entsprechen.

Das Basispapier von CARMEN geht davon aus, daß Algorithmen zur Behandlung dieser Heterogenität neben Metadatenaktivitäten eine wichtige Voraussetzung für Informationssysteme im Rahmen von Global-Info sind und daß hierfür aufeinander abgestimmte Transfermodule, die die Unterschiede zwischen einzelnen Datentypen eines Fachgebiets bewerten und entsprechende Veränderungen des Matchprozesses zwischen Benutzerabfrage und Datengrundlage vornehmen, einen adäquaten Rahmen bilden. Ganz gleich, wie erfolgreich die Einführung von Metadaten in einem Fachgebiet sein wird, die verbleibende Heterogenität der verschiedenen Arten der Inhaltserschließung wird zu groß sein, um sie zu vernachlässigen.

Grundlage für den Aufbau eines aufeinander abgestimmten Modells intelligenter Transferkomponenten sind empirisch analysierte semantische Unterschiede und Beziehungen in Datenbeständen, die integriert abfragbar sein sollen. Ein Beispiel ist der Abstand zwischen einem textuellen Ausdruck und einem formell markierten, also intellektuell festgelegten Metadatum. Diese Relation läßt sich auch für die automatische Ermittlung von Metadaten aus Texten nutzen. Als Wissensquellen hierfür können verschiedene Heuristiken dienen (z.B. basierend auf Bestandteilen der Titelseite, Kodierungseigenschaften von Präsentationsformaten).

Die Funktion der automatischen Ermittlung von Metadaten verspricht immer dann eine Verbesserung der Retrievalleistung, wenn eine Metadatenkonvention wie der DC generell in einem Fachgebiet akzeptiert und angewandt wird, jedoch auch einzelne Textdatenbestände oder einzelne Dokumente in die integrierte Suche miteinbezogen werden sollen, bei denen das Metadatum fehlt, z.B. weil ein spezieller Autor den Mehraufwand für den DC scheut, einzelne DC-Einträge fehlerhaft bearbeitet oder vergessen hat.

Systeme, die relevante wissenschaftliche Literatur in Spezialbereichen erschließen sollen, stehen generell vor dem Problem, daß Metadaten nur partiell zur Weiterverarbeitung zur Verfügung stehen. Auch ergeben sich Variationen in der Anwendung von Standards, die abgefangen werden müssen. Es ist wichtig durch unscharfe Handhabung von Dokumententypisierung in Metadaten entstehende Rauscheffekte durch negative Filter (Fehlen für den Dokumenttyp zu erwartender typischer semantischer Schlüssel) nach Möglichkeit zu entfernen. Interessantes Testmaterial bieten Daten mathematischer Originalarbeiten.

- Wissenschaftliche und technische Arbeitsziele des Vorhabens
(Ziele und Produkte des Arbeitspaketes)

  • In einem ersten Schritt werden die verschiedenen in einem Anwendungsfeld auftretenden Datentypen nach den unterschiedlichen Niveaus der Datenrelevanz und Inhaltserschließung empirisch analysiert, um Art und Umfang der verbleibenden Heterogenität zu erfassen und aus ihnen Hinweise für eine algorithmische Verbesserung der Ausgangssituation zu erhalten.

  • Die Datenbestände verschiedenen Typs werden danach durch Transferkomponenten aufeinander bezogen und der Versuch gemacht, partiell fehlende Metadaten mit der gleichen Methodik zu erschließen. Bei textuellen Dokumenten kann der Transfer im konzeptuell einfachsten Fall durch Crosskonkordanzen bzw. -klassifikationen z.B. zwischen Bibliotheksklassifikation und Thesauruseinträgen eines InformationsZentrums erfolgen. In dieser Richtung arbeitet AP 12 . Die Ergebnisse von AP 12 werden in die Architektur von AP11 integriert.

  • Neben den Crosskonkordanzen und -klassifikationen sollen deduktive sowie quantitativ-statistische Verfahren (Clustering, probabilistische Verfahren, neuronale Netze etc.) als automatische Methoden der Konsistenzerhöhung angewandt, angepaßt und ggf. weiterentwickelt werden.



Die Transferkomponenten werden sich im quantitativ-statistischen Bereich auf die generellen Algorithmen zur Vagheitsbehandlung stützen [7] und auf die entsprechende Algorithmen im Information Retrieval [9, 2]. Deduktive Komponenten finden sich beim Intelligenten Information Retrieval [1, 4], bei intelligenten Recherche systemen wie OSIRIS [8] und im Bereich der Expertensysteme.

Generell wissen wir noch sehr wenig über den richtigen Aufbau eines integrierten Systems von Transferkomponenten zur Heterogenitätsbehandlung von Texten. Methodisch kann partiell auf die Erfahrungen des Projekts ELVIRA zurückgegriffen werden (cf. [3]), das den Transfer zwischen Zeitreihendaten und textueller Information im Rahmen eines Verbandsinformationssystems untersucht (gefördert vom BMWI). Als gesichert kann gelten, daß sich die Lösungen in verschiedenen Anwendungsfeldern deutlich voneinander unterscheiden werden. Deshalb sollen für verschiedene Anwendungsfelder mögliche Verfahren zur Heterogenitätsbehandlung systematisch analysiert und exemplarisch in prototypische Lösungen umgesetzt werden.

Im Arbeitspaket werden schwerpunktmäßig behandelt:

  • aus mathematischen Originalarbeiten extrahierte SOIF-Objekte: Interessantes Testmaterial bieten Daten, die seit Mitte 1996 an der Universität Osnabrück aus frei zugänglichen mathematischen Originalarbeiten gewonnen werden. In diesem Zusammenhang ist ansatzweise daran zu denken, zur Reduktion von Rauscheffekten auf das Fehlen von "Keyphrases" wie Satz, Theorem, Lemma, Proposition, Beweis, Proof etc. zu prüfen.

  • sozialwissenschaftliche Daten: Verbindung von Internetquellen mit den Datenbanken SOLIS/FORIS auf dem STN Host. Die Transferkomponenten sollen unter Einbeziehung des Clearinghouse der GESIS entwickelt werden.


Als technische Arbeitsziele sind die Entwicklung qualitativ-deduktiver und quantitativ-statistischer Transferalgorithmen zur Heterogenitätsbehandlung sowie ein spezielles Modul zur automatischen Extraktion von Metadaten vorgesehen. Dieses Modul kann (unter anderem) im Rahmen von CARMEN im AP 7 zur Extraktion von Metadaten aus schwach strukturierten Dokumenten eingesetzt werden.

Wir versprechen uns durch die Bearbeitung von Materialien aus sachlich entfernteren Wissenschaftsgebieten bessere Transfermöglichkeiten auf das Gesamtspektrum wissenschaftlichen Materials.

II. Stand der Wissenschaft und Technik, bisherige Arbeiten

Das Transferproblem läßt sich allgemein als Vagheitsproblem modellieren. Hierfür sind im Information Retrieval verschiedene Problemlösungsstrategien vorgeschlagen worden wie z.B. probabilistische Verfahren, Fuzzy Ansätze und neuronale Netze [vgl. 10,7], die sich auf die Transferproblematik anwenden lassen. Quantitativ-statistische Verfahren dieser Art benötigen Trainingsdaten, bei denen einzelne Dokumente nach zwei Begriffsschemata erschlossen oder bei denen zwei unterschiedliche und unterschiedlich erschlossene Dokumente in Beziehung gesetzt sind. Welches Verfahren sich als erfolgversprechend erweist, läßt sich nur empirisch auf der Basis der Daten klären, wobei die TREC-Evaluationen [vgl. 9] den allgemeinen Hintergrund bilden werden.

Für deduktive Zusammenhänge, die sich aus empirischen Untersuchungen am Textmaterial ergeben, kann auf Techniken aus dem Bereich der Expertensysteme zurückgegriffen werden. Für CARMEN relevante Ansätze finden sich beim Intelligenten Information Retrieval [1,2,4], bei intelligenten Recherchesystemen wie OSIRIS [8] und im Bereich der Expertensysteme [vgl. 2].

Generell wissen wir noch recht wenig über den richtigen Aufbau eines integrierten Systems von Transferkompomenten zur Heterogenitätsbehandlung von Texten [5,6]. Sicher ist nur, daß sich die Lösungen in verschiedenen Anwendungsfeldern und abhängig von den zu integrierenden Dokumententypen deutlich unterscheiden werden. Deshalb müssen die möglichen Transferkomponenten systematisch am Textmaterial analysiert und exemplarisch in prototypische Lösungen umgesetzt werden. Erste Erfahrungen hierzu enthält [3]. Sie basieren auf Ergebnisse des Projekts ELVIRA, das den Transfer zwischen Zeitreihendaten und textueller Information für ein Verbandsinformationssystem untersucht. Um hier dem Benutzer eine optimale Unterstützung des Rechercheprozesses ohne Neuformulierung ihrer Anfragen auf den jeweils anderen Datentyp zu ermöglichen, wird der Abgleich zwischen Anfrage und Dokument mit einem Backpropagation-Verfahren auf der Basis eines Neuronalen Netzwerkes durchgeführt (COSIMIR-Modell [7]).

Informationsrecherche und weitere Arbeiten des Antragstellers in Anlage

Literatur/Eigene Arbeiten

  1. N. Belkin:
    Intelligent Information Retrieval: Whose Intelligence?
    Krause/Herfurth/Marx (Hrsg.): Herausforderungen an die Informationwirtschaft, S. 25-31, Konstanz, (1996).
  2. N. Fuhr, N. Gövert, T. Rölleke:
    DOLORES: A System for Logic-Based Retrieval of Multimedia Objects.
    Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, (1998).
    ( http://amaunet.cs.uni-dortmund.d e/ir/reports/98/ )
  3. H. Hellweg, J. Krause, A. Schaefer, M. Stempfhuber:
    ELVIRA II: Entwicklung eines integrierten benutzerfreundlichen Marktinformationssystems.
    Arbeitsbericht ELVIRA, Bonn, (1999).
  4. P. Ingwersen:
    The Cognitive Framework for Information retrieval: A Paradigmatic Perspectiv e
    Krause/Herfurth/Marx (Hrsg.): Herausforderungen an die Informationswirtschaft, S. 65-78, Bonn, (1999).
  5. J. Krause:
    Informationserschließung und -bereitstellung zwischen Deregulation, Kommerzialisierung und weltweiter Vernetzung - Schalenmodell, Bonn, (1996).
  6. J. Krause:
    Innovative current research information systems in the information society.
    Vortrag auf der CRIS'98 - Current Research Information Systems in Europe, Luxembourg, (1998).
    ( http://www.cordis.lu/cybercafe/src/krau se.htm )
  7. T. Mandl:
    Vague Transformation in Information Retrieval, (1998).
  8. Osiris, (1997)
    ( http://www.ub.uni-osnabrueck.de/acco unt.html )
  9. E.M. Vorhees, D.K. Harman (Hrsg.):
    Information Technology: The Seventh Text REtrieval Conference (TREC-7), NIST Special Publication 500-242, July 1999.
  10. C. Womser-Hacker:
    Das MIMOR-Modell: Mehrfachindexierung zur dynamischen Methoden-Objekt-Relationierung im Information Retrieval, Regensburg, (1996).


 

III. Ausführliche Beschreibung des Arbeitsplans

Arbeitsplan

Personenmonate  
Bonn Osnabrück Arbeiten
3 2 Ermittlung State of the Art und Auswertung der Ergebnisse aus partiell vergleichbaren Projekten

Um Doppelarbeit zu vermeiden, muß der zur Zeit des Projektantrags vorh andene Wissensstand kontinuierlich weitergeführt und präzisiert werden . Neue Mitarbeiter machen sich mit der Ausgangslage vertraut.

2 4 Konkrete Festlegung und Aufbereitung der polyzentrisch verteilten Daten bestände, die in einem Fachgebiet recherchierbar sein sollen.

Beschreibung und technische Analyse der verteilten Datenbestände (Formate, Schnittstelle, Software) aus drei Fachgebieten: Mathematik, Physik und Sozialwissenschaften mit Festlegung der postulierten Metadaten.

Aufbau von Testbeständen, die der späteren Evaluation dienen.

Ermittlung typischer Fragestellungen und Benutzerwünsche

4 2 Ausgangsanalyse der verbleibenden Heterogenität in den einzelnen Dokumentenbeständen bei integrierter Recherche.

Die Analyse erfolgt exemplarisch anhand einzelner Dokumente der verschiedenen Datentypen und anhand von Expertenrecherchen. Die verteilten Datenbanken werden getrennt abgefragt, intellektuell modifiziert und die Ergebnisse intellektuell an einzelnen Dokumenten verifiziert. Die Analyse ergibt erste Hinweise auf die einzusetzenden Verfahren und ihre Reichweite für die Transfermodule und das Modul zur automatischen Ermittlung von Metadaten.

3 1 Erster softwaretechnischer Entwurf eines Netzes aufeinander abgestimmter Transfermodule.

Die erfolgversprechendsten Verfahren für die einzelnen Transfermodule werden spezifiziert und ihr Zusammenwirken festgelegt. Dies erfolgt in Abstimmung mit der Retrievalkomponente AP7 und AP 12. Notwendige Schnittstellen werden definiert

9 4 Softwaretechnische Realisierung einfacher Transfermodule; erste Stufe Modul automatische Metadatenerzeugung.

Die Entscheidung über die zu verwendete Grundsoftware zur Realisierung der Module wird koordiniert mit AP 7. Die Module werden realisiert und ausgetestet.

2 0 Benutzertests der bisherigen Ergebnisse

Exemplarische Tests mit fortgeschrittenen Benutzern mit Analyse der Ergebnisse und Weiterentwicklungsvorschlägen

1   Technische und konzeptuelle Integration der Crosskonkordanzen/-klassifikationen von AP12

Aller Voraussicht nach werden die Ergebnisse von AP 12 auch als Vorstufe oder Sonderkondition für die in AP 11 entwickelten Verfahren integriert. Daraus sich ergebende Komplikationen sind zu erwarten und lassen sich erst nach Fertigstellung einer vorläufigen Version von AP 12 lösen.

3 0 Zusammenspiel der Transfermodule mit und Integration einzelner Heterogenitätsregeln in die Retrievalkomponente

Das Zusammenspiel von Transferkomponenten und dem im AP7 entwickelten Recherchealgorithmus läßt sich erst nach der empirischen Analyse und dem Vorliegen der Nutzertests endgültig festlegen. Es wird zudem von den Detailfestlegungen von AP 7 beeinflußt. Zu erwarten ist jedoch, daß einzelnen Heterogenitätsanforderungen besser direkt in der Retrievalkomponente mitbehandelt werden. Deshalb ist eine enge Abstimmung mit AP7 erforderlich.

Gleichzeitig soll sichergestellt werden, daß Transfermodule zur Heterogenitätsbehandlung auch mit einer Standardretrievalkomponente wie der von Oracle oder Fulcrum eingesetzt werden können.

9 4 Realisierung einiger komplexerer Transfermodule (zweite Stufe Heterogenitätsbehandlung)

Die zweite Stufe der - aus Kapazitätsgründen nur exemplarisch durchführbaren - Entwicklung von Transfermodulen wird voraussichtlich durch das Zusammenspiel mehrerer Lösungsstrategien, vom Einsatz fachgebietsspezifischer - evtl. dynamisch veränderbarer - Heuristiken und durch die Verwendung von Hintergrundwissen geprägt sein. Eine genauere Präzisierung setzt Ergebnisse von AP 9 voraus.

2 0 Benutzertests:

Exemplarische Tests mit fortgeschrittenen Benutzern mit Analyse der Ergebnisse und Weiterentwicklungsvorschlägen

4 2 Weiterentwicklung aller Transfermodule und des Moduls zur automatischen Metadatengenerierung.

Zweite Stufe des softwaretechnischen Entwicklungszyklus von Carmen, der die in den Benutzertests ermittelten Schwachstellen beseitigt und Anregungen der Benutzer aus den Benutzertests aufgreift.

2 2 Endtest durch Anfänger und fortgeschrittene Benutzer der Fachgebiete; Qualitätskontrolle.
1 1 Abstimmung von AP 9 mit AP 11; Betreuung bei der Übernahme von Algorithmen
1   Abstimmung von AP12 (Crosskonkordanzen/-klassifikationen) mit AP 11; Betreuung bei der Übernahme von Algorithmen
2 2 Abschlußbericht und Präsentation der Ergebnisse auf Tagungen und durch Publikationen

IV. Verwertungsplan in Anlage

V. Arbeitsteilung/Zusammenarbeit mit Dritten
(Organisationsform)

Die Koordination des Arbeitspaketes liegt beim IZ Bonn.
Die UB Regensburg ist in beratender Funktion tätig.
Die Entwicklung des Extraktormoduls erfolgt in Zusammenarbeit des IZ mit dem Fachbereich Mathematik/ Informatik der Universität Osnabrück.


VI. Notwendigkeit der Zuwendungen
(Förderbedarf)

Aus dem Arbeitsplan ergibt sich der folgende Förderbedarf:

Die Laufzeit dieses Arbeitspaktes soll zwei Jahre betragen.

  • Personalmittel:
    • InformationsZentrum Sozialwissenschaften: 1 BAT 2A W
    • Universität Osnabrück: 1 / 2 BAT 2A W
  • Reisemittel:
    • InformationsZentrum Sozialwissenschaften: 3000 DM/Jahr
    • Universität Osnabrück: 1000 DM/Jahr
    • Universität Regensburg: 1000 DM/Jahr
Balkenplan siehe Anlage
 
 

 


InformationsZentrum Sozialwissenschaften, Robert Strögen
15.05.2000