Automatische Indexierung

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen

Die automatische Indexierung ist ein Methode, mit der einer dokumentarischen Bezugseinheit von einem Computer Deskriptoren zugeordnet werden können. Daneben gibt es noch die intellektuelle (manuelle) und die computergestützte Indexierung.

Grundlagen und Verfahren

Automatische Indexierung bezeichnet den computergestützten Prozess der Analyse und Zuordnung von Deskriptoren zu Dokumenten. Ziel ist es, Inhalte strukturiert aufzubereiten, um eine effiziente Informationssuche und -retrieval zu ermöglichen. Im Gegensatz zur intellektuellen Indexierung, die durch Fachpersonen manuell durchgeführt wird, erfolgt die automatische Indexierung mithilfe von Algorithmen und maschineller Verarbeitung (Kuhlen et al., 2023, S. 171).

Voraussetzungen und Anwendung

Die automatische Indexierung setzt die Verfügbarkeit von maschinenlesbaren Texten voraus, beispielsweise in Form digitaler Dokumente oder Volltextdatenbanken. Sie findet Anwendung in zahlreichen Bereichen:

  • Suchmaschinen: Indexierung von Webseiten zur Optimierung von Suchergebnissen.
  • Bibliotheken und Archiven: Automatisierte Erschliessung von digitalisierten Büchern und Dokumenten.
  • Wissenschaft und Forschung: Verarbeitung und Kategorisierung grosser Mengen an Publikationen, insbesondere in spezialisierten Bereichen wie Medizin oder Technologie (Franke-Maier et al., 2021, S. 71).

Verfahren der automatischen Indexierung

Es existieren verschiedene Verfahren, die sich in ihrer Komplexität und Genauigkeit unterscheiden:

Freitextverfahren

Alle Wörter eines Textes werden in den Index aufgenommen. Häufig werden Stoppwortlisten eingesetzt, um inhaltsleere Wörter wie Artikel oder Präpositionen auszuschließen. Während diese Methode leicht umzusetzen und für große Textmengen geeignet ist, leidet sie unter einem hohen Anteil irrelevanter Treffer, da keine semantische Analyse erfolgt (Kuhlen et al., 2023, S. 174).

Der Index kann hierbei nach vollen bzw. trunkierten Wortformen durchsucht werden. Durch Trunkierungssymbole werden Teile des Wortes isoliert, es können dann Wörter gesucht werden, in denen der übrig gebliebene Wortteil enthalten ist.
Diese Symbole können, je nach Anwendung, unterschiedlich aussehen (z.B. "?" oder "*") und vor, nach oder in der Mitte eines Wortes gesetzt werden.

Beispielsweise „Atlas“:
man möchte andere Formen dieses Wortes berücksichtigen und schreibt „atla?“, erhält dann u.a. „Atlasse, Atlassen, Atlanten“ aber auch „Atlantik“.

Dieses Beispiel macht deutlich, dass durch dieses Verfahren auch viel Ballast produziert werden kann (Atlantik = Ballast).
Dem Problem des Ballastes versucht das Morphologisch-lexikalische Verfahren gerecht zu werden.

Um die Indexdatenbank jedoch möglichst schlank halten zu können, also die Zahl der Deskriptoren zu reduzieren und somit die Bearbeitungszeit zu verringern (sowohl bei der Erstellung als auch bei der Suchanfrage), löscht man aus dem Index so genannte Stoppworte (inhaltsleere Wörter) heraus.

Dieses Verfahren ist relativ einfach zu implementieren, aber (abgesehen von trunkierten Wortformen – wenn im Suchsystem implementiert) nicht sehr "intelligent".

Morphologisch-lexikalische Verfahren

Diese Verfahren führen Wörter auf ihre Grund- oder Stammformen zurück (Lemmatisierung oder Stemming). Sie ermöglichen die Erkennung von Synonymen und verwandten Begriffen durch Computerlexika. Anwendungen umfassen die Textanalyse in Suchmaschinen oder digitalen Archiven (Franke-Maier et al., 2021, S. 93).

Morphosyntaktische Verfahren

Hierbei werden Satzstrukturen analysiert, um Beziehungen zwischen Wörtern zu identifizieren. Diese Methode ermöglicht die Erkennung von Mehrwortdeskriptoren, wie beispielsweise „künstliche Intelligenz“, und erhöht die Präzision der Indexierung. Der Nachteil liegt im höheren Rechenaufwand und der komplexeren Implementierung (Kuhlen et al., 2023, S. 178).

Deutlich aufwendiger als das morphologisch-lexikalische Verfahren ist das morphosyntaktische Verfahren. Es ist allerdings auch - abgesehen vom semantischen Verfahren - das qualitativ hochwertigste Verfahren. Hierbei werden Texte geparst (auf Wort- und Satzebene analysiert) und eine komplette Repräsentation des Textes wird angelegt. Damit ist dann auch die Analyse von Mehrwortdeskriptoren möglich. Teilweise können auch Abhängigkeiten zwischen mehreren Deskriptoren erkannt werden, z.B.:

  1. Auf Entschädigung hatte der Kläger keinen Anspruch.
  2. ... Entschädigung. Einen Anspruch darauf hat der Kläger nicht.
  3. Das Gericht verneinte einen Anspruch des Klägers auf Entschädigung.

Nur eine satz- oder sogar textlinguistische Analyse kann die entsprechenden Bezüge identifizieren, z.B. über eine Dependenzanalyse. Die Dependenz- oder Valenzgrammatik geht davon aus, dass v.a. Verben, aber auch Substantive und Adjektive über Valenzen andere Satzkonstituenten an sich binden können. Für das Beispiel 3. bedeutet dies z. B., dass der Begriff "auf Entschädigung" nicht an das Verb "verneinen" gebunden wird, weil dieses keine entsprechende Valenz hat. Dafür hat aber "Anspruch" eine solche Valenz, so dass folgendes Ergebnis ermittelt wird:

Anspruch (des Klägers; auf Entschädigung)

Hieraus liessen sich die Mehrwortdeskriptoren "Anspruch des Klägers" und "Anspruch auf Entschädigung" generieren.

Syntaxanalysen führen recht schnell zu unverhältnismäßig aufwendigen und komplexen Lösungen, ohne eine wirklich entscheidende Verbesserung der Indexierung leisten zu können.

Semantische Analyse

Das Ziel dieser Verfahren ist es, die inhaltliche Bedeutung eines Textes zu verstehen und relevante Deskriptoren zuzuweisen. Methoden wie Latent Semantic Analysis (LSA) oder neuronale Netze werden eingesetzt. Diese Ansätze erreichen eine hohe Genauigkeit bei der Identifikation von Kontext und Bedeutung, sind jedoch auf umfangreiche Rechenressourcen und große Trainingsdatensätze angewiesen (Franke-Maier et al., 2021, S. 137).

Eine semantische Analyse wäre beispielsweise von Vorteil, wenn ein Sachverhalt von mehreren Personen beschrieben wird. Erläutern verschiedene Nutzer den gleichen Sachverhalt, wählen sie dafür unterschiedliche Formulierungen. Die sogenannten Rollenindikatoren trennen hier mit Hilfe der semantischen Analyse Subjekt, Objekt und Handlung von den Deskriptoren. Ein und derselbe Sachverhalt kann je nach Situation ganz verschieden formuliert werden, sollte aber, um diesen Sachverhalt abfragen zu können, in eine einzige schlüssige semantische Repräsentation überführt werden. Zum besseren Verständnis folgt hier ein Beispiel aus dem virtuellen Handbuch der Informationswissenschaft, das ursprünglich in der DIN 31 623 Teil 3 aufgeführt wurde:

"Der Einsatz von Pferden zum Schleppen von Baumstämmen"

Die Formulierung dieses Sachverhalts kann fast beliebig variiert werden:

Pferde schleppen Baumstämme
Pferde können Baumstämme schleppen
Baumstämme können von Pferden geschleppt werden
das Schleppen von Baumstämmen durch Pferde
Pferde, die Baumstämme schleppen können

Im Grunde handelt es sich immer um den gleichen Sachverhalt:

Rollenindikator Deskriptor
Subjekt (Handelnder) Pferd
Handlung Schleppen
Objekt Baumstamm








Es gibt Forschungsansätze wie z.B. AIR-PHYS von der TH Darmstadt oder CTX der informationswissenschaftlichen Fakultät der Universität des Saarlandes. Alle haben jedoch ähnliche Probleme wie z.B.: hoher Aufwand für die Lexikonpflege, Mehrdeutigkeiten, Performanceprobleme, Bedienungsprobleme, etc. Das Produkt PASSAT von Siemens findet bereits erfolgreichen Einsatz.

Thesaurusrelation
Auch Thesauri werden bei der automatischen Indexierung angewendet. Durch sie werden die semantischen Beziehungen verschiedener Begriffe zueinander festgehalten. Das heißt, dass auch Begriffe, die nicht im Text stehen, aber trotzdem das Dokument sehr gut beschreiben, als Deskriptoren zur Verfügung stehen können.

Quellen

  • Franke-Maier, M., Kasprzik, A., Ledl, A., & Schürmann, H. (Hrsg.). (2021). Qualität in der Inhaltserschließung. Walter de Gruyter GmbH. https://doi.org/10.1515/9783110691597
  • Kuhlen, R., Lewandowski, D., Semar, W., & Womser-Hacker, C. (Hrsg.). (2023). Grundlagen der Informationswissenschaft. Walter de Gruyter GmbH. https://doi.org/10.1515/9783110769043
  • DIN 31 623 "Indexierung zur inhaltlichen Erschließung von Dokumenten"
  • Knorz, G. (1994), Automatische Indexierung. In: Hennings, R.-D.; Knorz, G.; Manecke, H.-J.; Reinicke, W.; Schwandt, J.: Wissensrepräsentation und Information Retrieval. Universität Potsdam, Informationswissenschaft, Modellversuch BETID, Lehrmaterialien Nr. 3, Kapitel 4, S. 138 - 196. Online verfügbar unter: http://fiz1.fh-potsdam.de/volltext/fhdarmstadt/03003.html last visited 5.11.05
  • Knorz, G. (2004): Informationsaufbereitung II: Indexieren. In: Kuhlen/Seeger/Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation, Kap B5, S. 179-188
  • Luckhardt, Heinz-Dirk: Automatisches und intellektuelles Indexieren: Virtuelles Handbuch der Informationswissenschaft, Abschnitte 0.-3.4.2. Online verfügbar unter: http://is.uni-sb.de/studium/handbuch/exkurs.ind.html last visited 5.11.05

Links

(alle Links wurden zuletzt besucht am 15.01.2025)

Verwandte Begriffe



… weitere Daten zur Seite „Automatische Indexierung
Die automatische Indexierung ist ein Methode, mit der einer dokumentarischen Bezugseinheit von einem Computer Deskriptoren zugeordnet werden können. +