Eingang zum Volltext

Home | Suche | Browsen

Lizenz

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:kobv:517-opus-45714
URL: http://opus.kobv.de/ubp/volltexte/2010/4571/


Lange, Dustin ; Böhm, Christoph ; Naumann, Felix

Extracting structured information from Wikipedia articles to populate infoboxes

pdf-Format:
Dokument 1.pdf (1.208 KB) (SHA-1:295bc470c79b43c07ae50a427e6a4a92041e85d3)


Kurzfassung auf Englisch

Roughly every third Wikipedia article contains an infobox - a table that displays important facts about the subject in attribute-value form. The schema of an infobox, i.e., the attributes that can be expressed for a concept, is defined by an infobox template. Often, authors do not specify all template attributes, resulting in incomplete infoboxes.
With iPopulator, we introduce a system that automatically populates infoboxes of Wikipedia articles by extracting attribute values from the article's text. In contrast to prior work, iPopulator detects and exploits the structure of attribute values for independently extracting value parts. We have tested iPopulator on the entire set of infobox templates and provide a detailed analysis of its effectiveness. For instance, we achieve an average extraction precision of 91% for 1,727 distinct infobox template attributes.

Kurzfassung auf Deutsch

Ungefähr jeder dritte Wikipedia-Artikel enthält eine Infobox - eine Tabelle, die wichtige Fakten über das beschriebene Thema in Attribut-Wert-Form darstellt. Das Schema einer Infobox, d.h. die Attribute, die für ein Konzept verwendet werden können, wird durch ein Infobox-Template definiert. Häufig geben Autoren nicht für alle Template-Attribute Werte an, wodurch unvollständige Infoboxen entstehen.
Mit iPopulator stellen wir ein System vor, welches automatisch Infoboxen von Wikipedia-Artikeln durch Extrahieren von Attributwerten aus dem Artikeltext befüllt. Im Unterschied zu früheren Arbeiten erkennt iPopulator die Struktur von Attributwerten und nutzt diese aus, um die einzelnen Bestandteile von Attributwerten unabhängig voneinander zu extrahieren. Wir haben iPopulator auf der gesamten Menge der Infobox-Templates getestet und analysieren detailliert die Effektivität. Wir erreichen beispielsweise für die Extraktion einen durchschnittlichen Precision-Wert von 91% für 1.727 verschiedene Infobox-Template-Attribute.

Freie Schlagwörter (deutsch): Informationsextraktion , Wikipedia , Linked Data
Freie Schlagwörter (englisch): Information Extraction , Wikipedia , Linked Data
RVK - Regensburger Verbundklassifikation ST 230
Institut: Hasso-Plattner-Institut für Softwaresystemtechnik GMBH
DDC-Sachgruppe: Informatik
Dokumentart: b Monographie
Schriftenreihe: Technische Berichte des Hasso-Plattner-Instituts für Softwaresystemtechnik an der Universität Potsdam
Band Nummer: 38
Sprache: Englisch
Erstellungsjahr: 2010
Publikationsdatum: 17.11.2010
Bemerkung:
In Printform erschienen im Universitätsverlag Potsdam:

Extracting structured information from Wikipedia articles to populate infoboxes / Dustin Lange, Christoph Böhm, Felix Naumann. - Potsdam : Universitätsverlag Potsdam, 2010. - 27 S. : graph. Darst.
ISBN 978-3-86956-081-6
--> bestellen
Lizenz: Diese Nutzungsbedingung gilt nicht, wenn in den Metadaten eine modifizierende Lizenz genannt ist. Keine Nutzungslizenz vergeben - es gilt das deutsche Urheberrecht


Home | Leitlinien | Impressum | Haftungsausschluss | Statistik | Universitätsverlag | Universitätsbibliothek
Ihr Kontakt für Fragen und Anregungen:
Universitätsbibliothek Potsdam
powered by OPUS  Hosted by KOBV  Open
Archives Initiative  DINI Zertifikat 2007  OA Netzwerk