Eingang zum Volltext

Home | Suche | Browsen

Lizenz

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:kobv:517-opus-32851
URL: http://opus.kobv.de/ubp/volltexte/2009/3285/


Herschel, Melanie ; Naumann, Felix

Space and time scalability of duplicate detection in graph data

pdf-Format:
Dokument 1.pdf (364 KB) (SHA-1: 667ee67ae9ea247b8f5a4313ba269567b36822e7)


Kurzfassung auf Englisch

Duplicate detection consists in determining different representations of real-world objects in a database. Recent research has considered the use of relationships among object representations to improve duplicate detection. In the general case where relationships form a graph, research has mainly focused on duplicate detection quality/effectiveness. Scalability has been neglected so far, even though it is crucial for large real-world duplicate detection tasks.
In this paper we scale up duplicate detection in graph data (DDG) to large amounts of data and pairwise comparisons, using the support of a relational database system. To this end, we first generalize the process of DDG. We then present how to scale algorithms for DDG in space (amount of data processed with limited main memory) and in time. Finally, we explore how complex similarity computation can be performed efficiently. Experiments on data an order of magnitude larger than data considered so far in DDG clearly show that our methods scale to large amounts of data not residing in main memory.

RVK - Regensburger Verbundklassifikation ST 230
Institut: Hasso-Plattner-Institut für Softwaresystemtechnik GMBH
DDC-Sachgruppe: Informatik
Dokumentart: b Monographie
Schriftenreihe: Technische Berichte des Hasso-Plattner-Instituts für Softwaresystemtechnik an der Universität Potsdam
Band Nummer: 25
Sprache: Englisch
Erstellungsjahr: 2008
Publikationsdatum: 07.07.2009
Bemerkung:
In Printform erschienen im Universitätsverlag Potsdam:

Herschel, Melanie: Space and time scalability of duplicate detection in graph data / Melanie Herschel und Felix Naumann. - Potsdam : Universitätsverlag potsdam, 2008. - 31 S. : graph. Darst.
(Technische Berichte des Hasso-Plattner-Instituts für Softwaresystemtechnik an der Universität Potsdam ; 25)
ISSN 1613-5652
ISBN 978-3-940793-46-1
--> bestellen
Lizenz: Diese Nutzungsbedingung gilt nicht, wenn in den Metadaten eine modifizierende Lizenz genannt ist. Keine Nutzungslizenz vergeben - es gilt das deutsche Urheberrecht


Home | Leitlinien | Impressum | Haftungsausschluss | Statistik | Universitätsverlag | Universitätsbibliothek
Ihr Kontakt für Fragen und Anregungen:
Universitätsbibliothek Potsdam
powered by OPUS  Hosted by KOBV  Open
Archives Initiative  DINI Zertifikat 2007  OA Netzwerk