Eingang zum Volltext in OPUS
Lizenz
Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:kobv:83-opus-36091
URL: http://opus.kobv.de/tuberlin/volltexte/2012/3609/
Massive parallelization of combinatorial statistical genetics analyses porting machine learning methods on general purpose graphics processing units (GPU)
Massive Parallelisierung der kombinatorischen statistischen Genetik-Analysen mit Methoden des maschinellen Lernens auf graphics processing units (GPU)
| pdf-Format: |
| |
| Print-on-Demand: |
Kurzfassung auf Englisch
Recent advances in sequencing technology and automated phenotyping render it possible to study the relationship between genotype and phenotype at an unprecedented level of detail. While mapping phenotypes to single loci in the genome is a standard technique in Statistical Genetics, the problem of epistasis search, that is mapping phenotypes to pairs of loci, remains computationally infeasible in practice. This is problematic, as epistatic interactions between loci are expected to contribute significantly to phenotypic variance. By making use of the computational power of graphics cards, we enable epistasis detection via linear and logistic regression on a single desktop machine. As the use of graphics processing units (GPUs) is becoming synonymous with an economical and ease-of-access parallel computing option, it is spawning many innovative projects in several fields of study. Our group has successfully developed new tools with the aim of using the multiple cores availableon GPUs to solve the epistasis problem. A dedicated kernel code running on GPUs helps to unlock the parallel computational power of these devices and compute the statistical scores of all possible second order interactions. The GPU-bound programs have shown to outperform not only standard single CPU-core based approaches but also tools designed for multiple CPU cores by up to two orders of magnitude. The tools will be of great assistance to researchers intent on performing exhaustive epistasis searches. In particular, our implementations
enable to conduct a systematic epistasis detection study on the large host of
previously published Genome-wide association studies (GWAS) data, including Wellcome Trust Case Control Consortium (WTCCC). The vision of researchers employing no more than a single desktop computer to evaluate the statistical significance of interactions of biological inputs in the order of hundred of billions has become a reality. This will in turn help drive down costs and increase innovation in this field of study.
Kurzfassung auf Deutsch
Dank jüngster Fortschritte in der Genomsequenzierung und automatisierten Phänotypisierung wurde es möglich den Zusammenhang zwischen Genotyp und Phänotyp mit bislang unerreichter Präzision zu untersuchen. Wahrend die Zuordnung von Phänotypen auf einzelne Loci im Genom zum Standardverfahren geworden ist, bleibt die Epistasis-Suche, d.h. die Zuordnung von Phänotypen auf zwei oder mehr Loci eine rechnerische Herausforderung.Epistatische Interaktionen zwischen Loci tragen jedoch wesentlich zur phänotypischen Varianz bei. Mit Hilfe der Rechenleistung von Graphikkarten konnte die Suche nach solchen Interaktionen mittels linearer und logistischer Regressionen auf einem einzelnen Rechner ermöglicht werden. Der Einsatz von Graphics Processing Units (GPUs) wird zudem immer ökonomischer und bedienungsfreundlicher. Unsere Gruppe hat neue Programme entwickelt,
um GPUs für das Epistasis Problem einzusetzen. Ein GPU-spezifischer kernel code
schaltet die parallele Rechenleistung der GPUs frei und ermöglicht die statistische Berechnung aller möglichen Loci Paare. Die erreichbare Rechenleistung übertrifft Single-CPU-Core und Multiple-CPU-Core basierte Ansätze. Die erschöpfende Epistasis-Suche steht damit allen interessierten Wissenschaftlern zur Verfügung. Insbesondere erlaubt es uns die Umsetzung
einer systematischen Epistasis-Erfassungs-Studie basierend auf eine grosse Vielzahl von bereits veröffentlichten GWAS Daten, einschliesslich dem Wellcome Trust Case Control Consortium (WTCCC). Zur Berechnung von statistischen Signifikanzen in biologischen Daten mit über Hundert Milliarden Interaktionen wird nicht mehr als ein einzelner Computer benötigt. Dadurch werden entsprechende Untersuchungen erschwinglich und es kann vermehrt mit neuen Erkenntnissen aus ihnen gerechnet werden.
| Freie Schlagwörter (Deutsch): | Maschinelles Lernen , parallele Rechenleistung , Bioinformatik , Statistik , Genetik , graphics processing units | |
| Freie Schlagwörter (Englisch): | Machine learning , parallel computing , bioinformatics , statistics , graphics processing units , genetics | |
| Institut: | Institut für Softwaretechnik und Theoretische Informatik | |
| Fakultät: | Fakultät IV - Elektrotechnik und Informatik | |
| DDC-Sachgruppe: | Ingenieurwissenschaften | |
| Dokumentart: | Dissertation | |
| Hauptberichter: | Müller, Klaus Robert (Prof. Dr.) | |
| Sprache: | Englisch | |
| Tag der mündlichen Prüfung: | 10.07.2012 | |
| Erstellungsjahr: | 2012 | |
| Publikationsdatum: | 16.08.2012 | |
| Lizenz: | Standardlizenz eingeschränkt: Typ CC by-nc-nd - Namensnennung erforderlich | Kommerziell nein | Weiterbearbeitung nein | PoD ja |