KONWIHR

Kompetenznetzwerk für wissenschaftliches Höchstleistungsrechnen in Bayern

Inhalt

Cancer Progression Models

Antragssteller

Prof. Dr. Tilo Wettig
Universität Regensburg
Fakultät für Physik
93040 Regensburg

Projektübersicht

Krebsforschung ist von offensichtlichem gesellschaftlichen Interesse und wird in der gesamten entwickelten Welt in vielfältigen Programmen verwirklicht. Das vorliegende Projekt beschäftigt sich vor allem mit der Fragestellung, wie sich die Entwicklung eines Tumors als Folge von Ereignissen wie Mutationen, epigenetischen Veränderungen oder Chromosom-Abnormalitäten verstehen läßt. Diese Ereignisse finden in der Regel nicht unabhängig voneinander statt. Ein wichtiges Ziel der Forschung ist es, diese Abhängigkeiten besser zu verstehen, um durch gezielte medikamentöse Einflußnahme die Folge von Ereignissen und damit das Tumorwachstum unterbrechen zu können. Um dies zu erreichen, wurde eine Reihe von Krebsentwicklungsmodellen entwickelt, deren Parameter dann anhand von Patientendaten bestimmt werden können. Dabei werden die Tumorproben von unterschiedlichen Patienten als unabhängige Realisierungen desselben stochastischen Prozesses betrachtet. Für das vorliegende Projekt sind besonders sog. Conjunctive Bayesian Networks (CBN) relevant, die in der Gruppe von Prof. Beerenwinkel in Basel entwickelt wurden. Berücksichtigt man insgesamt n Mutationen, hat der Konfigurationsraum dieser Modelle die Dimension 2 n , da jede einzelne Mutation entweder vorliegt oder nicht vorliegt. Um medizinisch relevante Aussagen machen zu können, sollte n möglichst groß sein. Mit den bisherigen Implementierungen, die auf einen einzelnen Rechenkern beschränkt sind, ist bei noch akzeptabler Laufzeit n auf etwa 20 begrenzt. Weiterhin wurden die existierenden Codes bisher noch keiner detaillierten Performance-Analyse unterzogen. Es besteht also offensichtliches Optimierungspotential in vielerlei Hinsicht, das im Rahmen dieses Antrags erschlossen werden soll. Zuvor jedoch einige strategische Überlegungen. Die Bioinformatik, für die das oben beschriebene Projekt ein Beispiel darstellt, hat derzeit einen anderen Status als klassische High Performance Computing (HPC) Anwendungen. Letztere beruhen in der Regel auf wohletablierten Theorien, bei denen die Grundgleichungen feststehen und eine überschaubare Anzahl von Algorithmen zum Einsatz kommt. In diesen Fällen lohnt es sich, signifikante Ressourcen in die Optimierung der Codes zu investieren. Typische Beispiele sind Molekulardynamik, Gitter-QCD, Turbulenz u.a. Die Situation in der Bioinformatik unterscheidet sich hiervon in mehreren Aspekten:

  1. Die Modelle und Algorithmen sind sehr vielfältig und in relativ kurzer Zeit starken Änderungen unterworfen. Statt eines allgemein akzeptierten „fixed targets“ gibt es viele „moving targets“.
  2. Performance-Analyse bzw. -Modellierung finden nur selten statt.
  3. Die meisten Programmpakete sind auf einen bzw. wenige Rechenkerne beschränkt und oft nicht optimiert. (Viele Anwendungen sind in R programmiert.)
  4. Wenn die Ausführungszeit zu stark steigt, wird oft die Problemstellung vereinfacht, statt nach skalierbaren Lösungen zu suchen.

Auch im vorliegenden Projekt könnte man bzgl. Punkt 1 argumentieren, dass es eine ganze Reihe von Krebsprogressionsmodellen mit spezifischen Stärken und Schwächen gibt und es sich daher nicht lohnt, signifikanten Optimierungsaufwand in ein bestimmtes Modell zu investieren. In unserem Fall beruht aber eine ganze Klasse von Modellen auf einer Baumstruktur, und erste Performance-Analysen zeigen, dass der größte Anzahl der Rechenzeit auf die Baum-Traversierung und die Berechnung der zugehörigen Kostenfunktion verwendet wird. Da diese Operationen in allen Modellen dieser Klasse vorkommen, lohnt es sich, diese zu optimieren. Dazu sollen die Punkte 2 und 3 betrachtet werden. Zunächst müssen die algorithmischen Optionen untersucht und der bestmögliche Algorithmus identifiziert werden. Danach werden die Datenstrukturen und das Daten-Layout optimiert, wobei hier schon die Vektorisierung und Parallelisierung (on- und off-chip) berücksichtigt werden müssen. Ziel ist es, skalierbare Lösungen zu entwickeln, so dass die Anzahl n der berücksichtigten Mutationen signifikant erhöht werden kann und die Problemstellung nicht, wie in Punkt 4 erwähnt, vereinfacht werden muss. Alle im Rahmen dieses Antrags gemachten Optimierungen würden sich sowohl auf die existierenden als auch auf zukünftige Krebsentwicklungsmodelle positiv auswirken.

Darüber hinaus soll eine Beratung und Ausbildung der Bioinformatik-„Anwender“ stattfinden, um diese in die Lage zu versetzen, zukünftig selbst Performance-Bottlenecks zu identifizieren und skalierbare Lösungen zu entwickeln.