AusgewÄhlte Projekte (3)

Eine Einführung in Data Mining Methoden in der Epidemiologie am Beispiel einer laufenden Studie zur Therapie von Diabetes

Das Projekt wurde für die Abteilung Epidemiologie bei GlaxoSmithKline durchgeführt. Es hatte zum Ziel den möglichen Nutzen von Data Mining Methoden in der epidemiologischen Forschung abzuschätzen. Am Beispiel einer laufenden Studie zur Therapiewahl bei Diabetes wurden Mitarbeiter der Abteilung in Data Mining Strategien eingeführt und die Anwendung von S-Plus demonstriert.

Anwendung moderner multivariater Methoden in QSAR und Ökotoxikologie

Die Toxizität großer Gruppen von Chemikalien wird typischerweise mit „quantitative structure activity relationship“ (QSAR) beurteilt. Dafür werden die Chemikalien durch Deskriptoren, wie „electronic interaction“ oder „TAFT steric substituent constant“ dargestellt. Der Merkmalsraum der Deskriptoren und die gemessene Ökotoxizität eines Trainings-
Sets werden dann mit statistischen Methoden untersucht. Wir haben die Leistungsfähigkeit der verschiedenen multivariaten Ansätze, wie z. B. von neuronalen Netzen, CART, Clusteranalyse und von versch. linearen Modellen untersucht und dabei aus über 100 Deskriptoren die 6 relevantesten ausgewählt, die die Ökotoxizität von über 1000 chemischen Substanzen beschreiben.