Methodenwahl: Prädiktor signifikant?
Verfasst: Mi Sep 16, 2020 9:42 am
Hallo!
Mir wurden Daten angekündigt, die ich auswerten darf und zwar solche, die ich nach Gusto auswerten darf.
Aufgabenstellung wie folgt: Es gibt 150 < n < 200 Menschen, die entweder die Krankheit A oder die Krankheit B haben. Die Krankheiten sind nur aufwändig voneinander zu unterscheiden sind und beide unzureichend verstanden, aber für jeden hier eindeutig bestimmt. Zu jedem Menschen gibt es Blutkonzentrationsmessungen eines "neuen" Moleküls im Blut, das mit der Unterscheidung beider Parameter zu tun haben kann. Die Frage ist, ob dieser Parameter etwas zur Unterscheidung beider Parameter beitragen kann. Es wird ca eine Handvoll, vielleicht auch zwei Handvoll Kontrollvariablen wie Alter, Geschlecht, Blutwerte, etc. geben, wahrscheinlich eher keine ausgeprägte Kollinearität.
Weil das Medizin ist sind wahrhaft lineare Zusammenhänge unwahrscheinlich und weil das Medizin ist wird es trotzdem eine Auswertung ganz traditionell/konservativ mit logistischer Regression geben.
Ich hätte halt Spaß daran, dieselbe Frage auch mit einem ML-Verfahren, beispielsweise mit einem randomForest anzugehen, aber am Schluss wird man von mir ja eine dichotome Entscheidung erwarten, ob ein Zusammenhang nachweisbar ist, oder nicht. Eine erste, zugegeben noch oberflächliche Beschäftigung mit randomForests ergibt, dass für jeden Parameter/Feature/Unabhängige ein Importance Maß bestimmt wird. Gibt es einen eingefahrenen, akzeptierten Weg, daraus einen p-Wert zu machen? Nicht ein Maß der Bedeutung, sondern einen Test für die Bedeutung in der Grundgesamtheit?
Es dauert noch ein bisschen, bis die Daten kommen, daher hätte ich noch etwas Zeit, mich mit Verfahren zu beschäftigen, die ich noch nicht kenne, wie z. B. GAMs. Ich habe aber nicht genug Zeit, mich in alle verfügbaren Klassifikationsmodelle gleichermaßen mit Tiefgang einzuarbeiten.
Frage: Im gegebenen Rahmen von 150 bis 200 Beobachtungen, dichotomer AV und fünf bis zehn UV, welches Verfahren würdet Ihr wählen um zu zeigen, dass eine bestimmte UV signifikanten Einfluss hat und warum?
R-Bezug: Es kommen nur Methoden infrage, die es auf CRAN gibt. Pakete mit guten Vignetten stark bevorzugt.
Beste Grüße,
Bernhard
Mir wurden Daten angekündigt, die ich auswerten darf und zwar solche, die ich nach Gusto auswerten darf.
Aufgabenstellung wie folgt: Es gibt 150 < n < 200 Menschen, die entweder die Krankheit A oder die Krankheit B haben. Die Krankheiten sind nur aufwändig voneinander zu unterscheiden sind und beide unzureichend verstanden, aber für jeden hier eindeutig bestimmt. Zu jedem Menschen gibt es Blutkonzentrationsmessungen eines "neuen" Moleküls im Blut, das mit der Unterscheidung beider Parameter zu tun haben kann. Die Frage ist, ob dieser Parameter etwas zur Unterscheidung beider Parameter beitragen kann. Es wird ca eine Handvoll, vielleicht auch zwei Handvoll Kontrollvariablen wie Alter, Geschlecht, Blutwerte, etc. geben, wahrscheinlich eher keine ausgeprägte Kollinearität.
Weil das Medizin ist sind wahrhaft lineare Zusammenhänge unwahrscheinlich und weil das Medizin ist wird es trotzdem eine Auswertung ganz traditionell/konservativ mit logistischer Regression geben.
Ich hätte halt Spaß daran, dieselbe Frage auch mit einem ML-Verfahren, beispielsweise mit einem randomForest anzugehen, aber am Schluss wird man von mir ja eine dichotome Entscheidung erwarten, ob ein Zusammenhang nachweisbar ist, oder nicht. Eine erste, zugegeben noch oberflächliche Beschäftigung mit randomForests ergibt, dass für jeden Parameter/Feature/Unabhängige ein Importance Maß bestimmt wird. Gibt es einen eingefahrenen, akzeptierten Weg, daraus einen p-Wert zu machen? Nicht ein Maß der Bedeutung, sondern einen Test für die Bedeutung in der Grundgesamtheit?
Es dauert noch ein bisschen, bis die Daten kommen, daher hätte ich noch etwas Zeit, mich mit Verfahren zu beschäftigen, die ich noch nicht kenne, wie z. B. GAMs. Ich habe aber nicht genug Zeit, mich in alle verfügbaren Klassifikationsmodelle gleichermaßen mit Tiefgang einzuarbeiten.
Frage: Im gegebenen Rahmen von 150 bis 200 Beobachtungen, dichotomer AV und fünf bis zehn UV, welches Verfahren würdet Ihr wählen um zu zeigen, dass eine bestimmte UV signifikanten Einfluss hat und warum?
R-Bezug: Es kommen nur Methoden infrage, die es auf CRAN gibt. Pakete mit guten Vignetten stark bevorzugt.
Beste Grüße,
Bernhard