Inkrementelle Validität von Moderatoren

Tanja · Beitrag von **Tanja** » Mo Jul 17, 2023 8:04 pm

Hallo

ich hänge bei meiner Masterarbeit an meiner letzten Aufgabe. Ich habe ein theoretisches Modell, mit dem ich den Einfluss von 2 Moderatoren auf einen Zusammenhang zwischen einem Prädiktor und einem Kriterium prüfe. Dafür habe ich bis jetzt die einzelnen moderierten Regressionen jeweils mit den einzelnen Moderatoren durchgeführt.

Meine Aufgabe ist jetzt noch zu prüfen, ob Moderator 2 inkrementelle Validität gegenüber Moderator 1 in meinem theoretischen Rahmen hat (also signifikant mehr Varianz aufklären kann), weil die Konstrukte relativ ähnlich sind. Ich habe jetzt schon länger recherchiert und auch verschiedene Alternativen in R probiert, finde aber keine Publikationen, die mir dabei helfen, mich dabei zu entscheiden, welchen Weg ich am besten gehen soll.

Weg 1 wäre:

Model1 <- lm(y ~x * M1, data = data)
Model2a <- lm (y ~x * M1 * M2, data = data), hier werden eine Menge Interaktionen geprüft, die ich eigentlich gar brauche (denke ich momentan zumindest)

alternativ:
Model2b <- lm (y ~x * M1 + x * M2, data = data), hier bekomme ich natürlich etwas andere Ergebnisse als mit Model2a

Oder müsste man hier komplett anders vorgehen? Ich hänge gerade wie gesagt ziemlich, vielleicht hast du/habt Ihr ein bisschen Input, damit ich voran komme.

Falls ich die Fragestellung bzw. mein Ziel noch nicht ausführlich genug dargestellt habe, was mir gerne mal passiert, bitte gerne nachfragen.

Danke schon mal ganz herzlich

Beitrag von **bigben** » Mo Jul 17, 2023 8:15 pm

Hi!

Ich gebe freimütig zu, der Begriff der inkrementellen Validität ist mir noch nicht untergekommen und Deine Beschreibung "signifikant mehr Varianzaufklärung" ist zu kurz, um die Frage zu beantworten. Allein mehr Varianz als de andere allein oder Hinzunehmen des Einen bringt mehr, wenn der andere Prediktor schon im Modell ist?

Kannst Du das spezifizieren oder willst Du uns erzählen, welche Frage beantwortet werden soll?

LG, Bernhard

Beitrag von **bigben** » Mo Jul 17, 2023 8:58 pm

Hallo,

wie auch immer die Antworten auf das oben gefragte, vielleicht kann ich auch so schon helfen, wenn ich das verstanden habe.

Machen wir uns ein paar Beispieldaten:

Code: Alles auswählen

set.seed(1);n <- 50; M1 <- runif(n); M2 <- M1 + runif(n, 0,.5); x <- rnorm(n)
d <- data.frame(x, M1, M2, y = x + x*M2 + rnorm(n,0,.5))
head(d)
#>            x        M1        M2          y
#> 1  0.3981059 0.2655087 0.5043185  0.2886947
#> 2 -0.6120264 0.3721239 0.8027286 -1.0822596
#> 3  0.3411197 0.5728534 0.7919019  0.1557922
#> 4 -1.1293631 0.9082078 1.0306064 -2.2142776
#> 5  1.4330237 0.2016819 0.2370215  1.4453887
#> 6  1.9803999 0.8983897 0.9481228  4.7417058

Daraus können wir jetzt einfache und komplexe Modelle bauen:

Code: Alles auswählen

m1 <- lm(y ~ x, data = d) 
m2 <- lm(y ~ M1*x, data = d)
m3 <- lm(y ~ M2*x, data = d)
m4 <- lm(y ~ M1*x+M2*x, data = d)

Wenn ich mich jetzt frage ob m2 wirklich besser ist als m1, dann kann ich dazu eine ANOVA rechnen:

Code: Alles auswählen

anova(m1, m2)
#> Analysis of Variance Table
#> 
#> Model 1: y ~ x
#> Model 2: y ~ M1 * x
#>   Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
#> 1     48 15.7814                                  
#> 2     46  8.4567  2    7.3246 19.921 5.866e-07 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Damit ist das Modell mit dem Moderator m1 besser als das Modell ohne Moderator, auch wenn da zwei Freiheitsgrade mehr verbraucht werden.

Macht es einen Unterschied, ob ich zusätzlich zu Moderator m1 auch noch den Moderator m2 nutze?

Code: Alles auswählen

anova(m2, m4)
#> Analysis of Variance Table
#> 
#> Model 1: y ~ M1 * x
#> Model 2: y ~ M1 * x + M2 * x
#>   Res.Df    RSS Df Sum of Sq      F Pr(>F)
#> 1     46 8.4567                           
#> 2     44 8.4066  2  0.050089 0.1311 0.8775

Nö, die Verringerung der RSS ist keine zwei weiteren Freiheitsgrade wert, p = 0,878.

Vielleicht hilft das ja was.

LG,
Bernhard

Tanja · Beitrag von **Tanja** » Di Jul 18, 2023 9:07 pm

Hallo Bernhard,

erst mal ganz lieben Dank für die super schnellen Antworten!

Inkrementelle Validität ist ein Begriff aus der Psychologie und da habe ich nicht dran gedacht, dass das wirklich fachspezifisch ist. Ich untersuche Stress im Arbeitskontext, die Grundbeziehung besteht zwischen Stressoren und Belastungen. Auf diese Beziehung können sich meine Moderatoren auswirken, in meinem Fall 2 verwandte Persönlichkeitseigenschaften. Zu sehen, ob hier signifikant mehr Varianz aufgeklärt wird, ist interessant, weil sowas zB bei der Personalauswahl helfen könnte.

Den Test darauf, ob ein zusätzlicher Prädiktor in einem
Modell mehr Varianz aufklärt, ist dabei der Normalfall. Modell 1 ist dann das „Grundmodell“ mit einem Prädiktor (m1 <- lm(y ~ x1)), das zweite Modell nimmt den 2. Prädiktor auf (m2 <- lm( y ~ x1 + x2)) und dann gibt es einen Modellvergleich mit anova(m1,m2) (Paket weiß ich leider gerade nicht, bin unterwegs:)). Das ist aber im Grunde das, was du selber ja auch auf anderem Weg herausgearbeitet/hergeleitet hast.

Das, was ich gerade nicht hinbekomme (also vor allem gedanklich): wie erstelle ich mein m2 für den Modellvergleich, wenn ich nicht einen 2. Prädiktor hinzufüge, sondern einen weiteren Moderator (im Beispiel im letzten Absatz sind die Moderatoren in m1 und m2 jetzt nicht drin, aber in meinem Ausgangspost).

Die beiden Alternativen m2-Modelle, die ich im Ausgangspost angegeben habe, sind ja etwas unterschiedlich in dem, was sie aussagen/abbilden. Da möchte ich für mich eine Entscheidung treffen können, welches m2-Modell ich nehme. Literatur dazu ist ziemlich rar. Bzw. Du hast in deiner 2. Antwort als m4 die Variante, die ich als Modell2b hatte geschrieben. Gibt es dafür einen Grund, dass du das nehmen würdest und nicht lm( y ~ x * M1 * M2)? Ich stehe da einfach total auf der Leitung

Vielleicht ist das ja jetzt etwas klarer? Wenn nicht, super gerne nachfragen, ich bin extrem dankbar für jede Hilfe

und wenn du auch keine Antwort hast, ist das auch gar kein Problem.

Ich habe übrigens sogar mal ChatGPT befragt, bei dem Model2a die Antwort ist. Es berechnet aber natürlich - so wie wir - nur anhand der Dokumentation zu lme4 bzw. der lm-Funktion, kann mir aber keine Publikationen dazu nennen (hab mir da aber auch nicht wirklich was erwartet).

Lg Tanja

Beitrag von **bigben** » Di Jul 18, 2023 9:25 pm

Hi!

Gibt es dafür einen Grund, dass du das nehmen würdest und nicht lm( y ~ x * M1 * M2)

Der Unterschied ist die Dreifachinteraktion. Dreifachinteraktionen sind aber kaum interpretierbar. Wenn ich ein nicht interpretierbares Modell will das einfach nur vorhersagen kann, dann kann ich auch einen random forest nehmen, der ist anpassungsfähiger als ein lineares Modell.

Deshalb würde ich nur die Zweifachinteraktion als lineares Modell nehmen. Mein Gehirn erfasst komplexere Interaktionen halt nicht

LG, Bernhard

Tanja · Beitrag von **Tanja** » Di Jul 18, 2023 9:57 pm

Alles klar, danke dir

das ist auch ne ziemlich gute Begründung für meine MA, falls ich wirklich GAAAAR NICHTS mehr passendes in Publikationen finde.

Wünsche dir noch nen schönen Abend! Lg

Beitrag von **student** » Mi Jul 19, 2023 9:03 am

Hallo Tanja,

sorry, ich bin nicht richtig "drin" in der Diskussion und bigben hat ja schon ordentlich etwas geleistet. Ich habe auch wie ChatGPT (oje

) direkt an gemischte lineare Modelle gedacht und dazu habe ich hier mal etwas zu gemacht. Vielleicht hilft es weiter...

Tanja · Beitrag von **Tanja** » Mi Jul 19, 2023 8:05 pm

Hey ganz lieben Dank

ich hab mal reingeschaut. Die Modellierung kommt bei uns zwar auch im Grundmodul Statistik dran, allerdings in erster Linie um genestete Daten und/oder Längsschnittdaten (sind ja auch genestet) zu analysieren. Alles was darüber hinausgeht, gehört glaube ich nicht zu dem von uns verlangten Wissen.

Da ich theoriegeleitet arbeite und ich von davon ausgehend von einem einfachen moderierten Zusammenhang mit Querschnittsdaten ausgehe, passt die Modellierung zumindest schon mal nicht für mein Grundmodell. Modell 2 bildet die 2. Stufe einer hierarchischen Regression, die sich - zumindest in unserem Fachbereich - durch die Hinzunahme eines oder mehrerer weiterer Prädiktoren kennzeichnet (wirklich nur mittels „+“ im Modell). Auch das ist nach Lehrbuch und theoriegeleitet, es fehlt nur ein Lehrbuchbeispiel für das Vorgehen bei moderierten Regressionen.

Ist aber ein cooles Video mit einem etwas anderen Ansatz, sich einer Modellierung zu nähern. Hätte mich fast für eine Masterarbeit in psychologischer Statistik entschieden, weil mir die Modellierung komplexerer Modelle viel Spaß macht, aber wie man sieht, war es eine gute Entscheidung, den „einfacheren“ Weg zu gehen.

Lg

Deutsches R-Forum

Inkrementelle Validität von Moderatoren

Inkrementelle Validität von Moderatoren

Re: Inkrementelle Validität von Moderatoren

Re: Inkrementelle Validität von Moderatoren

Re: Inkrementelle Validität von Moderatoren

Re: Inkrementelle Validität von Moderatoren

Re: Inkrementelle Validität von Moderatoren

Re: Inkrementelle Validität von Moderatoren

Re: Inkrementelle Validität von Moderatoren