Datenaufbereitung
Verfasst: Mo Aug 24, 2020 8:34 pm
-
Deutschsprachiges Forum zur Statistikumgebung R
http://www.forum.r-statistik.de/
Da sind aber zwei csv-Dateien im Anhang. Ich habe also erstmal die kleinere Deiner Dateien eingelesen:Diesen Teildatensatz habe ich als csv-Datei in den Anhang gepackt.
Code: Alles auswählen
> sonntag <- read.csv2("http://forum.r-statistik.de/download/file.php?id=1103")
> str(sonntag)
'data.frame': 1040 obs. of 6 variables:
$ X : int 3 9 11 12 13 15 16 18 22 26 ...
$ pv01: int 1 1 42 1 1 1 1 1 1 1 ...
$ px01: int 3 4 5 4 5 5 4 4 4 5 ...
$ px02: int 3 4 5 NA 5 5 4 4 4 3 ...
$ px03: int 1 1 4 NA 1 3 1 1 1 1 ...
$ px04: int 2 1 4 NA 1 3 1 3 1 1 ...
> summary(sonntag)
X pv01 px01 px02 px03
Min. : 3.0 Min. : 1.00 Min. :1.000 Min. :1.000 Min. :1.000
1st Qu.: 865.2 1st Qu.: 1.00 1st Qu.:4.000 1st Qu.:4.000 1st Qu.:1.000
Median :1753.5 Median : 1.00 Median :5.000 Median :4.000 Median :1.000
Mean :1737.5 Mean :10.78 Mean :4.285 Mean :4.099 Mean :1.701
3rd Qu.:2574.2 3rd Qu.: 1.00 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:2.000
Max. :3476.0 Max. :42.00 Max. :5.000 Max. :5.000 Max. :5.000
NA's :14 NA's :20 NA's :25
px04
Min. :1.000
1st Qu.:1.000
Median :1.000
Mean :1.868
3rd Qu.:3.000
Max. :5.000
NA's :37
Code: Alles auswählen
sonntag$partei <- as.factor(sonntag$pv01)
levels(sonntag$partei) <- c("CDU", "AfD")
Und ich habe vorgeschlagen, dafür einen Entscheidungsbaum zu verwenden. Abweichend vom oben vorgeschlagenen nehme ich das Paket party, welches Du Dir einmalig mit install.packages("party") herunterladen müsstest.Welches der genannten Items trennt am besten zwischen den Wählern der AFD und den Wählern der CDU/CSU:
p01,p02,p03 oder p04"
Code: Alles auswählen
library(party)
mod <-ctree(partei ~ px01 + px02 + px03 + px04, data = sonntag)
plot(mod)
Schade, aber so hast Du hier im Forum was gelernt, was Du Dir für später mal merken kannst.Wueh7 hat geschrieben: Mi Aug 26, 2020 9:04 pmDer Entscheidungsbaum sieht vielversprechend aus. Leider glaube ich nicht, das wir diese Technik verwenden dürfen, da diese in diesem Modul nicht behandelt wird.
Danke. Mich hat das Blatt Node 7 im Baum interessiert. Zeit für Nationalgefühl aber nicht so stolz, Deutscher zu sein -- das heißt dann wohl, dass man in einem anderen Deutschland stolz wäre, Deutscher zu sein. Ach, vielleicht hätte ich gar nicht fragen sollenHier die Aussagen hinter den Items px01, usw, da dich diese interessieren:
px01: Ich bin stolz, ein Deutscher zu sein.
px02: Wir sollten endlich wieder Mut zu einem starken Nationalgefühl haben.
px03: Unter bestimmten Umständen ist eine Diktatur die bessere Staatsform.
px04: Der Nationalsozialismus hatte auch seine guten Seiten.
Das hört sich so selbstverständlich an, aber man hätte auch konstant mit einem von beiden arbeiten können.Ich habe nun Mittelwertvergleiche für unabhängige Messungen bei zwei Gruppen (AfD-Wähler und CDU/CSU-Wähler) genommen und je nach Item mit dem t-test oder dem Mann-Whitney-U-Test gearbeitet.
Etwas, das nur 5 verschiedene Werte annehmen kann kann gar nicht normalverteilt sein, weil die Normalverteilung keine diskrete Verteilung ist. Aber das ist schon ok, wenn Ihr das so gelernt habt--> Keine Normalverteilung, also den Mann-Whitney-U-Test:
Ich bin ziemlich sicher, dass Du das nicht so gemeint hast, wie Du es programmiert hast. Einmal erscheint es mir ungewöhnlich, einseitig zu testen. Bist Du ganz sicher, dass Ihr einseitig testen sollt?? Zum anderen vergleichst Du hier eine Variable die Werte zwischen 1 und 5 annehmen kann mit einer, die nur die Werte 1 und 2 annehmen kann. Du wolltest wahrscheinlich schreiben:Code: Alles auswählen
wilcox.test(df3$px02, df3$pv01, alternative = "less")
Code: Alles auswählen
wilcox.test(df3$px02 ~ df3$pv01)
Ich würde hier nicht auf Varianzhomogenität testen und einfach immer einen t-Test für ungleiche Varianzen machen, aber auch da solltest Du Dich nach dem richten, was gelehrt wurde.Code: Alles auswählen
leveneTest (df3$px04, df3$partei)
Puh, ich weiß nicht, ob ich jetzt mehr helfe oder mehr verwirre. Die Kurzform lautet: Mach es für die Prüfung so, wie man es Dir beigebracht hat und mach Dir später nochmal richtige Gedanken. Richtige Gedanken gehen wie folgt: Normalverteilung ist ein mathematisches Ideal, dass in der materiellen Welt die wir Wirklichkeit nennen nicht vorkommt. Allein schon deshalb, weil sie von minus Unendlich bis plus Unendlich reicht und es nicht unendlich viele Elementarteilchen im Universum gibt. Die Theorie der Tests baut also auf einem mathematisch-theoretischen Konzept Normalverteilung auf, dem nie und nimmer irgendeine Verteilung in der Wirklichkeit gleich sein wird. Was uns in der praktischen Statistik interessiert ist, ob etwas einer Normalverteilung nah genug kommt, um Methoden anzuwenden, die für Normalverteilungen erdacht worden sind. Dabei stellt sich dann oft genug heraus, dass "nah genug" ganz schön weit weg sein kann.Aus deiner Antwort schließe ich, dass meine Annahme falsch ist, dass bei px04 eine Normalverteilung vorliegt?Etwas, das nur 5 verschiedene Werte annehmen kann kann gar nicht normalverteilt sein, weil die Normalverteilung keine diskrete Verteilung ist. Aber das ist schon ok, wenn Ihr das so gelernt habt
Erneut: Mach für die Note, was unterrichtet wurde, später denkst Du selbst nochmal darüber nach und schaust Dich auch um, was in Deinem Feld Usus ist. Ich finde ganz gut, was auf dieser Seite als FAQ3 beschrieben steht: https://psychologie.uni-graz.at/de/biol ... -list/faq/1. In unserem Skript steht sowohl etwas von einseitigen Tests, als auch von zweiseitigen Tests. Da ich in meinem Fall eine einseitige Alternativ-Hypothese habe und der erste Mittelwert kleiner ist, habe ich mir für alternative = "less" entschieden.
Ich würde die H0 und die Alternativhypothese immer zweiseitig formulieren. Stell Dir mal vor, die AfDler würden weniger Nationalgefühl einfordern als die CDU/CSU. Wäre das nicht eine viel größere Schlagzeile als anders herum? Würdest Du den Fall als irrelevant weil nicht Fragestellung Deiner Forschung einsortieren? Wohl kaum.Alternativhypothese zu px02:
Die Wähler der AFD stimmen dem Statement in höherem Maße zu als die Wähler der CDU/CSU.
Habe ich das mit einseitig und zweiseitig evtl. falsch interpretiert?
Dann hoffe ich, dass es mit richtiger Syntax und zweiseitiger Testung jetzt auch nicht mehr an Signifikanzen mangelt.2. Das mit dem "," anstatt der Tilde "~" war tatsächlich ein Fehler von mir. Vielen Dank für den Hinweis!