Hallo Claire,
Claire hat geschrieben: So Nov 29, 2020 2:08 amDarf ich Dir vielleicht noch einmal ein paar Fragen zu Deinen Befehlen stellen?
Habe ich hier alles richtig verstanden?
1)
table(fol$Story, useNA = "ifany")
zeigt mir an, wie viele Stories insgesamt geposten wurden 450 Positionen 119=JA 331=NEIN.
Richtig, Table ist dazu da Tabellen und auch einfache Kreuztabellen zu erstellen. useNA wird benutzt um zu steuern, wann und wie die Anzahl der NA mitangezeigt wird.
Was sagt die Warnmeldung aus, die immer angezeigt wird? Macht das Ergebnis dann überhaupt Sinn? Was sagt das RHO aus?
Die Warnmeldung taucht immer dann auch, wenn mindestens ein beobachteter Wert wiederholt vorkommt. Der p-Wert ist dann nicht mehr exakt aber doch noch eine sehr gute Schätzung. Man kann mit ein wenig mehr Aufwand die Warnung auch weg bekommen. Dich mit diesem Mehraufwand an Code zu belasten solange Du noch gar nicht weißt, ob Du Spearman-Korrelationen nutzen willst erschien mit unangemessen. Es ist eine Warnung aber in diesem Fall ist das Risiko nicht so besonders hoch.
Das "rho" wird in vielen Büchern auch einfach r genannt oder r mit einem tiefgestellten S dahinter. Es ist der Korrelationskoeffizient und dessen Bedeutung liest Du tatsächlich am besten in Deinen Büchern nach. Das ist keine gute Frage für ein Forum. In diesem Fall heißt es, dass die Follower und die Abonniert-Zahlen positiv miteinander verknüpft sind. Je höher das eine umso höher meistens auch das andere.
3) ggplot(fol) +
geom_point(aes(x=rank(Follower), y = rank(Abonniert)))
Was die Rank-funktion ist weiß ich, aber irgendwie ist mir nicht ganz klar was jetzt hier im Bild passiert bzw. wie sich das hier zusammensetzt.
Wenn Du Dich zur Spearman-Korrelation beliest wirst Du feststellen, dass jedem Wert erstmal ein Rang zugeordnet wird und dann mit dem Rang statt dem Wert weitergerechnet wird. Ich habe das mit den Rängen gezeichnet, weil der Ausreißer das Bild mit den Werten unbrauchbar gemacht hat.
Ich würde es gerne so einfach wie möglich darstellen, weil ich wirklich verstehen möchte, was ich mache und was passiert.
Das ist vernünftig.
Kann man sich irgendwie eine Veränderung der Follower am ersten Tag (5.11.2020) im Vergleich zum letzten Tag (19.11.2020) angucken und dann irgendwie darstellen, dass bei den Accounts die eine Veränderung aufweisen, viel gepostet (Bild oder Story) wurde? Oder evtl. die Differenz (Tag 1 Tag 14) der Follower darstellen und kann dabei irgendwie gezeigt werden, dass die different bei denen die gepostet haben größer ist als bei denen die nichts gemacht haben?
Ok, diese Verlaufskomponente über die Zeit war in meinen bisherigen Antworten nicht drin. Mir war nicht klar, dass die Reise da hingehen soll. Da hast Du Dir Deine Antwort schon selbst gegeben: Die Veränderung ist die Differenz und die berechnet man in R mit dem Minuszeichen.
Code: Alles auswählen
bsp <- data.frame(lecker = gl(2, 10, labels = c("Ja", "Nein")),
Tag1 = c(117.8, 137.2, 79.3, 100.4, 78.9, 120.8, 112.8, 88.1, 105.5,
111.9, 100.7, 101.3, 112.3, 104.3, 90.7, 106, 105.1, 91.9, 77.6,
76.2),
Tag2 = c(132.6, 132.6, 132.6, 132.6, 132.6, 132.6, 132.6, 132.6, 132.6,
132.6, 93.6, 93.6, 93.6, 93.6, 93.6, 93.6, 93.6, 93.6, 93.6,
93.6))
# So sieht der Beispieldatensatz jetzt aus
print(bsp)
# Differenzbildung zwischen Tag1 und Tag2; Reihenfolge bestimmt das Vorzeichen
bsp$veraenderung <- bsp$Tag2 - bsp$Tag1
summary(bsp$veraenderung) # Im mittel 12.1 zugelegt, maximal 53.7
# Grafiksche Darstellung der Differenz nach Gruppen getrennt
library(ggplot2)
ggplot(bsp) +
geom_boxplot(aes(x=lecker, y =veraenderung), color = "grey") +
geom_jitter(aes(x=lecker, y =veraenderung), width = .1) +
ylab("Zunahme von Tag 1 zu Tag 2")
# Signifkanztest z. B. mit Rangsummentest / Vorzeichenrangtest
wilcox.test(veraenderung ~ lecker, data = bsp)
wilcox.test(veraenderung ~ lecker, data = bsp)$p.value
Wahrscheinlich kommen wir hier wieder zu Anfangsproblem…
Ich vermute das größte Problem darin, dass Du immer noch nicht weißt, was Du aus statistischer Sicht eigentlich machen willst und hoffst, dass Du über das Ausprobieren der Möglichkeiten von R schon irgendwie darauf kommen wirst. Gleichzeitig Statistik und R lernen zu wollen während man unter Zeitdruck steht ist schwer. Vielleicht wäre es einfacher, R zunächst mal auszublenden und Dir mit Bleistift und Papier klar zu werden, mit welchem statistischen Vorgehen sich Deine Frage beantworten ließe und in einem getrennten Schritt danach dann mit Forumshilfe daran zu gehen, wie man dieses Vorgehen in R umsetzt. Wie gesagt: nur eine Vermutung.
LG,
Bernhard