vielleicht kann mir jemand von Euch helfen? Ich bin Anfägerin (sowohl was R, als auch was Foren angeht.. ) und merke, dass es mir gerade schon am Wissen zu einfachen Workflows fehlt.
Hier ist mein konkretes Beispiel: Ich habe Variablen von Paaren erhoben, die nun in zwei unterschiedlichen Datensätzen gespeichert sind.
Es gibt eine ID, über die ich die passenden Daten zuordnen kann.
Nun Frage I : Was ist klüger, um später mit den Daten zu arbeiten? Die Daten als einzelne Datensätze behalten oder zu in einen Datensatz verbinden? (besonders, wenn ich später z.b. Korelationen zwischen Werten der beiden Datensätze berechnen möchte)
Dazu Frage II: Habt Ihr Tipps für Literatur, die meine Wissenslücken abdeckt (R for Data Science von Wikham kenne ich)? Also wie gehe ich bestmöglich mit meinen rohen Daten und deren Aufbereitung um?
- Beispielsweise habe ich gelesen, dass einige User einen Originaldatensatz speichern, und nur an einer Kopie die Änderungen, wie z.B. hinzufügen von Spalten, arbeiten - ist dieses vorgehen sinnvolll?
- Anderes Beispiel - ich möchte den Mittelwert zweier Spalten berechnen - mache ich das so, (z.b. über mutate()), dass das innerhalb des vollständigen Datensatzes passiert, oder erstelle ich dafür ein Subset?
- Drittes Beispiel - wie ist der beste Ablauf, um Rohdaten z.B. von unvollständige Reihen zu bereinigen? Originaldatensatz einlesen, anschließend nur noch mit den relevanten Spalten und Reihen (z.B. über filter()) weiter arbeiten?
Liebe Grüße!