ich bin absoluter R-Anfänger und entschuldige mich, falls meine Frage(n) für versierte R-Nutzer sehr banal sind, oder falls ich total falsch an die Sache heran gehe...
Ich habe einen Datensatz, in dem es um Filme geht. Eine meiner Variablen ist "genres"(character Variable). Da es relativ viele Genres gibt und manche Filme gleichzeitig mehreren Genres zugeordnet werden, habe ich sehr viele unterschiedliche Merkmalsausprägungen, je nachdem, in welcher Konstellation welche Genres auftreten.
Ich möchte nun untersuchen, ob Filme aus dem Genre "Action" teurer sind, als Filme, die nicht aus diesem Genre sind. Aus diesem Grund muss ich ja prinzipiell meine Daten in zwei Gruppen einteilen, nämlich die, bei denen "Action" irgendwo in der Variable genannt wird (egal, in welcher Konstellation mit anderen Genres) und die, bei denen das Wort "Action" nicht vorkommt.
Ich habe mich schon durch diverse Hilfeseiten und Foren geklickt und bin schon so weit gekommen, dass ich dies aufteilen konnte:
Mein ursprünglicher Datensatz heißt "movies":
Actionmovies <- movies %>% select(title, directors, genres, budget) %>% filter(str_detect(genres, "Action"))
MoviesohneAction <- movies %>% select(title, directors, genres, budget) %>% filter(str_detect(genres, "Action") == FALSE)
Jetzt habe ich in R Studio im Environment-Fenster sowohl meinen ursprünglichen Datensatz (movies) mit 1195 Objekten angezeigt, als auch die zwei Datensätze "Actionmovies" (mit 380 Objekten) und "MoviesohneAction" (mit 815 Objekten).
Mein Problem ist nun, dass ich es nicht schaffe, mit diesen Datensätzen weiter zu arbeiten. Ich will jetzt beispielsweise einfach erst mal ein Tortendiagramm oder Kreisdiagramm erstellen, um zu zeigen wie groß in meiner Stichprobe der Anteil an Action/Nicht-Action-Filmen ist.
Das einzige, was ich "schaffe", ist einen Boxplot zu erstellen, um die Unterschiede beim Budget darzustellen:
boxplot(Actionmovies$budget, MoviesohneAction$budget) - der funktioniert.

Bei allen möglichen anderen Befehlen (pie/diffmean/histogram...) ist mir nicht klar, wie die Syntax in der Klammer aussehen muss und alle Versuche bringen die unterschiedlichsten Fehlermeldungen.
Bin ich mit meiner "Aufteilung" bisher total auf dem Holzweg? Wie bekomme ich ein Diagramm hin? Und damit stehe ich natürlich erst am Anfang vieler Fragen, weil mir auch noch nicht klar ist, auf welchem Weg ich dann meine Hypothese eigentlich testen soll.
Bin für jede Anregung und Hilfestellung dankbar!

Danke an alle, die bis hier hin gelesen haben
