Wir sollen unausgewogene Datensätze mit CART z.B fitten, und dann Techniken wie Over/Under-Sampling drüber laufen lassen und die Effekte untersuchen und dokumentieren.
Nun zu meinem Problem. Wo finde ich solche Datensätze, kennt ihr da Webseiten? Wenn ich dann so etwas wie CART anwende, dann brauche ich ja das Paket "rpart" um Entscheidungsbäume zu erstellen, aber was genau hilft dies dann beim Over/Under-Sampling?
Könnte so beispielsweise ein Code dazu aussehen?
Code: Alles auswählen
setwd("C:\\Users\\...\\Dropbox\\Uni\\Präsentation\\Datensätze")
add <- "data1.csv"
df <- read.csv(add)
# CART - Wichtige Daten selektieren
df <- mutate(df, x= as.numeric(x), y= as.numeric(y), label=factor(label))
set.seed(123)
sample = sample.split(df$x, SplitRatio = 0.70)
train = subset(df, sample==TRUE)
test = subset(df, sample==FALSE)
# grow tree (Baum wachsen lassen)
fit <- rpart(x~., data = train, method = "class")
printcp(fit)
plotcp(fit)
summary(fit)
# plot tree
plot(fit, uniform = TRUE, main="Bla Bla Bla")
# prune the table --> to avoid overfitting the data#
pfit<- prune(fit, cp= fit$cptable[which.min(fit$cptable[,"xerror"]),"CP"])
plot(pfit, uniform=TRUE,
main="Pruned Classification Tree for Us")
Danke im Vorraus