Seite 1 von 1
Beschleunigtes Arbeiten mit großen Datensätzen
Verfasst: Fr Okt 30, 2020 1:01 pm
von Bugs
Hallo,
ich habe einen Datensatz mit ca. 50mio Zeilen, auf den ich einige Befehle anwenden möchte.
Manche Befehle werden auch sofort ausgeführt, für andere dauert die Ausführung sehr lange (teils 10-20 Minuten). Ich nehme an, dass dies an der enormen Größe des Datensatzes liegt.
Gibt es eine Möglichkeit die Ausführung von Befehlen irgendwie zu beschleunigen?
Danke im Voraus

Re: Beschleunigtes Arbeiten mit großen Datensätzen
Verfasst: Fr Okt 30, 2020 1:54 pm
von Athomas
Gibt es eine Möglichkeit die Ausführung von Befehlen irgendwie zu beschleunigen?
Aha - ich nehme an, Du solltest andere Befehle nehmen

!?
Re: Beschleunigtes Arbeiten mit großen Datensätzen
Verfasst: Fr Okt 30, 2020 2:50 pm
von EDi
Gibt es eine Möglichkeit die Ausführung von Befehlen irgendwie zu beschleunigen?
Klar, aber ohne zu wissen, was du bechnest, wird es schwer Hinweise zu geben.
Was möglich wäre
* Hardware
* data.table nutzen
* parallelisieren
* Rcpp
Re: Beschleunigtes Arbeiten mit großen Datensätzen
Verfasst: Di Nov 03, 2020 8:22 am
von Bugs
Klar, aber ohne zu wissen, was du bechnest, wird es schwer Hinweise zu geben.
Schwer das zusammenzufassen. Es sind circa 30-40 Befehle, die ich auf den Datensatz anwenden möchte.
- Teilweise füge ich neue Spalten hinzu mit mutate()
- Oft enthalten diese Spalten die Zeitdifferenz zweier anderer Spalten, ermittelt durch difftime()
- Teilweise lösche ich Zeilen aus dem Datensatz, die eine gewisse Bedingung erfüllen/nicht erfüllen
...
Insgesamt arbeite ich viel mit verschachtelten ifelse()
Wie gesagt, alles in allem ist das recht schwer zusammenzufassen

Re: Beschleunigtes Arbeiten mit großen Datensätzen
Verfasst: Di Nov 03, 2020 8:25 am
von jogo
ifelse() ist langsam.
Bitte zeige doch mal Deinen Code, damit die Hilfe konkreter werden kann.
Gruß, Jörg
Re: Beschleunigtes Arbeiten mit großen Datensätzen
Verfasst: Di Nov 03, 2020 8:30 am
von Athomas
Bitte zeige doch mal Deinen Code, damit die Hilfe konkreter werden kann.
Und einen Ausschnitt Deiner Daten, damit man diesen Code laufen lassen und die Wirkung von Tuningmaßnahmen quantifizieren kann.
Und eine grundsätzliche Beschreibung dessen, was Du erreichen willst - um beurteilen zu können, ob Dein Ansatz zweckmäßig ist...
Re: Beschleunigtes Arbeiten mit großen Datensätzen
Verfasst: Di Nov 03, 2020 12:07 pm
von EDi
mutate()
dplyr ist gut und schnell was die Programmiergeschwindigkeit anbelangt. Auf großen Datensätzen & wenn es auf die Ausführungsgschwindigkeit ankommt ist es wesentlich lahmer als data.table.
Bitte ein reproduzierbares Beispiel posten, sonst kommen wir hier nicht weiter .