Seite 1 von 1

Beschleunigtes Arbeiten mit großen Datensätzen

Verfasst: Fr Okt 30, 2020 1:01 pm
von Bugs
Hallo,

ich habe einen Datensatz mit ca. 50mio Zeilen, auf den ich einige Befehle anwenden möchte.
Manche Befehle werden auch sofort ausgeführt, für andere dauert die Ausführung sehr lange (teils 10-20 Minuten). Ich nehme an, dass dies an der enormen Größe des Datensatzes liegt.

Gibt es eine Möglichkeit die Ausführung von Befehlen irgendwie zu beschleunigen?

Danke im Voraus :)

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Verfasst: Fr Okt 30, 2020 1:54 pm
von Athomas
Gibt es eine Möglichkeit die Ausführung von Befehlen irgendwie zu beschleunigen?
Aha - ich nehme an, Du solltest andere Befehle nehmen :roll: !?

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Verfasst: Fr Okt 30, 2020 2:50 pm
von EDi
Gibt es eine Möglichkeit die Ausführung von Befehlen irgendwie zu beschleunigen?
Klar, aber ohne zu wissen, was du bechnest, wird es schwer Hinweise zu geben.

Was möglich wäre

* Hardware
* data.table nutzen
* parallelisieren
* Rcpp

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Verfasst: Di Nov 03, 2020 8:22 am
von Bugs
Klar, aber ohne zu wissen, was du bechnest, wird es schwer Hinweise zu geben.
Schwer das zusammenzufassen. Es sind circa 30-40 Befehle, die ich auf den Datensatz anwenden möchte.

- Teilweise füge ich neue Spalten hinzu mit mutate()
- Oft enthalten diese Spalten die Zeitdifferenz zweier anderer Spalten, ermittelt durch difftime()
- Teilweise lösche ich Zeilen aus dem Datensatz, die eine gewisse Bedingung erfüllen/nicht erfüllen
...

Insgesamt arbeite ich viel mit verschachtelten ifelse()

Wie gesagt, alles in allem ist das recht schwer zusammenzufassen :roll:

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Verfasst: Di Nov 03, 2020 8:25 am
von jogo
ifelse() ist langsam.

Bitte zeige doch mal Deinen Code, damit die Hilfe konkreter werden kann.

Gruß, Jörg

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Verfasst: Di Nov 03, 2020 8:30 am
von Athomas
Bitte zeige doch mal Deinen Code, damit die Hilfe konkreter werden kann.
Und einen Ausschnitt Deiner Daten, damit man diesen Code laufen lassen und die Wirkung von Tuningmaßnahmen quantifizieren kann.
Und eine grundsätzliche Beschreibung dessen, was Du erreichen willst - um beurteilen zu können, ob Dein Ansatz zweckmäßig ist...

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Verfasst: Di Nov 03, 2020 12:07 pm
von EDi
mutate()
dplyr ist gut und schnell was die Programmiergeschwindigkeit anbelangt. Auf großen Datensätzen & wenn es auf die Ausführungsgschwindigkeit ankommt ist es wesentlich lahmer als data.table.

Bitte ein reproduzierbares Beispiel posten, sonst kommen wir hier nicht weiter .