Seite 1 von 1

Zwei Datasets für Zeitreihenanalyse benutzen

Verfasst: Mo Apr 26, 2021 11:50 am
von Joe-Arroyo
Guten Tag alle zusammen,

Meine Frage bezieht sich auf eine Regressionsanalyse, die ich gerne durchführen würde. Meine Datasets beinhalten Informationen über verschiedene rumänische Regionen wie z.B GDP per Capita und Einschulungsquotienten aus der EUROSTAT Datenbank. Meiner Observationen sind identisch sprich für jede Region und jedes Jahr (2000-2019) eine Zahl. Hierfür wäre meine Frage wie ich nun eine Regression durchführen kann, die die Beziehung zwischen meiner abhängigen Variable (GDP per Capita) und meiner unabhängigen, beschreibt. Soweit ich weiß kann ich durch den Befehl
lm(data_set1$y~dataset2$x)
zwei Datenpakete mit derselben Anzahl an Beobachtungen zusammenfügen, jedoch weiß ich nun nicht weiter.

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Verfasst: Mo Apr 26, 2021 1:18 pm
von EDi
Ich würde die Daten zunächst mal aufbereiten und zusammenpacken, sodass alles in einem data.frame (im langen Format) ist.

Wenn die Daten gut aufbereitet sind, kann man ans modellieren gehen.

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Verfasst: Mo Apr 26, 2021 1:21 pm
von bigben
Hallo Joe,
Joe-Arroyo hat geschrieben: Mo Apr 26, 2021 11:50 amMeine Frage bezieht sich auf eine Regressionsanalyse, die ich gerne durchführen würde. [...] Hierfür wäre meine Frage wie ich nun eine Regression durchführen kann, die die Beziehung zwischen meiner abhängigen Variable (GDP per Capita) und meiner unabhängigen, beschreibt.
Dazu wäre es wichtig zu wissen, was "die unabhängige" ist und wie in dieser Regression mit Regionen und Jahren umgegangen werden soll. Nein, das ist Deiner bisherigen Beschreibung nicht zu entnehmen, da müsstest Du entweder das Ziel der Analyse beschreiben oder sagen, welche Art von Statistik Du rechnen möchtest.
Soweit ich weiß kann ich durch den Befehl
lm(data_set1$y~dataset2$x)
zwei Datenpakete mit derselben Anzahl an Beobachtungen zusammenfügen, jedoch weiß ich nun nicht weiter.
Das ist falsch. Der Befehl lm fügt keine Datenpakete zusammen, berechnet eine lineare Regression. Ich würde ihn aber nie so anwenden sondern immer die zusammengehörigen Daten in einen gemeinsamen Dataframe packen.

LG,
Bernhard

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Verfasst: Mo Apr 26, 2021 2:53 pm
von Joe-Arroyo
Hallo Bernhard,

vielen Dank für deine Antwort. Ich schätze, ich war zu ungenau in meinem vorherigen Post.

Also meine abhängige Variable sind die GDP pro Kopf Zahlen in den einzelnen Regionen. Hierfür möchte ich eine Regression mit meiner unabhängigen Variable "Einschulungsquote" durchführen um zu ermitteln, wie stark diese mögliche Trends in der GDP Entwicklung beschreibt.

Ich habe nun meine Daten in einen "großen" Datensatz zusammengefasst. Mein Ziel ist es später, durch das Hinzufügen von weiteren Parametern wie R&D Ausgaben und Internet-Konnektivitäts Indikatoren zu prüfen wie Aussagekräftig diese Variablen sind, um ökonomische Entwicklungen darzustellen.

Bitte entschuldigt, falls ich vergesse wichtige Informationen zu erwähnen. Ich bin ein ziemlicher R Novize und würde einfach besser verstehen mit welchen Schritten ich meine Idee umsetzen kann.

LG Joe

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Verfasst: Mo Apr 26, 2021 2:56 pm
von Joe-Arroyo
EDi hat geschrieben: Mo Apr 26, 2021 1:18 pm Ich würde die Daten zunächst mal aufbereiten und zusammenpacken, sodass alles in einem data.frame (im langen Format) ist.

Wenn die Daten gut aufbereitet sind, kann man ans modellieren gehen.

Hallo EDi,

vielen Dank für deine Antwort! Das habe ich soeben gemacht (über Excel, da es eine ziemlich mühsame Angelegenheit ist). Nun habe ich meine Dataset in R eingefügt und sehe alle Observationen mit samt Variablen.


LG Joe

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Verfasst: Mo Apr 26, 2021 4:37 pm
von bigben
Hallo Joe,
Joe-Arroyo hat geschrieben: Mo Apr 26, 2021 2:53 pmAlso meine abhängige Variable sind die GDP pro Kopf Zahlen in den einzelnen Regionen. Hierfür möchte ich eine Regression mit meiner unabhängigen Variable "Einschulungsquote" durchführen um zu ermitteln, wie stark diese mögliche Trends in der GDP Entwicklung beschreibt.
Persönlich würde ich immer mit einer visuellen Analyse der Daten beginnen, bevor ich irgendwelche Regressionskoeffizienten bemühe. Ich würde also als nächsten eine Punktwolke/Scatterplot zeichnen. Mein Mapping wäre: Einschulungsquote auf die x-Achse, GDPproKopf auf die y-Achse, Jahreszahl als Farbe. Dann bekommt man schon mal ein Gefühl dafür, wie wichtig die Jahreszahl ist und ob Linearität als Annahme sinnvoll ist und ob die Einschulungsquoten sich in den rumänischen Regionen überhaupt ausreichend unterscheiden und...
Ich habe nun meine Daten in einen "großen" Datensatz zusammengefasst.


Das würde man wahrscheinlich verstehen wenn man wüsste, wie die Daten vorher organisiert waren.
Bitte entschuldigt, falls ich vergesse wichtige Informationen zu erwähnen. Ich bin ein ziemlicher R Novize und würde einfach besser verstehen mit welchen Schritten ich meine Idee umsetzen kann.
In einem anderen Forum habe ich mal das hier geschrieben. Vielleicht hilft es auch hier: http://www.statistik-forum.de/nutzung-d ... t6682.html
Und dann hat EDi was wertvolles hier geschrieben: viewtopic.php?f=20&t=11
Und ich hab etwas nur vielleicht relevantes hier geschrieben: viewtopic.php?f=20&t=35
Vielleicht helfen diese drei Links beim Präzisieren.

LG,
Bernhard