"Free and open access to global development data" - unter diesem Motto stellt die Weltbank eine Datenbank mit sehr vielen Indikatoren auf Länder- und Jahresbasis zu Entwicklungsthemen bereit. Mit Interesse an den Erkenntnissen zur Urbanisierung habe ich mir folgende Variablen für das Jahr 2018 geladen und in Rstudio geladen:
Man sieht schon, dass hier ein bisschen Formatierung notwendig ist, um damit überhaupt arbeiten zu können. Mit den folgenden Punkten bekomme ich folgendes Ergebnis; schon sehr viel besser um damit zu arbeiten:
Das Problem ist jedoch, dass die Variablen in der Spalte "Position" stehen und ich diese zur Analyse in jeweils eigenen Spalten. Eine klassische Pivotierung in Excel, aber wie geht das in R?
Eine Recherche brachte mich auf die dcast-Funktion:
Perfekt! Nun können wir die einzelnen Variablen ansprechen und z.B. solche Grafiken herstellen, wie das Titelbild oben. Man kann zB gut China oder Indien sehen (Indien ist der linkere rote Punkt). Der Graph wurde mit diesem Code hergestellt:
ggplot(data_new, aes(x=Urban_pop_rel, y=Urban_pop_growth)) +
+ geom_point(aes(colour=Urban_pop_abs, size=2)) +
+ scale_color_gradient(low = "cadetblue2", high = "red", trans="sqrt") +
+ labs(x="Urban Population % of total", y="Urban Population Growth", color="Urban Population #")