Direkt zum Hauptbereich

Posts

Es werden Posts vom Mai, 2020 angezeigt.

Nach Corona - eine Charakterisierung der neuen Zeit

Der erste Schock über den Corona-Virus scheint überwunden zu sein und eine Rückkehr zu einer gewissen Normalität im Gange. Oder doch nicht? Nun, genau das können wir anhand der Suchbegriffe auf Google herausfinden! Ich habe bereits über das gtrends-package für R berichtet, mit welchem man das Interesse an bestimmten Suchbegriffen bei Google analysieren kann. Das Paket funktioniert zwar gerade nicht richtig, aber die Abfrage nach dem zeitlichen Verlauf funktioniert. Zeit für eine Analyse! Das Interesse am Suchbegriff "Corona" flacht ab; und wie sieht es mit weiteren Suchbegriffen aus? Youtube Zu ausgewählten Suchbegriffen erhalten wir folgenden Verlauf. Interessant ist, dass das Interesse an jedem der angegebenen Suchbegriffe zwar abnimmt, aber immer noch über dem Vorkrisen-Niveau liegt. Es scheint also eine leicht Erholung zu geben aber vielleicht ja auch beibehaltene geänderte Verhaltensweisen? Deutschland scheint weiterhin mehr Yoga zu machen als vor Corona

Der LKW-Maut-Fahrleistungsindex als Spiegel der Zeit

Im Zuge der Coronkrise erfuhr ich zum ersten Mal vom LKW-Maut-Fahrleistungsindex. Es ist der erste offizielle Konjunkturindikator des deutschen Bundesamtes (Destatis), der auf die kommende Wirtschaftskrise hindeutete. Der Vorteil des Index ist die Aktualität. Er berechnet sich aus den zurückgelegten Entfernungen von LKWs über 7,5 Tonnen Gesamtgewicht auf den deutschen Autobahnen. Da diese Mautdaten automatisch erfasst werden, ist der Index viel früher verfügbar als manch andere Konjunkturindikatoren ( hier die Liste der weiteren Indikatoren). Speziell in der jetzigen Zeit - in welcher oft über eine aufkommende Wirtschaftskrise geredet wird - kann der Index so eine datenbasierte Perspektive aufzeigen. Von der Seite des stat. Bundesamtes heruntergeladen erhalten wir den Index in vier verschiedenen Variablen. Diese sehen für 2020 wiefolgt aus: Der Rückgang des Indexes ist ersichtlich: die unbereinigten Daten zeigen die Echtdaten. Die Wochenzyklen sind gut erkennbar m

Cloropleth-Worldmap via VBA in Excel

Der Environmental Performance Index ist ein Indikator, welcher 180 Länder nach der Einhaltung von Umweltzielen klassifiziert. Dies geschieht über zehn Indikatoren hinweg, welche in der Summe den EPI-Score ergeben. Ziel ist es, die Ziele für nachhaltige Entwicklung der UN von 2015 datenbasiert und empirisch zu quantifizieren. "A more data-driven and empirical approach to environmental protection promises to make it easier to spot problems, track trends, highlight policy successes and failures, identify best practices, and optimize the gains from investments in environmental protection." Die Struktur per Land macht den Datensatz zu einem geeigneten Beispiel zur Darstellung auf einer Weltkarte - in Excel. Die Daten können direkt als csv-Datei heruntergeladen werden und mit ein bisschen Aufbereitung wiefolgt aufgeführt werden: Hier habe ich die Spalte D hinzugefügt, welche zum Bezug auf die Formen im Reiter "Worldmap" dient. Diese Chloropleth-Flächen sind

Bundeskanzler nach Größe

Anbei mein Beitrag zur Rubrik Statistiken, die die Welt noch braucht : * der Wert für Walter Scheel ist geschätzt

Sentimentanalyse - simpel erklärt

Im Grunde kann eine Sentimentanalyse relativ simpel sein; im zu untersuchenden Text werden Signalwörter identifiziert, für welche in einer Bibliothek eine Klassifizierung in positiv oder negativ oder ein Score von z.B. -1 bis +1 hinterlegt. Die Summe der Wörter oder des Scores ergibt schließlich den Sentiment-Wert des Textes. Nehmen wir die folgende beiden Sätze, abgespeichert in einem Dataframe: > text <- c( 'Eine Tätigkeit wird dann als Hobby bezeichnet, wenn man für diese Tätigkeit eine besondere Präferenz hat und sie regelmäßig ausübt.', 'Traurigkeit kann etwa durch kaltes und regnerisches und Freude durch gutes Wetter hervorgerufen werden.' ) > row <- c(1,2) > Beispiel <- data.frame(row, text) Wir sehen schon Wörter, welche für den Leser eher positiv bzw. negativ sind. Nun können wir ein eigenes Lexikon aufstellen, welches wir zur Klassifizierung benutzen: > custom_dictionary <- bind_rows(tibble(word = c("hobby", "

Sentiment-Analyse von deutschen Texten in R

Eine Sentiment-Analyse funktioniert im Grunde wiefolgt: die einzelnen Wörter werden eines Textes werden mit bestimmten Bibliotheken abgeglichen und eine Einteilung in "positiv/negativ" oder ein hinterlegter Sentiment-Wert abgegriffen. Die Summe dieser Werte ergibt schließlich den Sentiment-Score des ganzen Texts. Für englische Texte sind in R bereits Bibliotheken hinterlegt (z.B. im Package tidytext ). Für deutsche Texte habe ich auf meiner Recherche die Bibliothek  SentiWS  der Universität Leipzig gefunden. Die rund 16.000 positiven und 18.000 negativen Wörter sind mit einer Wertspanne von -1 zu 1 hinterlegt. Das Problem ist, dass diese in zwei Textdateien kommen, deren Format erst aufbereitet werden muss. So sieht die Bibliothek beim Einlesen aus: Mit folgendem Code habe ich mir die Bibliothek operationalisiert: library(dplyr) # SentiWS - Dateien hier runterladen: https://wortschatz.uni-leipzig.de/en/download # a) negative Wörter # die Textdatei einlesen negat

Die Wahrnehmung der Charaktere in "Haus des Geldes" auf Twitter

Auf Twitter wird auch zu TV-Shows fleißig gepostet und diskutiert. Im Folgenden will ich diesen Umstand nutzen, um zu schauen, wie die einzelnen Charaktere der Show "Haus des Geldes" (Money Heist auf englisch) beim Publikum ankommen. Die Show hat mich ja schon einmal zu einem Artikel bewogen; mal schauen, was wir nun lernen. Ein Blick auf die Anzahl der Tweets zeigt, dass die Show tatsächlich ein heißes Thema war. Die vierte Staffel kam am 3. April 2020 raus und es folgten zwei große Wellen. Unter den häufigsten Begriffen sehen wir schon einzelne Charaktere: Und auch beim Netzwerk der Bigramme können wir z.B. die Kombination "hate-tokyo" ausmachen. Dies muss noch nicht repräsentativ sein, gibt aber schon einmal erste Hinweise. Auch "bella-ciao" können wir ausmachen; leider auch andere Kombinationen von Tweets die den untersuchten Hashtag für andere Themen benutzt haben. Also ran an die Analyse zu den einzelnen Charakteren. Wir können plo