Direkt zum Hauptbereich

Posts

Es werden Posts vom Dezember, 2019 angezeigt.

Schritte zum kmeans-Clustering

Clustering kann oft dabei helfen, Daten näher kennenzulernen. (Vorsicht, auch um ein Clustering durchzuführen, musst du die Daten zumindest schon kennen - auch wenn es eine unsupervised Methode ist). Wie bei jeder Methode gibt es hier auch unterschiedlichste Varianten: Connectivity-, Centroid-, Distribution- und Density-based Clustering . Im Folgenden stelle ich das kmeans-Clustering näher vor, welche zum centroid-based clustering gehört. Zwar gibt es im Internet schon super viele Zusammenfassungen und Anleitungen. Mein Versuch ist hier, möglichst prägnant die einzelnen Schritte aufzuzeigen. Bei Fragen googelt ihr einfach den entsprechenden Begriff und lest die 100 Seiten dazu dann durch ;) Dazu, wie kmeans funktioniert empfehle ich aber Youtube. Kurz gesagt ordnet kmeans einzelne Beobachtungen einem Cluster (-Zentrum) zu, zu welchem es (statistisch) am besten passt. Praktisch arbeite ich mich im Folgenden am R-inhärenten Datensatz USArrests ab. Dies sind Statistiken