Die Daten Im Folgenden lade ich den Koalitionsvertrag von der Homepage der SPD runter und lese ihn pro Zeile ein. Jeder Zeile füge ich noch das Kapitel hinzu. Zudem definiere ich gleich noch Füllwörter, die später herausgefiltert werden sollen. library (pdftools) library (dplyr) library (tibble) library (readr) library (stopwords) text_Koalition <- pdf_text( "https://www.spd.de/fileadmin/Dokumente/Koalitionsvertrag/Koalitionsvertrag_2021-2025.pdf" ) %>% read_lines() %>% as.data.frame() %>% rownames_to_column(., var= "line" ) %>% `colnames<-`(c( "line" , "text" )) %>% mutate(text = as.character(text)) %>% mutate(line = as.numeric(line)) %>% mutate(Kapitel = ifelse(line>= 49 & line<= 160 , "Präambel" , ifelse(line>= 162 & line<= 667 , "Moderner_Staat" , ifelse(line>= 669 & line<= 1939 , "Klima" ,
Blatt Papier für Gedanken zu Politik, Wirtschaft, Business, Finanzen und Data Science...