Diese Seite enthält einige Ergebnisse eines Text-Mining-Projekts auf Grundlage der Protokolle der 20. Legislaturperiode des hessischen Landtags. Im Rahmen des Projekts wurde mittels Latent Dirichlet Allocation ein Themenmodell trainiert. Die Qualität des Themenmodells wurde mit unterschiedlichen Techniken optimiert. Beispielsweise wurden Multiword Expressions und Namend Entities mit einem bedeutsamen Gewicht zu einem Token konkateniert, die durch die Tokenisierung getrennt wurden. Zudem wurde mit einer Frequenzanalyse eine Stoppwortliste mit Termen erstellt, die vor dem Hintergrund der Protokolle als zu unspezifisch und somit als nicht bedeutungsdifferenzierend für die Themen eingestuft wurden. Das Themenmodell wurde auf t=29 Themen trainiert, da ich bei einem so parametrisierten Modell das globale Maximum der Kohärenzmetrik CV nach Röder et al. (2015) messen konnte.
Die Webseite enthält neben der Informationsseite zwei Grafiken:
gensim
berechnet und
mit pyLDAvis
visualisiert.plotly
generiert.Die absteigend sortiert indexierten Themen aus Grafik 1 sind entsprechend der folgenden Tabelle auf die Bezeichner gemappt. Ein Asterisk "*" hinter einem Themenbezeichner symbolisiert, dass das Thema leicht fuzzy ist und zwei Asterisken "**" symbolisieren, dass das Thema fuzzy ist und somit nicht eindeutig interpretierbar.
Bezeichner | Themennummer | Hochfrequente Terme | Hochspezifische Terme | Gewicht |
---|---|---|---|---|
Wirtschaft | 1 | Unternehmen, Zukunft, Wirtschaft | Ökologisch, Flughafen, Innenstadt | 16.8% |
Demokratie | 2 | Landtag, recht, politisch | Parlament, Demokratisch, Verfassung | 14% |
Gesetzgebung | 3 | Gesetzentwurf, Änderungsantrag | Gesetzgebungsverfahren | 8.4% |
Familie | 4 | Kind, Ausbildung, Eltern | Geburt | 5.8% |
Covid-19-Pandemie | 12, 17, 27* | Pandemie, Maßnahme, Impfen | Inzidenz, Lockdown | 5.6% |
Landesfinanzen | 5, 29 | Haushalt, Mittel, Geld, Finanzamt | Schuldenbremse, Sondervermögen | 5.6% |
Schulwesen | 6 | Schüler, Lehrkraft, Digital | Digitalpakt, Kultusministerium | 4.4% |
Gesundheitswesen | 7 | Versorgung, Arzt, Krankenhaus | Gesundheitsämter, Landarztquote | 3.5% |
Verwaltung im Landtag | 8, 25 | Beschlussempfehlung, Parteinamen | Handzeichen, dringlich | 3.4% |
Terrorismus | 9 | Opfer, Hanau, Polizei | Walter Lübcke, Rechtsextremismus | 3.3% |
Kommunalwesen | 10 | Kommunen, Stadt, Landkreis | Bürgermeister, Gemeinde | 3% |
(Erneuerbare) Energie | 11 | Wasserstoff, Strom, Energie | Petition, Windräder | 3% |
Gewalt/Polizei* | 13 | Polizei, Gewalt, Mann, Diskriminierung | Häusliche Gewalt | 2.6% |
ÖRR | 14 | Medium, Bildung | Staatsvertrag, ÖRR | 2.5% |
Kultur | 15 | Bibliothek, Kultur, Kunst | studentisch, Künstler | 2.4% |
Vereinswesen* | 16 | Verein, Sport, Integration | Mittelständisch | 2.3% |
Europäische Union | 18 | Europa, EU | Brexit, EZB | 1.8% |
Wohnraum | 19 | Wohnen, Miete, bezahlbar | Sozialer Wohnungsbau | 1.7% |
**_2 | 20 | Carsharing, Erzieher, Rechtsanspruch | Wolf | 1.6% |
Hochschulwesen | 21 | Hochschule, Wissenschaft, Studierend | Angewandt, Hochschulpakt | 1.6% |
**_1 | 22 | Einzelhandel, Tote, Rad | Ermächtigung | 1.5% |
Justizwesen | 23 | Justiz, Richter, Rechtsstaat | Gerichtshilfe, Wehrhaft | 1.5% |
Russisch-ukrainischer Krieg | 24 | Krieg, Ukraine, Flüchtling | Waffe, Luftverkehr | 1.1% |
Barrierefreiheit | 26 | Behinderung, Krankenversicherung | UN-Behindertenkonvention | 1% |
Migration und Asyl | 28 | Afghanistan, Syrien, Humanitär | Landesaufnahmeprogramm | 0.7% |
Diese Webseite ist im Rahmen meiner Masterarbeit entstanden.