Veranstaltungskalender

Kurse, Seminare, Führungen und sonstige Veranstaltungen der KIT-Bibliothek
VeranstaltungskalenderKIT
 
Online Seminar

TU9-Seminar: Einstieg in Text und Data Mining mit dem Natural Language Toolkit (NLTK)

Mittwoch, 07. Dezember 2022, 11:40-13:10
Online

Hinweis: Diese Veranstaltung wird angeboten und durchgeführt von der Universitäts- und Landesbibliothek Darmstadt.
Im Rahmen einer Kooperation der
Allianz führender Technischer Universitäten in Deutschland (TU9) steht eine begrenzte Anzahl von Plätzen auch Interessierten aus TU9-Partnereinrichtungen offen. Anmeldung unter dem unten genannten Link.

 

Veranstaltung für Teilnehmende ohne Vorkenntnisse im Bereich Python und Text Mining.

 

Text-Mining-Verfahren werden eingesetzt, um aus einer großen Menge an Texten automatisiert strukturierte Informationen zu extrahieren. Der Workshop vermittelt einen ersten, praktischen Einstieg in das Thema. Wir werden gemeinsam die Abstracts wissenschaftlicher Artikel analysieren. Als Werkzeug wird die Python-Bibliothek Natural Language Toolkit zum Einsatz kommen, mit der wir die Texte in Tokens zerlegen, Stoppworte entfernen und schließlich Visualisierungen der für diese Abstracts charakteristischen Wörter erzeugen werden. Als Arbeitsoberfläche werden wir die im Data-Science-Bereich beliebte Open-Source-Software Jupyter Notebook nutzen, um unseren Softwarecode auszuführen und dessen Ergebnisse anzeigen zu lassen.

 

  • Wie bediene ich ein Jupyter-Notebook, um darin Python-Code auszuführen und gleichzeitig mein Vorgehen sinnvoll zu dokumentieren?
  • Wo finde ich geeignetes wissenschaftliches Textmaterial, das ich automatisiert auswerten kann?
  • Wie extrahiere ich aus einer csv-Datei gezielt die Inhalte einer bestimmten Spalte, um sie anschließend zu analysieren?
  • Wie setze ich die Python-Bibliothek Natural Language Toolkit (NLTK) ein, um Texte für eine Text-Mining-Analyse vorzubereiten?
  • Wie ermittle ich mit dem NLTK Worthäufigkeiten und visualisiere diese anschließend in Form eines Diagramms oder einer Wortwolke?

 

Antworten auf diese Fragen erhalten Sie im Workshop und können Ihre neuen Kenntnisse direkt an praxisnahen Beispielen anwenden. Im Anschluss an den Workshop können Sie Ihr selbst erstelltes Jupyter-Notebook einsetzen, um die Analysen auf eigenen Textdokumenten zu wiederholen.

 

Bitte installieren Sie die Python-Distribution Anaconda (https://www.anaconda.com/products/individual) vor Beginn des Workshops auf Ihrem Computer. Diese dient als Plattform zur Verwaltung der benötigten Python-Bibliotheken nltk, numpy, matplotlib und wordcloud sowie der Jupyter-Notebook-Software. Eine Anleitung finden Sie hier: https://hessenbox.tu-darmstadt.de/getlink/fiCPbdzbLkfZMYZdMdAKqZ3P/Installationsanleitung_Freigabe. Die Installationsanleitung ist im PDF-Format (Deutsch und Englisch) und als Videodatei (Deutsch) verfügbar, die alle identische Informationen enthalten. Zusätzliche Dokumente finden Sie unter https://hessenbox.tu-darmstadt.de/getlink/fiLEe8pLvDowpQpfN1BNs25b/NLTK_Workshop_deutsch.

 

Sollten Sie Fragen haben, können Sie sich jederzeit an tdm does-not-exist.ulb tu-darmstadt de wenden.

 

  • Ort/genutztes Tool: Zoom
  • Anmeldung: Anmeldung bis 24h vor Beginn des Workshops über Cituro

 

Tag(s): BIB-S, BIB-N, FBH, FBD, ALLG-all, FODI-all, WISSPUB-all, TU9

 

Referent/in
Andre Pfeifer, Jens Freund

Universitäts- und Landesbibliothek Darmstadt
Veranstalter
KIT-Bibliothek
Straße am Forum 2
76131 Karlsruhe
Tel: +49 721 608-43109 / -43111
E-Mail: infokompetenz does-not-exist.bibliothek kit edu
https://www.bibliothek.kit.edu
Servicemenü