Allen B. Riddell

Tutorials on Text Analysis and Topic Modeling in Python

Mon 31 March 2014

A series of tutorials on quantitative text analysis with Python is now available on the DARIAH-DE website. The tutorials were written with help from Christof Schöch.

The tutorials assume familiarity with the Python programming language. If you're new to Python and would like to learn the basics, head straight over to the excellent (and recently expanded) Python Programming for the Humanities by Folgert Karsdorp & Maarten van Gompel.

I'll be fixing errors and updating the tutorials periodically—for example, when NLTK 3.0 finally lands. Corrections are welcome on the project's issues tracker.

Here's a copy of the announcement from the Digital Humanities im deutschsprachigen Raum blog:

TAToM, oder: Text Analysis with Topic Models (Tutorial)

Veröffentlicht von Christof Schöch am 31. März 2014

Die Schulungsmaterialien “TAToM – Text Analysis with Topic Models for the Humanities and Social Sciences“, die von Allen Riddell im Rahmen von DARIAH-DE erstellt wurden, sind soeben erschienen.

Sie bestehen aus einer Serie von Tutorials, die grundlegende Verfahren der quantitativen Textanalyse abdecken. Sie thematisieren die Vorbereitung eines Textkorpus für die Analyse sowie die Exploration von Textsammlungen mit Verfahren wie Topic Modeling und Maschinellem Lernen. Besonderes Augenmerk liegt darauf, dass NutzerInnen weitestgehende Kontrolle über die Vorgänge der Textprozessierung behalten können. Wichtig war bei der Entwicklung der Materialien darüber hinaus, den Aspekt der Visualisierung von Topic Models mit in das Verfahren einzubeziehen.

Die Tutorials behandeln sowohl einige grundlegende als auch fortgeschrittene Themen und bauen in gewisser Weise auf den Materialien zu Python Programming for the Humanities von Folgert Kastorp und Maarten van Gompel auf bzw. setzen diese teilweise voraus. Die Tutorials nutzen in erster Linie die beliebte Skriptsprache Python, um mit den Textdaten umzugehen.

Die Inhalte in der Übersicht:

  • Preliminaries & Getting started
  • Working with text
  • Preprocessing
  • Feature selection: finding distinctive words
  • Topic modeling with MALLET
  • Topic modeling in Python
  • Visualizing topic models
  • Classification, Machine Learning, and Logistic Regression
  • Case Study: Racine’s early and late tragedies

Die Tutorials wurden von Allen Riddell für DARIAH-DE verfasst und im März 2014 in Version 1.0 veröffentlicht. Die Koordination lag bei Christof Schöch am Lehrstuhl für Computerphilologie der Universität Würzburg. Rückmeldung zu den Tutorials ist immer willkommen, ebenso wie Hinweise auf Fehler. Bitte nutzen Sie hierfür den issue tracker auf GitHub. Die Tutorials werden unter der Lizenz Creative Commons Attribution 4.0 International zur Verfügung gestellt.