Sein Problem ist die schiere Menge an Material, die er auswerten müsste. Allein die Kölnische Zeitung erschien in den 1920er Jahren teilweise mehrmals täglich, 365 Tage im Jahr. Schon die Transkription eines einzigen Jahrgangs - also die Erstellung einer digitalen Abschrift - würde Tausende von Arbeitsstunden kosten. „Aktuelle Softwarelösungen zur optischen Texterkennung helfen da leider wenig weiter“, sagt er. „Sie haben zum Beispiel riesige Probleme mit dem Layout.“
Denn Papier war damals Mangelware. Entsprechend dicht waren die Zeitungsblätter bedruckt. Die Spalten wurden nicht durch Weißraum, sondern durch dünne Linien getrennt. „Normale“ Computerprogramme übersehen diese Trenner häufig. „Sie vermischen dann beispielsweise nebeneinander stehende Artikel miteinander“, sagt Selgert. Auch fällt es ihnen schwer, Überschriften oder Zwischenzeilen korrekt zu identifizieren und zu erkennen, zu welchem Text sie gehören.
Im Rahmen des Projekts BNTrAInee des Digital Science Center (DICE) der Uni Bonn haben Studierende aus der Informatik daher eine KI entwickelt, die das Layout der Seite erkennt und sie in ihre einzelnen Elemente zerlegt. Als Trainingsdaten dienten ihnen dabei Seiten aus der Kölnischen Zeitung, die von Selgert und seinen Studierenden zuvor manuell annotiert worden waren. „Wir hatten darin beispielsweise die Position der Trenner vermerkt und die Überschriften als solche gekennzeichnet“, sagt der Privatdozent.
Für das Training braucht es menschliches Know-how
Damit die Algorithmen funktionieren, müssen sie anfangs ein aufwändiges Training durchlaufen. Die Zeitungs-KI hat sich zum Beispiel zunächst tausende von korrekt annotierten Zeitungs-Ausschnitten angesehen. Dadurch hat sie unter anderem gelernt, Trennlinien sicher zu erkennen.
Die automatische Layoutanalyse funktioniert schon recht sicher. Sie ist aber nur der erste Schritt: Im Anschluss soll in Zukunft noch eine Texterkennung der gefundenen Anzeigen und Artikel erfolgen. Auch dabei soll eine selbstlernende Software zum Einsatz kommen, die sich allerdings noch in der Entwicklung befindet. „Endziel ist es, dass die KI alle Elemente einer gescannten Ausgabe im Volltext erfasst und automatisch kategorisiert“, sagt Historiker Felix Selgert, der auch Mitglied im Transdisziplinären Forschungsbereich „Individuals and Societies“ ist. „Bis dahin ist es aber noch ein weiter Weg.“
Falls alles klappt, könnte der Algorithmus am Ende etwa aus hunderten von Zeitungsausgaben alle Stellenanzeigen herausfiltern und ihren Inhalt anzeigen. Damit könnte der Historiker beispielsweise die Frage beantworten, wie sich während der Wirtschaftskrise die Stellengesuche verändert haben. „Es sind sogar noch kleinteiligere Analysen denkbar, zum Beispiel, wie sich der Anteil der Frauen an den Jobsuchenden über die Zeit entwickelt hat oder welche Qualifikationen für bestimmte Berufe gefordert wurden“, hofft Selgert.
Zeitungsartikel als Spiegel der gesellschaftlichen Stimmung
Denkbar ist auch eine Auswertung, die Selgert als „Sentiment-Analyse“ bezeichnet: Dabei sucht die Software nach Schlüsselwörtern, die gemeinhin mit bestimmten Gefühlszuständen assoziiert werden, etwa Liebe, Glück, Angst oder Tod. Aus ihrer Häufigkeit errechnet sie dann eine Art „Emotions-Score“. „Auf diese Weise können wir nachvollziehen, in welcher Stimmungslage bestimmte Diskurse in der Zeitung geführt wurden“, sagt der Historiker. „Wie pessimistisch etwa die Menschen zur Zeit der Wirtschaftskrise waren oder ob sich die Stimmung nach Ende der Hyper-Inflation besserte.“
Er hält das Projekt für einen wichtigen Schritt in die richtige Richtung: „Auch in den Geschichtswissenschaften kommen bei solch aufwändigen Analysen zunehmend KI-Verfahren zum Einsatz“, sagt er. „Leider spielt sich diese Entwicklung momentan vor allem in den USA und Großbritannien ab. Wir müssen etwas tun, wenn wir nicht den Anschluss verlieren wollen.“
Teil der Digitalstrategie
Die Digitalstrategie der Universität Bonn definiert die Maßnahmen und Strukturen ihrer digitalen Transformation. Das Projekt BNTrAinee ist eine Maßnahme im Zielbereich Digitale Kompetenzen der Strategie und zielt auf den Aufbau von KI-Kompetenzen über die Grenzen der Fachrichtungen hinweg.