Veranstaltungsdatum: 14. Januar 2021 16:15

Textindexierung für große Datenmengen
Abstract - Große Textmengen fallen in der Bioinformatik, im Web-Crawling und im Text-Mining an, um nur einige Beispiele zu nennen. Diese Texte müssen indexiert werden, um sie algorithmisch effizient handhabbar zu machen. Klassische Textindizes sind üblicherweise für sequentielle Prozessoren und den Hauptspeicher entworfen und stoßen daher bei realweltlichen Problemen schnell an ihre Grenzen. In diesem Vortrag zeige ich einige neuere Ergebnisse zur Indexkonstruktion für Datengrößen, bei denen der zur Verfügung stehende Arbeitsspeicher nicht mehr ausreicht und zudem die Parallelität von modernen Systemen ausgenutzt werden soll. Konkrete Modelle sind hierbei multi-Core CPUs und das PRAM-Modell, verteilte Systeme mit Message-Passing sowie das Externspeicher-Modell. Es kommen auch Anwendungen in der Textkompression zur Sprache.
Short-Bio - Johannes Fischer ist seit Oktober 2013 Professor für Algorithmische Grundlagen und Vermittlung für Informatik an der TU Dortmund. Nach seinem Informatikdiplom an der Universität Freiburg 2003 arbeitete er als Doktorand an der LMU München, wo er 2007 für eine Dissertation in der algorithmischen Bioinformatik promoviert wurde. Danach arbeitete er als Postdoktorand an der Universität Chile, an der Universität Tübingen sowie am KIT. Seine aktuelle Forschung bewegt sich an der Schnittstelle Theorie/Algorithm Engineering und beschäftigt sich vor allem mit platzeffizienten Datenstrukturen, der Textindexierung und -kompression sowie mit parallelen Algorithmen auf großen Datenmengen.