28.08.2024 Deep-Fakes ein sprachliches Schnippchen schlagen

Internationale Konferenz im Deutschen Sprachatlas richtet den Blick auf die „Stimmidentität“

Rechts spricht eine Person in ein Mikrofon, links sind die akustischen Wellen auf einem Bildschirm abgebildet.
Foto: Anselm Wagner
Stimmprobe im Sprechlabor

Die Stimme als Persönlichkeitsmerkmal verliert im Zeitalter Künstlicher Intelligenz und moderner digitaler Manipulationsmöglichkeiten immer mehr an Authentizität. Mit sogenannten Deep-Fakes lassen sich die Stimmen bekannter Politiker*innen oder Celebrities nach Belieben fälschen. Doch was macht genau eine „Stimmidentität“ aus? Hier spielen Phonetik, Biologie, Physik und weitere Fachdisziplinen zusammen. Die Arbeitsgruppe Phonetik um Prof. Dr. Mathias Scharinger von der Philipps-Universität Marburg freut sich daher, die interdisziplinäre wie internationale Konferenz zur Stimmidentität „Voice ID“ mit knapp 100 Teilnehmenden in dieser Woche (28. bis 30. August 2024) im Deutschen Sprachatlas ausrichten zu können.

„Die Konferenz unterstreicht das Alleinstellungsmerkmal der Philipps-Universität mit dem Deutschen Sprachatlas, wo Kompetenzen aus der Phonetik, Variationslinguistik, Forensik und Neurolinguistik fruchtbar zusammenkommen“, stellt der Vizepräsident der Philipps-Universität Marburg, Prof. Dr. Gert Bange, fest.

Die Konferenz im Deutschen Sprachatlas widmet sich allen Aspekten der menschlichen Stimme, die dazu beitragen, die Identität der jeweils Sprechenden herzustellen und zu kommunizieren. Daher kommen bei dieser Konferenz namhafte Vertreter*innen aus den Bereichen der Phonetik, Computerwissenschaft, Forensik, Neurowissenschaft und Psychologie zusammen. Sie gehen den Fragen nach, wie Identität durch akustische Merkmale bei der Stimmgebung hergestellt wird, wie die akustischen Merkmale interpretiert werden, welche Gehirnareale und hirnphysiologischen Prozesse diese Interpretation unterstützen und ob und wie der Mensch gefälschte Stimmen von echten unterscheiden kann.

In diesem Zusammenhang sind die Beiträge der Konferenz auch von forensischem Interesse, berichtet Gea de Jong-Lendle, die als forensische Phonetikerin in der AG Phonetik arbeitet: „Anhand der akustischen Merkmale einer Stimme versuchen wir, die Identität von Sprecher*innen zu bestimmen und können so dazu beitragen, Straftäter*innen zu überführen.“ Insbesondere im Fall eines Sprecherprofils (wenn eine Audio-Aufnahme existiert, es aber noch keinen Verdächtigen gibt) bietet die Universität Marburg eine unschätzbar wertvolle Datenbank im Deutschen Sprachatlas. Mit Hilfe der historischen Wenker-Dialektkarten und zusätzlicher regionaler Sprachaufnahmen ist es möglich, die Herkunft eines Sprechers auf einen bestimmten geographischen Raum einzugrenzen. „Die forensische Phonetik hat in Marburg übrigens eine lange Tradition“, so de Jong-Lendle. Schon seit RAF-Zeiten sind Marburger Phonetiker*innen an polizeilichen Ermittlungen und Strafverfahren beteiligt.

Die Konferenz gibt außerdem Impulse für die vieldiskutierte künstliche Intelligenz. So wird es auch darum gehen, wie gut Algorithmen der Künstlichen Intelligenz menschliche Stimmen imitieren oder Fälschungen (Deep-Fakes) identifizieren können. „Wir in der Marburger Phonetik sind sehr stolz darauf, an diesen gesellschaftlich wichtigen und relevanten Themen teilhaben und unsere Expertise gemeinsam mit den internationalen Kolleginnen und Kollegen einbringen zu können“, sagt Scharinger.

Kontakt