Verbesserung der Spracherkennung im automatisierten Testen
Die stetige Weiterentwicklung unserer Testumgebungen ist ein Job für kreative Köpfe.
In unserer Region, die für ihre medizinischen Innovationen und technischen Fortschritte bekannt ist, schätzen wir die Einbindung talentierter Studierender besonders. Einer dieser einfallsreichen Köpfe ist Simon, Student an der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), der seine letzten Monate als Praktikant in unserem Testing-Team verbracht hat. Im folgenden Bericht teilt er seine Ziele, die Herausforderungen auf seinem Weg und wie er erfolgreich eine innovative Spracherkennungslösung für das Automatisierte Testing entwickelt hat.
Mein Hauptziel war es, praktische Erfahrungen in der Software-Entwicklung zu sammeln und gleichzeitig mehr über den aktuellen Entwicklungsstand von Defibrillatoren zu erfahren. In der Diskussion mit meinem Team kristallisierte sich vor allem ein Ziel heraus: Die Verbesserung und Erweiterung einer Spracherkennung für die Testautomatisierung, die das Timing und den Inhalt von Sprachausgaben der Defibrillatoren testen und dann automatisch in Aktionen umsetzen soll.
Die Herausforderungen, die sich mir dabei stellten, reichten von Nebenläufigkeitsproblemen (aufgrund der simultanen Aufnahme von Audio, Übersetzung/Erkennung und der Evaluation der Ausgabe) über die Anpassung von Sprachmodellen bis hin zur Programmierung einer reibungslosen Schnittstelle zur Übergabe von Audio an die Spracherkennung.
Die Lösungen, die ich entwickelte, basierten auf sorgfältigen Konzeptzeichnungen, die die Prozessbeziehungen der Library verdeutlichten. Eine solche Übersicht förderte die Identifikation und Auflösung von Race Conditions und Deadlocks und führte ebenfalls zur Integration eines zusätzlichen Sprachmodells, welches trotz längerer Laufzeit eine verbesserte Genauigkeit in Bezug auf die Word Error Rate gewährleistet.
Wortgrenzen statt Zeitintervalle
Die Implementierung einer „Voice Activity Detection“-Funktionalität erweiterte die Übergabe von der Audio-Aufzeichnung zur Spracherkennung, indem die Sprache im Audio erkannt wird und dieses dann nur an Wortgrenzen aufgeteilt wird, damit Wörter vollständig erhalten bleiben. Häufig werden die zu erkennenden Segmente zeitlich getrennt, was zur Folge hat, dass lange Wörter über diese Grenzen kommen, und dann nicht oder doppelt erkannt wurden. Unsere Lösung konnte dieses Problem beheben.
Rückblickend erhielt ich während meiner Zeit bei Corscience alle nötigen Freiheiten, um produktiv entwickeln zu können, zusammen mit der Möglichkeit, die wichtigsten Bereiche der Software-Entwicklung kennenzulernen. Das Team war von Anfang an offen, freundlich und stets hilfsbereit und ich konnte in vielen Bereichen auf die Expertise der einzelnen Teammitglieder in ihrem Bereich zurückgreifen.
Aufgrund meiner Erfahrungen in der universitären Forschung konnte ich feststellen, dass die interdisziplinäre Zusammenarbeit im Unternehmen durch die gemeinsame Zielsetzung und den wirtschaftlichen Hintergrund weitaus effektiver und ergebnisorientierter ist im Vergleich zur Universität, wo oft ein anderer Fokus und weniger Dynamik herrscht.
Insgesamt war mein Praktikum sehr bereichernd. Ich erweiterte nicht nur meine technischen Fähigkeiten, sondern erhielt auch Einblicke in die Zusammenarbeit anderer Teams, deren Arbeitsbereiche und die praktische Anwendung von Forschungsergebnissen.