Automatische Annotation von Transkriptionsdateien

Symbolbild: WebLICHT as a Service mit EXMARaLDA

Der EXMARaLDA Partitur-Editor bietet ab der Version 1.6 eine Anbindung an die über WebLicht und die CLARIN-D-Infrastruktur zur Verfügung gestellten Webservices. Unter Verwendung von solchen externen linguistischen Werkzeugen können Daten automatisch verarbeitet und mit bspw. morphologischen oder syntaktischen Informationen angereichert werden. Dazu muss keine zusätzliche Software lokal installiert oder zwischen Formaten konvertiert werden. WebLicht as a Service erlaubt, einen vollständigen Workflow zu definieren und per Knopfdruck auszuführen.

Besonders interessant für

Alle, die ihre Daten mit dem EXMARaLDA Partitur-Editor erstellen oder bearbeiten und diese automatisch mit WebLicht weiterverarbeiten, beziehungsweise analysieren wollen, darunter:

  • Sprachwissenschaftler
  • Anthropologen
  • Politikwissenschaftler, die mit Video- oder Audiodaten arbeiten

Ausgangslage:

Eine Transkriptionsdatei im EXMARaLDA Partitur-Editor – es können u.A. EXMARaLDA-, FOLKER-, EAF- und Praat-Dateien importiert werden.

Ziel:

Automatische Anreicherung um mehrere Annotationsebenen ohne Konvertierungsschritte oder Installation weiterer Werkzeuge

Lösung:

Der Zugriff auf WebLicht as a Service aus dem EXMARaLDA Partitur-Editor heraus.

Verwandte CLARIN-D-Werkzeuge und -Dienste

Eine kurze Anleitung zur Nutzung von WebLicht as a Service im EXMARaLDA Partitur-Editor

Vorbereitung - Erstellen einer Processing Chain:

  • Melden Sie sich bei WebLicht an an
  • Laden Sie im Fenster 'Input Selection' unter 'Upload a file' eine zuvor erstellte TCF-Datei in derselben Sprache, wie die zu annotierende Daten hoch (eine Transkription kann als TCF-Datei vom Partitur-Editor exportiert werden)
  • Wählen Sie die gewünschten Werkzeuge aus, um den Workflow zu definieren. Im Beispiel haben wir die Webservices 'Morphology' und 'TreeTagger' verwendet
  • Klicken Sie auf 'Run Tools' und warten Sie, bis der Workflow durchlaufen ist
  • Klicken Sie auf 'Download chain' und speichern Sie Ihre Processing Chain als Datei ab

Beispieldateien:

Vorbereitung - Erstellen eines API Keys:

  • Gehen Sie auf die WebLICHT API-Key Website und klicken Sie auf 'generate', um Ihren API Key zu erhalten
  • Speichern Sie den API Key in einer txt-Datei mit Copy&Paste

WebLicht as a Service im Partitur-Editor:

  • Öffnen Sie Ihre Transkription im Partitur-Editor
  • Gehen Sie im Menü zu 'CLARIN WebLicht' …
  • Nehmen Sie die notwendigen Einstellungen vor:
    • Sprache der Transkription
    • Segmentierungsalgorithmus (entsprechend den Transkriptionskonventionen oder 'GENERIC')
    • Den Pfad zur zuvor erstellen Processing-Chain-Datei
    • Den zuvor generierten API Key
    • Die gewünschten Ausgabeformate: Mit der Eingabe eines Speicherorts wählen Sie jeweils das Format der Ausgabe-Datei: TCF, TEI (ISO-Standard für Transkriptionen gesprochener Sprache) und/oder HTML (Visualisierungsformat)
  • Klicken Sie auf 'OK'
  • Ein neues Fenster zeigt den Verarbeitungsfortschritt an
  • Die annotierte Transkription kann als TCF, TEI oder HTML ausgegeben werden

Beispieldateien:

Weiterführende Links: