Zum Hauptinhalt springen

KI-Spracherkennung — Synchronisierte Songtexte automatisch erzeugen


KI-Spracherkennung — Synchronisierte Songtexte automatisch erzeugen

Wenn ein Song keine LRC-Textdatei besitzt, kann OnePlayer den Gesang per KI-Spracherkennung in zeitsynchronisierte Texte umwandeln. Je nach iOS-Version und Vorlieben bei Datenschutz und Preis stehen zwei Engines zur Auswahl.

Öffnen Sie die Engine-Auswahl unter Einstellungen → Labor → KI-Spracherkennung und starten Sie die Erkennung anschließend im Wiedergabebildschirm eines Songs ohne Liedtext.

KI-Spracherkennung in der Cloud

Die Standard-Engine, verfügbar auf allen von OnePlayer unterstützten iOS-Versionen.

  • So funktioniert es — die Audiodatei wird zunächst in OnePlayers temporären Cloud-Speicher hochgeladen und dann zur Spracherkennung an einen KI-Dienst eines Drittanbieters weitergeleitet. Nach Abschluss der Erkennung wird die Datei von unseren Servern gelöscht – es werden keine Audiodaten gespeichert.
  • Systemvoraussetzungen — funktioniert auf allen von OnePlayer unterstützten iOS-Versionen.
  • Preis — Abrechnung nach Audiodauer, sekundengenau. Sowohl OnePlayers temporärer Speicher als auch der Drittanbieter-KI-Dienst rechnen nach Nutzung ab, daher wird diese Funktion separat pro Nutzung berechnet. VIP-Mitglieder erhalten einmalig 60 Minuten Gratisguthaben; zusätzliche Nutzung erfordert den Kauf von Guthaben.
  • Genauigkeit — die Erkennung dient nur als Referenz und ist nicht zu 100 % genau. Die Qualität hängt von Sprache, Aussprache und Begleitmusik ab. Fehler lassen sich über Liedtext bearbeiten korrigieren.

KI-Spracherkennung auf dem Gerät

Eine vollständig lokale Erkennungs-Engine für Nutzer, die Audio lieber auf dem eigenen Gerät verarbeiten.

  • So funktioniert es — die Erkennung läuft lokal auf Ihrem Gerät, und Audiodateien werden nicht hochgeladen.
  • Systemvoraussetzungen — erfordert iOS 26 oder neuer. Beim ersten Einsatz einer Sprache lädt iOS das passende Sprachmodell automatisch im Hintergrund herunter.
  • Preis — Premium-Funktion. Unbegrenzte Nutzung für VIP-Mitglieder.
  • Timing-Format der Texte — wählen Sie zwischen zwei LRC-Formaten:
    • Pro Zeile — ein Zeitstempel pro Liedzeile (Standard-LRC).
    • Pro Wort — Inline-Zeitstempel für jedes Wort, ermöglicht Karaoke-ähnliche Hervorhebung.
  • Genauigkeit — die Erkennung dient nur als Referenz und ist nicht zu 100 % genau. Die Qualität hängt von Sprache, Aussprache und Begleitmusik ab. Fehler lassen sich über Liedtext bearbeiten korrigieren.

Gut zu wissen

  • Erste Erkennung kostenlos verwerfbar. Die erste Erkennung jedes Songs können Sie kostenlos verwerfen, wenn das Ergebnis nicht passt. Eine erneute Erkennung danach zieht Guthaben ab (Cloud) bzw. bleibt für VIP-Mitglieder kostenlos (lokal), unabhängig davon, ob Sie das Ergebnis behalten.
  • Fehlerhafte Stellen bearbeiten. Tippen Sie im Wiedergabebildschirm auf den Liedtext und wählen Sie Liedtext bearbeiten, um Zeit oder Text von Hand anzupassen.