Page tree

Suche

OpenAI ist eine fortschrittliche Technologie, die entwickelt wurde, um Sprache zu verstehen und darauf zu reagieren. Sie ermöglicht es, Texte zu analysieren oder gesprochene Sprache in eine Sounddatei umzuwandeln. Diese neuen Module bilden die Arbeitsweise ab. Sie bieten Komponenten, mit denen Sie Texte schneller und genauer weiterverarbeiten können.

Variablentypen

Der STARFACE Module Designer enthält zwei verschiedene Kategorien.

OpenAI (Hosted in US)Whisper Local (Hosted in EU)
Chat OpenAI-
Speech-to-text OpenAISpeech-to-text local
Text-to-speech OpenAIText-to-speech local


  • Der Hauptunterschied zwischen den beiden Kategorien besteht darin, dass OpenAI-Funktionen Ihre Daten zur Verarbeitung in die USA senden, während Whisper Local in der EU gehostet wird. Die Chatfunktion gibt es ausschließlich über die direkte OpenAI Schnittstelle.
  • Die lokalen Whisper-Funktionen sind ausschließlich für Cloud-Kunden bestimmt und können nicht auf Appliances oder VMs verwendet werden, da sie lokal bei uns gehostet werden.​​


  • Um die OpenAI Funktion zu verwenden, füge dem/den Modul/en ein Kontrollkästchen namens "Ich bestätige hiermit, dass meine Daten in die USA gehen" hinzu, wenn diese Funktion genutzt werden soll​.
  • Die Assistant API ist derzeit in der Beta-Phase.
  • Der aus der OpenAPI-YAML-Datei generierte API-Client benötigt den Bearer-Token zur Authentifizierung; dieser lautet HttpBearerAuth auth = (HttpBearerAuth) apiClient.getAuthentications().get ("ApiKeyAuth"); auth .setBearerToken (API-Schlüssel);​


Modulkomponenten der Kategorie OpenAI (Hosted in US)

In der folgenden Übersicht werden die verschiedenen Modulkomponenten aus der Kategorie „OpenAI“ vorgestellt. Dabei werden die zugehörigen Werte (Values) beschrieben, die für die Nutzung dieser Komponenten erforderlich sind.​

Chat OpenAI

Values der Komponente:

  • Text (String) Dies ist der Text, der an den Chat Service gesendet wird. Es handelt sich um eine Zeichenkette (String), die die Nachricht enthält, die der Benutzer an OpenAI senden möchte. Diese Nachricht wird vom Service verarbeitet, und basierend darauf wird eine Antwort generiert.​

  • ApiKey (STRING) Dies ist der API-Schlüssel, den Sie von OpenAI erhalten, um auf den Chat Service zugreifen zu können. Der API-Schlüssel authentifiziert die Anfragen, die an OpenAI gesendet werden, und stellt sicher, dass sie von einem autorisierten Benutzer stammen.​
  • AssistantId (STRING) Dies ist die ID des spezifischen Assistenten. Jeder Assistent kann unterschiedlich konfiguriert sein, um verschiedene Arten von Konversationen oder Aufgaben zu unterstützen.​

Rückgabe der Komponente:

  • Answer (String) Dies ist die Antwort des Chat Services auf die gesendete Nachricht. Nachdem der Text verarbeitet wurde, generiert der Service eine Antwort, die in dieser Variable gespeichert und zurück an den Benutzer gesendet wird.​



Speech-to-text OpenAI

Values der Komponente:

  • Recorded conversation (ASTERISK_SOUND_FILE) Diese Komponente bezieht sich auf eine Audiodatei, die eine aufgezeichnete Konversation enthält. Die Datei sollte im spezifizierten Format vorliegen (wav-Datei) und darf eine maximale Größe von 25 MB nicht überschreiten. Sie wird typischerweise verwendet, um gesprochene Inhalte für Transkriptionen oder weitere sprachbasierte Analysen bereitzustellen.​

  • ApiKey (STRING) Dies ist der API-Schlüssel, den Sie von OpenAI erhalten, um auf den Chat Service zugreifen zu können. Der API-Schlüssel authentifiziert die Anfragen, die an OpenAI gesendet werden, und stellt sicher, dass sie von einem autorisierten Benutzer stammen.​
  • Prompt (STRING) Dies ist eine durch Kommas getrennte Liste von Wörtern, die als Wörterbuch für die korrekte Schreibweise dient. Diese Komponente wird verwendet, um spezifische oder fachspezifische Begriffe anzugeben, die in der Transkription oder Textgenerierung korrekt erkannt und wiedergegeben werden sollen.​
  • Temperature (STRING) Die Temperatur ist ein Wert zwischen 0.0 und 1.0, der die Aufnahmegenauigkeit in der Textgenerierung steuert.

Rückgabe der Komponente: 

  • Text (STRING) Diese Komponente speichert die Transkription des gesprochenen Inhalts aus der aufgezeichneten Konversation. Sie wird genutzt, um gesprochene Sprache in geschriebenen Text umzuwandeln, der dann für Analysen, Berichte oder als Input für weitere Verarbeitung verwendet werden kann.​




Text-to-speech OpenAI​

Values der Komponente:

  • Text (STRING) Dies ist der Text, der in Sounddatei umgewandelt werden soll. Der Text wird als einfache Zeichenkette (String) eingegeben und der Dienst generiert daraus eine hörbare Sprachausgabedatei. Dies kann verwendet werden, um Dokumente vorlesen zu lassen, Anweisungen zu geben oder jeglichen geschriebenen Inhalt akustisch zu präsentieren.​

  • Speaker (STRING) Dies ist die Stimme, die für die Sprachausgabe verwendet wird. Verschiedene Stimmen können unterschiedliche Charakteristika wie Akzent, Tonhöhe und Geschwindigkeit haben. Dies ermöglicht es, die Sprachausgabe an spezifische Anforderungen oder Zielgruppen anzupassen.​
  • ApiKey (STRING) Der API-Schlüssel ist eine Authentifizierungskomponente, die benötigt wird, um den Text-to-Speech Service von OpenAI zu nutzen. Er stellt sicher, dass die Anfragen von einem autorisierten Benutzer kommen und schützt vor unbefugtem Zugriff.​
  • Filename (STRING) Der Name der Datei, in der die erzeugte Sprachausgabe gespeichert wird. Dies ermöglicht eine einfache Speicherung und Zugänglichkeit der Audio-Dateien für spätere Verwendung oder Archivierung.​

Rückgabe der Komponente: 

  • Recorded conversation (ASTERISK_SOUND_FILE) Die aufgezeichnete Audiodatei in dem spezifizierten Format. Diese Komponente speichert die Audioausgabe der Text-to-Speech Umwandlung, sodass sie für verschiedene Zwecke wiederverwendet oder analysiert werden kann.​




Modulkomponenten der Kategorie Whisper Local (Hosted in EU)

Speech-to-text Whisper Local​

Values der Komponente:

  • Recorded conversation (ASTERISK_SOUND_FILE) Dies ist die Audiodatei, die eine aufgezeichnete Konversation enthält. Diese Datei wird in einem bestimmten Format gespeichert und enthält die Sprachaufnahmen, die transkribiert werden sollen. Der Dienst verarbeitet diese Datei, um den gesprochenen Inhalt in geschriebenen Text umzuwandeln.​

  • Model (STRING) Dies bezieht sich auf das spezifische Modell, das für die Transkription der Sprache in Text verwendet wird. Genutzt können die Modelle „large-v3, large-v2, medium, base, small, tiny)

Rückgabe der Komponente:

  • Text (String) Dies ist der Text, der aus dem gesprochenen Inhalt generiert wird. Nachdem das Audio durch das gewählte Modell verarbeitet wurde, wird der gesprochene Inhalt als Text ausgegeben. Dieser Text kann dann für verschiedene Zwecke weiterverwendet werden, wie z.B. für Protokolle, Dokumentation oder weitere Analyse.​


 Text-to-speech Whisper Local​

Values der Komponente:

  • Text (STRING) Dies ist der geschriebene Text, der in Sprache umgewandelt und als Audiodatei gespeichert werden soll. Der Text wird vom System eingelesen und durch eine Text-to-Speech-Engine in hörbare Sprache umgesetzt.​

  • Speaker (STRING) Dies gibt die Stimme an, die verwendet werden soll, um den Text auszusprechen. Verschiedene Stimmen können für unterschiedliche Charaktere, Stimmungen oder Zielgruppen ausgewählt werden. In der Modulkomponente kann gewählt werden zwischen „male-1“ und „female-1“.​
  • Filename (STRING) Der Name der Audiodatei, in der die Sprachausgabe gespeichert wird. Dieser Dateiname wird verwendet, um die erzeugte Datei zu identifizieren und zu speichern, sodass sie leicht zugänglich und wieder verwendbar ist.​

Rückgabe der Komponente:

  • Recorded conversation (ASTERISK_SOUND_FILE) Die Audiodatei im spezifizierten Format, die die aufgezeichnete Konversation oder die gesprochene Ausgabe enthält. Dieses Format muss mit den Systemanforderungen kompatibel sein und kann für verschiedene Zwecke genutzt werden, wie z.B. für Präsentationen, als Antwort in einem interaktiven System oder zur Archivierung.​

Weitere Informationen

Die Ergebnisse der Speech-to-Text Funktion werden durch verschiedene Faktoren beeinflusst. Dazu gehören:

  1. Qualität der Quelle (Das Sprechen in ein Headset/Hörer erzielt bessere Ergebnisse als das Sprechen aus der Ferne im Freisprechmodus)
  2. Qualität des Sprechers (Ein Dialekt- oder Sprachfehler kann möglicherweise zu einer schlechteren Übersetzung des Textes führen)
  3. Durch Schnelligkeit und Pausen können ebenfalls Komplikationen auftreten

Um den Chatbot beim Systemstart zu initialisieren, sind im Modul-Designer Moduleinstiegspunkte (System gestartet, System heruntergefahren) implementiert.

  • ​Der Begriff „Entrypoint“ (Einstiegspunkt) bezeichnet den Ort oder die Methode, bei der die Ausführung eines Programms oder einer Anwendung beginnt. Es ist der Punkt, an dem die Kontrolle vom Betriebssystem oder einer übergeordneten Anwendung an ein spezifisches Programm oder eine spezifische Komponente übergeben wird.​