Schritt 1: Erstellen Sie den Testdatensatz
Navigieren Sie zu Evaluierungsdatensätzen
Wählen Sie den passenden Agenten aus
Wählen Sie den Agenten aus, den Sie bewerten möchten (z. B. Bestellabwicklungsagent) aus der Liste der verfügbaren Agenten.
Erstellen Sie ein neues Dataset
Klicken Sie auf Eintrag hinzufügen oder eine gleichwertige Option, um einen neuen Testdatensatz zu erstellen.
Benennen Sie den Datensatz sinnvoll, damit klar ist, welche Szenarien er abdeckt (z. B. „Bestellabwicklung Testfälle“ oder „Allgemeine Benutzeranfragen“).
Speichern Sie das Datenset
Sobald der Datensatz erstellt ist, stellen Sie sicher, dass er gespeichert wird. Sie können jederzeit zu diesem Datensatz zurückkehren, um bei Bedarf mehr Eingaben hinzuzufügen.
Schritt 2: Beispieldaten definieren
Zugriff auf das erstellte Datenset
Öffnen Sie den gerade erstellten Datensatz. Sie sehen eine Benutzeroberfläche, um spezifische Testeingaben für den Agenten hinzuzufügen.
Beispiel-Eingaben hinzufügen
Für jedes Szenario klicken Sie auf Eingabe hinzufügen, um mit der Definition einzelner Beispiel-Eingaben zu beginnen.
Beschreibender Name: Geben Sie jeder Eingabe einen klaren, beschreibenden Namen, um das Szenario anzugeben, das sie repräsentiert (z. B. "Bestellanfrage mit fehlenden Daten").
Anhänge: Sie können Anhänge hinzufügen, wenn der Testfall zusätzliche Dateien oder Dokumente für den Agenten erfordert.
Datensatz-Auswahl: Stellen Sie sicher, dass jede Eingabe dem korrekten Datensatz zugewiesen ist. Dies verknüpft die Eingabe direkt mit dem von Ihnen erstellten Testdatensatz.
Verschiedene Eingabetypen und -komplexitäten
Schließen Sie eine vielfältige Menge von Eingaben ein, um verschiedene Anwendungsfälle abzudecken:
Standardfälle, die der Agent regelmäßig bearbeiten soll.
Randfälle, wie unvollständige oder mehrdeutige Daten, um zu testen, wie robust der Agent funktioniert.
Fehler oder Tippfehler, die echte Benutzer möglicherweise machen.
Definieren Sie den erwarteten Agenten-Workflow
Für jede Eingabe geben Sie die erwartete Workflow-ID an. Dies ist der Workflow, dem der Agent bei der Verarbeitung dieser Eingabe folgen sollte, um sicherzustellen, dass die Eingabe gemäß der richtigen Abfolge oder dem richtigen Prozess bearbeitet wird.
Schritt 3: Einrichten eines Datensatzlaufs
Erstellen Sie einen Dataset-Lauf
Nachdem Sie Eingaben hinzugefügt haben, klicken Sie auf den Datensatznamen (z.B. "My Dataset"), um einen Datensatzlauf zu erstellen.
Klicken Sie auf Datensatz hinzufügen im Abschnitt Datensatzläufe. Dies bereitet den Datensatz für einen Bewertungslauf vor.
Überprüfung der Datensatz-Eingaben
Stellen Sie sicher, dass der Datensatzlauf alle von Ihnen definierten Eingaben enthält. Diese Einrichtung wird verwendet, um die Antworten des Agenten zu evaluieren.
Schritt 4: Ausführen des Datensatzes
Seitenfenster für Datensatzlauf öffnen
Nachdem Sie den Datensatzlauf eingerichtet haben, klicken Sie darauf, um das Seitenfenster zu öffnen, das die Laufdetails einschließlich der Liste der Eingaben anzeigt.
Datensatz ausführen
Im Seitenfenster klicken Sie auf Dataset ausführen, um den Evaluierungsprozess zu starten. Dies sendet alle Eingaben im Dataset an den Agenten, sodass Sie seine Antworten bewerten können.
Beste Praktiken zur Erstellung von Evaluationsdatensätzen
Um umfassende Tests und zuverlässige Bewertungsergebnisse sicherzustellen, beachten Sie diese bewährten Praktiken:
Realistische Szenarien einbeziehen
Verwenden Sie Eingaben, die reale Anwendungsfälle widerspiegeln, auf die der Agent stoßen wird.
Erfassen Sie eine Vielzahl von Szenarien, um zu verstehen, wie der Agent unter Standardbedingungen arbeitet.
Randfälle abdecken
Beziehen Sie ungewöhnliche oder extreme Eingaben ein, auf die der Agent stoßen könnte.
Beispiele für Randfälle könnten fehlende Daten, unerwartete Formate oder hohes Eingabevolumen sein.
Das Testen dieser Fälle hilft sicherzustellen, dass der Agent vielfältige Situationen robust bewältigen kann.
Verschiedene Eingabetypen
Verschiedene Arten von Eingaben einschließen (z. B. Text, Zahlen, Daten), um zu testen, wie der Agent auf unterschiedliche Datenformate reagiert.
Dies stellt sicher, dass der Agent konsistent arbeitet, unabhängig vom Eingabetyp.
Häufige Fehler simulieren
Fügen Sie Eingaben hinzu, die häufige Benutzerfehler enthalten, wie Tippfehler oder unvollständige Informationen.
Dies ermöglicht es Ihnen zu beobachten, ob der Agent angemessen auf fehlerhafte Eingaben reagiert.