Schritt 1: Erstellen Sie den Testdatensatz
Navigieren Sie zu Evaluierungsdatensätzen
Im Beam AI Evaluationsrahmen gehen Sie im Hauptmenü zum Abschnitt Evaluationsdatensätze.
Wählen Sie den passenden Agenten aus
Wählen Sie den Agenten aus, den Sie bewerten möchten (z. B. Bestellabwicklungsagent) aus der Liste der verfügbaren Agenten.
Erstellen Sie ein neues Dataset
Klicken Sie auf Datensatz hinzufügen oder eine gleichwertige Option, um ein neues Testdatensatz zu erstellen.
Benennen Sie den Datensatz sinnvoll, damit klar ist, welche Szenarien er abdeckt (z.B. "Bestellabwicklungstestfälle" oder "Häufige Benutzeranfragen").
Speichern Sie das Datenset
Sobald der Datensatz erstellt ist, stellen Sie sicher, dass er gespeichert wird. Sie können jederzeit zu diesem Datensatz zurückkehren, um bei Bedarf mehr Eingaben hinzuzufügen.
Schritt 2: Beispieldaten definieren
Zugriff auf das erstellte Datenset
Öffnen Sie den gerade erstellten Datensatz. Sie sehen eine Benutzeroberfläche, um spezifische Testeingaben für den Agenten hinzuzufügen.
Beispiel-Eingaben hinzufügen
Für jedes Szenario klicken Sie auf Eingabe hinzufügen, um mit der Definition individueller Beispiel-Eingaben zu beginnen.
Beschreibender Name: Geben Sie jeder Eingabe einen klaren, beschreibenden Namen, um das Szenario anzugeben, das sie repräsentiert (z.B. "Bestellanfrage mit fehlenden Daten").
Anhänge: Sie können Anhänge hinzufügen, wenn der Testfall zusätzliche Dateien oder Dokumente für die Verarbeitung durch den Agenten erfordert.
Datensatzauswahl: Stellen Sie sicher, dass jede Eingabe dem richtigen Datensatz zugewiesen ist. Dies verknüpft die Eingabe direkt mit dem von Ihnen erstellten Testdatensatz.
Verschiedene Eingabetypen und -komplexitäten
Beziehen Sie eine vielfältige Auswahl an Eingaben ein, um verschiedene Anwendungsfälle abzudecken:
Standardfälle, die der Agent regelmäßig bearbeiten soll.
Randfälle, wie unvollständige oder mehrdeutige Daten, um zu testen, wie robust der Agent arbeitet.
Fehler oder Tippfehler, die echte Benutzer machen könnten.
Definieren Sie den erwarteten Agenten-Workflow
Für jedes Eingabedatum geben Sie die Erwartete Arbeitsablauf-ID an. Dies ist der Arbeitsablauf, dem der Agent folgen sollte, um diese Eingabe zu bearbeiten und sicherzustellen, dass die Eingabe gemäß der richtigen Reihenfolge oder dem richtigen Prozess behandelt wird.
Schritt 3: Einrichten eines Datensatzlaufs
Erstellen Sie einen Dataset-Lauf
Nachdem Sie Eingaben hinzugefügt haben, klicken Sie auf den Datensatznamen (z.B. "Mein Datensatz"), um einen Datensatzlauf zu erstellen.
Klicken Sie auf Datensatz hinzufügen im Abschnitt Datensatzläufe. Dies wird den Datensatz für einen Evaluierungslauf vorbereiten.
Überprüfung der Datensatz-Eingaben
Stellen Sie sicher, dass der Datensatzlauf alle von Ihnen definierten Eingaben enthält. Diese Einrichtung wird verwendet, um die Antworten des Agenten zu evaluieren.
Schritt 4: Ausführen des Datensatzes
Seitenfenster für Datensatzlauf öffnen
Nachdem Sie den Datensatzlauf eingerichtet haben, klicken Sie darauf, um das Seitenfenster zu öffnen, das die Laufdetails einschließlich der Liste der Eingaben anzeigt.
Datensatz ausführen
Im Seitenfenster klicken Sie auf Datensatz ausführen, um den Bewertungsprozess zu starten. Dies sendet alle Eingaben im Datensatz an den Agenten, sodass Sie seine Antworten bewerten können.
Beste Praktiken zur Erstellung von Evaluationsdatensätzen
Um umfassende Tests und zuverlässige Bewertungsergebnisse sicherzustellen, beachten Sie diese bewährten Praktiken:
Realistische Szenarien einbeziehen
Verwenden Sie Eingaben, die reale Anwendungsfälle widerspiegeln, mit denen der Agent konfrontiert wird.
Erfassen Sie eine Vielzahl von Szenarien, um zu verstehen, wie der Agent unter Standardbedingungen arbeitet.
Randfälle abdecken
Fügen Sie ungewöhnliche oder extreme Eingaben ein, auf die der Agent stoßen könnte.
Beispiele für Grenzfälle könnten fehlende Daten, unerwartete Formate oder ein hohes Eingabevolumen sein.
Das Testen dieser Fälle hilft sicherzustellen, dass der Agent verschiedene Situationen robust bewältigen kann.
Verschiedene Eingabetypen
Fügen Sie verschiedene Arten von Eingaben ein (z.B. Text, Zahlen, Daten), um zu testen, wie der Agent auf unterschiedliche Datenformate reagiert.
Dies stellt sicher, dass der Agent unabhängig vom Eingabetyp konsistent funktioniert.
Häufige Fehler simulieren
Fügen Sie Eingaben hinzu, die häufige Benutzerfehler enthalten, wie Tippfehler oder unvollständige Informationen.
Dadurch können Sie beobachten, ob der Agent angemessen auf fehlerhafte Eingaben reagiert.
