Schritte 1-3: Erstellen eines Testdatensatzes und dessen Ausführung

Schritte 1-3: Erstellen eines Testdatensatzes und dessen Ausführung

Schritte 1-3: Erstellen eines Testdatensatzes und dessen Ausführung

Schritt 1: Erstellen Sie den Testdatensatz

  1. Navigieren Sie zu Evaluierungsdatensätzen

  • Im Beam AI Evaluationsrahmen gehen Sie im Hauptmenü zum Abschnitt Evaluationsdatensätze.

  1. Wählen Sie den passenden Agenten aus

  • Wählen Sie den Agenten aus, den Sie bewerten möchten (z. B. Bestellabwicklungsagent) aus der Liste der verfügbaren Agenten.

  1. Erstellen Sie ein neues Dataset

  • Klicken Sie auf Datensatz hinzufügen oder eine gleichwertige Option, um ein neues Testdatensatz zu erstellen.

  • Benennen Sie den Datensatz sinnvoll, damit klar ist, welche Szenarien er abdeckt (z.B. "Bestellabwicklungstestfälle" oder "Häufige Benutzeranfragen").

  1. Speichern Sie das Datenset

  • Sobald der Datensatz erstellt ist, stellen Sie sicher, dass er gespeichert wird. Sie können jederzeit zu diesem Datensatz zurückkehren, um bei Bedarf mehr Eingaben hinzuzufügen.

Schritt 2: Beispieldaten definieren

  1. Zugriff auf das erstellte Datenset

  • Öffnen Sie den gerade erstellten Datensatz. Sie sehen eine Benutzeroberfläche, um spezifische Testeingaben für den Agenten hinzuzufügen.

  1. Beispiel-Eingaben hinzufügen

  • Für jedes Szenario klicken Sie auf Eingabe hinzufügen, um mit der Definition individueller Beispiel-Eingaben zu beginnen.

  • Beschreibender Name: Geben Sie jeder Eingabe einen klaren, beschreibenden Namen, um das Szenario anzugeben, das sie repräsentiert (z.B. "Bestellanfrage mit fehlenden Daten").

  • Anhänge: Sie können Anhänge hinzufügen, wenn der Testfall zusätzliche Dateien oder Dokumente für die Verarbeitung durch den Agenten erfordert.

  • Datensatzauswahl: Stellen Sie sicher, dass jede Eingabe dem richtigen Datensatz zugewiesen ist. Dies verknüpft die Eingabe direkt mit dem von Ihnen erstellten Testdatensatz.

  1. Verschiedene Eingabetypen und -komplexitäten

  • Beziehen Sie eine vielfältige Auswahl an Eingaben ein, um verschiedene Anwendungsfälle abzudecken:

    • Standardfälle, die der Agent regelmäßig bearbeiten soll.

    • Randfälle, wie unvollständige oder mehrdeutige Daten, um zu testen, wie robust der Agent arbeitet.

    • Fehler oder Tippfehler, die echte Benutzer machen könnten.

  1. Definieren Sie den erwarteten Agenten-Workflow

  • Für jedes Eingabedatum geben Sie die Erwartete Arbeitsablauf-ID an. Dies ist der Arbeitsablauf, dem der Agent folgen sollte, um diese Eingabe zu bearbeiten und sicherzustellen, dass die Eingabe gemäß der richtigen Reihenfolge oder dem richtigen Prozess behandelt wird.

Schritt 3: Einrichten eines Datensatzlaufs

  1. Erstellen Sie einen Dataset-Lauf

  • Nachdem Sie Eingaben hinzugefügt haben, klicken Sie auf den Datensatznamen (z.B. "Mein Datensatz"), um einen Datensatzlauf zu erstellen.

  • Klicken Sie auf Datensatz hinzufügen im Abschnitt Datensatzläufe. Dies wird den Datensatz für einen Evaluierungslauf vorbereiten.

  1. Überprüfung der Datensatz-Eingaben

  • Stellen Sie sicher, dass der Datensatzlauf alle von Ihnen definierten Eingaben enthält. Diese Einrichtung wird verwendet, um die Antworten des Agenten zu evaluieren.

Schritt 4: Ausführen des Datensatzes

  1. Seitenfenster für Datensatzlauf öffnen

  • Nachdem Sie den Datensatzlauf eingerichtet haben, klicken Sie darauf, um das Seitenfenster zu öffnen, das die Laufdetails einschließlich der Liste der Eingaben anzeigt.

  1. Datensatz ausführen

  • Im Seitenfenster klicken Sie auf Datensatz ausführen, um den Bewertungsprozess zu starten. Dies sendet alle Eingaben im Datensatz an den Agenten, sodass Sie seine Antworten bewerten können.

Beste Praktiken zur Erstellung von Evaluationsdatensätzen

Um umfassende Tests und zuverlässige Bewertungsergebnisse sicherzustellen, beachten Sie diese bewährten Praktiken:

  1. Realistische Szenarien einbeziehen

  • Verwenden Sie Eingaben, die reale Anwendungsfälle widerspiegeln, mit denen der Agent konfrontiert wird.

  • Erfassen Sie eine Vielzahl von Szenarien, um zu verstehen, wie der Agent unter Standardbedingungen arbeitet.

  1. Randfälle abdecken

  • Fügen Sie ungewöhnliche oder extreme Eingaben ein, auf die der Agent stoßen könnte.

  • Beispiele für Grenzfälle könnten fehlende Daten, unerwartete Formate oder ein hohes Eingabevolumen sein.

  • Das Testen dieser Fälle hilft sicherzustellen, dass der Agent verschiedene Situationen robust bewältigen kann.

  1. Verschiedene Eingabetypen

  • Fügen Sie verschiedene Arten von Eingaben ein (z.B. Text, Zahlen, Daten), um zu testen, wie der Agent auf unterschiedliche Datenformate reagiert.

  • Dies stellt sicher, dass der Agent unabhängig vom Eingabetyp konsistent funktioniert.

  1. Häufige Fehler simulieren

  • Fügen Sie Eingaben hinzu, die häufige Benutzerfehler enthalten, wie Tippfehler oder unvollständige Informationen.

  • Dadurch können Sie beobachten, ob der Agent angemessen auf fehlerhafte Eingaben reagiert.

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen