Schritte 1-3: Erstellen eines Testdatensatzes und dessen Ausführung

Schritte 1-3: Erstellen eines Testdatensatzes und dessen Ausführung

Schritte 1-3: Erstellen eines Testdatensatzes und dessen Ausführung

Schritt 1: Erstellen Sie den Testdatensatz

  1. Navigieren Sie zu Evaluierungsdatensätzen

  • Im Beam AI Evaluation Framework gehen Sie im Hauptmenü zum Abschnitt Evaluierungsdatensätze.

  • Im Beam AI Evaluierungsrahmen wechseln Sie zum Abschnitt Evaluierungsdatensätze im Hauptmenü.

  1. Wählen Sie den passenden Agenten aus

  • Wählen Sie den Agenten aus, den Sie bewerten möchten (z. B. Bestellabwicklungsagent) aus der Liste der verfügbaren Agenten.

  1. Erstellen Sie ein neues Dataset

  • Klicken Sie auf Eintrag hinzufügen oder eine gleichwertige Option, um einen neuen Testdatensatz zu erstellen.

  • Benennen Sie den Datensatz sinnvoll, damit klar ist, welche Szenarien er abdeckt (z. B. „Bestellabwicklung Testfälle“ oder „Allgemeine Benutzeranfragen“).

  1. Speichern Sie das Datenset

  • Sobald der Datensatz erstellt ist, stellen Sie sicher, dass er gespeichert wird. Sie können jederzeit zu diesem Datensatz zurückkehren, um bei Bedarf mehr Eingaben hinzuzufügen.

Schritt 2: Beispieldaten definieren

  1. Zugriff auf das erstellte Datenset

  • Öffnen Sie den gerade erstellten Datensatz. Sie sehen eine Benutzeroberfläche, um spezifische Testeingaben für den Agenten hinzuzufügen.

  1. Beispiel-Eingaben hinzufügen

  • Für jedes Szenario klicken Sie auf Eingabe hinzufügen, um mit der Definition einzelner Beispiel-Eingaben zu beginnen.

  • Beschreibender Name: Geben Sie jeder Eingabe einen klaren, beschreibenden Namen, um das Szenario anzugeben, das sie repräsentiert (z. B. "Bestellanfrage mit fehlenden Daten").

  • Anhänge: Sie können Anhänge hinzufügen, wenn der Testfall zusätzliche Dateien oder Dokumente für den Agenten erfordert.

  • Datensatz-Auswahl: Stellen Sie sicher, dass jede Eingabe dem korrekten Datensatz zugewiesen ist. Dies verknüpft die Eingabe direkt mit dem von Ihnen erstellten Testdatensatz.

  1. Verschiedene Eingabetypen und -komplexitäten

  • Schließen Sie eine vielfältige Menge von Eingaben ein, um verschiedene Anwendungsfälle abzudecken:

    • Standardfälle, die der Agent regelmäßig bearbeiten soll.

    • Randfälle, wie unvollständige oder mehrdeutige Daten, um zu testen, wie robust der Agent funktioniert.

    • Fehler oder Tippfehler, die echte Benutzer möglicherweise machen.

  1. Definieren Sie den erwarteten Agenten-Workflow

  • Für jede Eingabe geben Sie die erwartete Workflow-ID an. Dies ist der Workflow, dem der Agent bei der Verarbeitung dieser Eingabe folgen sollte, um sicherzustellen, dass die Eingabe gemäß der richtigen Abfolge oder dem richtigen Prozess bearbeitet wird.

Schritt 3: Einrichten eines Datensatzlaufs

  1. Erstellen Sie einen Dataset-Lauf

  • Nachdem Sie Eingaben hinzugefügt haben, klicken Sie auf den Datensatznamen (z.B. "My Dataset"), um einen Datensatzlauf zu erstellen.

  • Klicken Sie auf Datensatz hinzufügen im Abschnitt Datensatzläufe. Dies bereitet den Datensatz für einen Bewertungslauf vor.

  1. Überprüfung der Datensatz-Eingaben

  • Stellen Sie sicher, dass der Datensatzlauf alle von Ihnen definierten Eingaben enthält. Diese Einrichtung wird verwendet, um die Antworten des Agenten zu evaluieren.

Schritt 4: Ausführen des Datensatzes

  1. Seitenfenster für Datensatzlauf öffnen

  • Nachdem Sie den Datensatzlauf eingerichtet haben, klicken Sie darauf, um das Seitenfenster zu öffnen, das die Laufdetails einschließlich der Liste der Eingaben anzeigt.

  1. Datensatz ausführen

  • Im Seitenfenster klicken Sie auf Dataset ausführen, um den Evaluierungsprozess zu starten. Dies sendet alle Eingaben im Dataset an den Agenten, sodass Sie seine Antworten bewerten können.

Beste Praktiken zur Erstellung von Evaluationsdatensätzen

Um umfassende Tests und zuverlässige Bewertungsergebnisse sicherzustellen, beachten Sie diese bewährten Praktiken:

  1. Realistische Szenarien einbeziehen

  • Verwenden Sie Eingaben, die reale Anwendungsfälle widerspiegeln, auf die der Agent stoßen wird.

  • Erfassen Sie eine Vielzahl von Szenarien, um zu verstehen, wie der Agent unter Standardbedingungen arbeitet.

  1. Randfälle abdecken

  • Beziehen Sie ungewöhnliche oder extreme Eingaben ein, auf die der Agent stoßen könnte.

  • Beispiele für Randfälle könnten fehlende Daten, unerwartete Formate oder hohes Eingabevolumen sein.

  • Das Testen dieser Fälle hilft sicherzustellen, dass der Agent vielfältige Situationen robust bewältigen kann.

  1. Verschiedene Eingabetypen

  • Verschiedene Arten von Eingaben einschließen (z. B. Text, Zahlen, Daten), um zu testen, wie der Agent auf unterschiedliche Datenformate reagiert.

  • Dies stellt sicher, dass der Agent konsistent arbeitet, unabhängig vom Eingabetyp.

  1. Häufige Fehler simulieren

  • Fügen Sie Eingaben hinzu, die häufige Benutzerfehler enthalten, wie Tippfehler oder unvollständige Informationen.

  • Dies ermöglicht es Ihnen zu beobachten, ob der Agent angemessen auf fehlerhafte Eingaben reagiert.

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen