Paso 1: Crear el conjunto de datos de prueba
Navegar a los conjuntos de datos de evaluación
En el marco de evaluación de Beam AI, vaya a la sección Conjuntos de datos de evaluación del menú principal.
En el marco de evaluación de Beam AI, vaya a la sección Conjuntos de datos de evaluación del menú principal
Seleccione el agente pertinente
Seleccione el agente que desea evaluar (por ejemplo, Agente de Procesamiento de Pedidos) de la lista de agentes disponibles.
Crear un nuevo conjunto de datos
Haga clic en Añadir registro o en una opción equivalente para crear un nuevo conjunto de datos de prueba.
Nombre el conjunto de datos de forma significativa, para que quede claro qué escenarios cubrirá (por ejemplo, "Casos de prueba de procesamiento de pedidos" o "Consultas comunes de los usuarios").
Nombre el conjunto de datos de forma significativa, para que quede claro qué escenarios cubrirá (por ejemplo, "Casos de prueba de procesamiento de pedidos" o "Consultas comunes de los usuarios")
Guardar el conjunto de datos
Una vez creado el conjunto de datos, asegúrese de guardarlo. Siempre puede volver a este conjunto de datos para añadir más entradas según sea necesario.
Paso 2: Definir entradas de muestra
Acceder al conjunto de datos creado
Abre el conjunto de datos que acabas de crear. Verá una interfaz para añadir entradas de prueba específicas para el agente.
Añadir entradas de muestra
Para cada escenario, haga clic en Añadir entrada para empezar a definir entradas de muestra individuales.
Nombre descriptivo: Proporcione a cada entrada un nombre claro y descriptivo para indicar el escenario que representa (por ejemplo, "Order Inquiry with Missing Data").
Attachments: Puede añadir archivos adjuntos si el caso de prueba requiere archivos o documentos adicionales para que el agente los procese.
Dataset Selection: Asegúrese de que cada entrada se asigna al conjunto de datos correcto. Esto vincula la entrada directamente al conjunto de datos de prueba que ha creado.
Variar los tipos de entrada y la complejidad
Incluya un conjunto diverso de entradas para cubrir varios casos de uso:
Casos estándar que se espera que el agente maneje con regularidad.
Casos extremos, como datos incompletos o ambiguos, para probar la solidez del rendimiento del agente.
Errores o errores tipográficos que los usuarios reales podrían cometer.
Definir el flujo de trabajo esperado del agente
Para cada entrada, especifique el ID de flujo de trabajo esperado. Este es el flujo de trabajo que el agente debe seguir al procesar esta entrada, garantizando que la entrada se gestiona de acuerdo con la secuencia o proceso correcto.
Paso 3: Configuración de una ejecución de conjunto de datos
Crear una ejecución de conjunto de datos
Después de añadir las entradas, haga clic en el nombre del conjunto de datos (por ejemplo, "Mi conjunto de datos") para crear una ejecución del conjunto de datos.
Haga clic en Añadir registro en la sección Ejecuciones del conjunto de datos. Esto preparará el conjunto de datos para una ejecución de evaluación.
Revisar los datos de entrada
Asegúrese de que el conjunto de datos ejecutado incluye todas las entradas que ha definido. Esta es la configuración que se utilizará para evaluar las respuestas del agente.
Paso 4: Ejecutar el conjunto de datos
Abrir ventana lateral de ejecución de conjunto de datos
Después de configurar la ejecución del conjunto de datos, haga clic en él para abrir la ventana lateral, que muestra los detalles de la ejecución, incluida la lista de entradas.
Ejecutar el conjunto de datos
En la ventana lateral, haga clic en Ejecutar conjunto de datos para iniciar el proceso de evaluación. Esto enviará todas las entradas en el conjunto de datos al agente, lo que le permitirá evaluar sus respuestas.
En la ventana lateral, haga clic en Ejecutar conjunto de datos
Mejores prácticas para crear conjuntos de datos de evaluación
Para garantizar unas pruebas exhaustivas y unos resultados de evaluación fiables, siga estas prácticas recomendadas:
Incluir escenarios realistas
Utilice entradas que reflejen casos de uso reales con los que se encontrará el agente.
Capture una variedad de escenarios para comprender cómo actúa el agente en condiciones estándar.
Cubre Fundas Edge
Incluya entradas poco comunes o extremas que el agente pueda encontrar.
Ejemplos de casos extremos podrían ser datos faltantes, formatos inesperados o un alto volumen de entrada.
Probar estos casos ayuda a garantizar que el agente pueda manejar diversas situaciones de manera robusta.
Variar tipos de entrada
Incluya distintos tipos de entradas (p. ej., texto, números, fechas) para probar cómo responde el agente a distintos formatos de datos.
De este modo, se asegura de que el agente funcione de forma consistente independientemente del tipo de entrada.
Simular errores comunes
Añada entradas que incluyan errores comunes de los usuarios, como errores tipográficos o información incompleta.
Esto le permite observar si el agente responde adecuadamente a las entradas erróneas.
Añada entradas que incluyan errores comunes de los usuarios, como errores tipográficos o información incompleta
