Pasos 1-3: Crear un conjunto de datos de prueba y ejecutarlo

Paso 1: Crear el conjunto de datos de prueba

Navegar a los conjuntos de datos de evaluación

En el marco de evaluación de Beam AI, vaya a la sección Conjuntos de datos de evaluación del menú principal.

En el marco de evaluación de Beam AI, vaya a la sección Conjuntos de datos de evaluación del menú principal

Seleccione el agente pertinente

Seleccione el agente que desea evaluar (por ejemplo, Agente de Procesamiento de Pedidos) de la lista de agentes disponibles.

Crear un nuevo conjunto de datos

Haga clic en Añadir registro o en una opción equivalente para crear un nuevo conjunto de datos de prueba.
Nombre el conjunto de datos de forma significativa, para que quede claro qué escenarios cubrirá (por ejemplo, "Casos de prueba de procesamiento de pedidos" o "Consultas comunes de los usuarios").

Nombre el conjunto de datos de forma significativa, para que quede claro qué escenarios cubrirá (por ejemplo, "Casos de prueba de procesamiento de pedidos" o "Consultas comunes de los usuarios")

Guardar el conjunto de datos

Una vez creado el conjunto de datos, asegúrese de guardarlo. Siempre puede volver a este conjunto de datos para añadir más entradas según sea necesario.

Paso 2: Definir entradas de muestra

Acceder al conjunto de datos creado

Abre el conjunto de datos que acabas de crear. Verá una interfaz para añadir entradas de prueba específicas para el agente.

Añadir entradas de muestra

Para cada escenario, haga clic en Añadir entrada para empezar a definir entradas de muestra individuales.
Nombre descriptivo: Proporcione a cada entrada un nombre claro y descriptivo para indicar el escenario que representa (por ejemplo, "Order Inquiry with Missing Data").
Attachments: Puede añadir archivos adjuntos si el caso de prueba requiere archivos o documentos adicionales para que el agente los procese.
Dataset Selection: Asegúrese de que cada entrada se asigna al conjunto de datos correcto. Esto vincula la entrada directamente al conjunto de datos de prueba que ha creado.

Variar los tipos de entrada y la complejidad

Incluya un conjunto diverso de entradas para cubrir varios casos de uso:
- Casos estándar que se espera que el agente maneje con regularidad.
- Casos extremos, como datos incompletos o ambiguos, para probar la solidez del rendimiento del agente.
- Errores o errores tipográficos que los usuarios reales podrían cometer.

Definir el flujo de trabajo esperado del agente

Para cada entrada, especifique el ID de flujo de trabajo esperado. Este es el flujo de trabajo que el agente debe seguir al procesar esta entrada, garantizando que la entrada se gestiona de acuerdo con la secuencia o proceso correcto.

Paso 3: Configuración de una ejecución de conjunto de datos

Crear una ejecución de conjunto de datos

Después de añadir las entradas, haga clic en el nombre del conjunto de datos (por ejemplo, "Mi conjunto de datos") para crear una ejecución del conjunto de datos.
Haga clic en Añadir registro en la sección Ejecuciones del conjunto de datos. Esto preparará el conjunto de datos para una ejecución de evaluación.

Revisar los datos de entrada

Asegúrese de que el conjunto de datos ejecutado incluye todas las entradas que ha definido. Esta es la configuración que se utilizará para evaluar las respuestas del agente.

Paso 4: Ejecutar el conjunto de datos

Abrir ventana lateral de ejecución de conjunto de datos

Después de configurar la ejecución del conjunto de datos, haga clic en él para abrir la ventana lateral, que muestra los detalles de la ejecución, incluida la lista de entradas.

Ejecutar el conjunto de datos

En la ventana lateral, haga clic en Ejecutar conjunto de datos para iniciar el proceso de evaluación. Esto enviará todas las entradas en el conjunto de datos al agente, lo que le permitirá evaluar sus respuestas.

En la ventana lateral, haga clic en Ejecutar conjunto de datos

Mejores prácticas para crear conjuntos de datos de evaluación

Para garantizar unas pruebas exhaustivas y unos resultados de evaluación fiables, siga estas prácticas recomendadas:

Incluir escenarios realistas

Utilice entradas que reflejen casos de uso reales con los que se encontrará el agente.
Capture una variedad de escenarios para comprender cómo actúa el agente en condiciones estándar.

Cubre Fundas Edge

Incluya entradas poco comunes o extremas que el agente pueda encontrar.
Ejemplos de casos extremos podrían ser datos faltantes, formatos inesperados o un alto volumen de entrada.
Probar estos casos ayuda a garantizar que el agente pueda manejar diversas situaciones de manera robusta.

Variar tipos de entrada

Incluya distintos tipos de entradas (p. ej., texto, números, fechas) para probar cómo responde el agente a distintos formatos de datos.
De este modo, se asegura de que el agente funcione de forma consistente independientemente del tipo de entrada.

Simular errores comunes

Añada entradas que incluyan errores comunes de los usuarios, como errores tipográficos o información incompleta.
Esto le permite observar si el agente responde adecuadamente a las entradas erróneas.

Añada entradas que incluyan errores comunes de los usuarios, como errores tipográficos o información incompleta

Empieza hoy

Empezar a crear agentes de IA para automatizar procesos

Únase a nuestra plataforma y empiece a crear agentes de IA para diversos tipos de automatizaciones.

Plataforma

Soluciones

Our Customers

Recursos

Acerca de

Pasos 1-3: Crear un conjunto de datos de prueba y ejecutarlo

Paso 1: Crear el conjunto de datos de prueba

Navegar a los conjuntos de datos de evaluación

Seleccione el agente pertinente

Crear un nuevo conjunto de datos

Guardar el conjunto de datos

Paso 2: Definir entradas de muestra

Acceder al conjunto de datos creado

Añadir entradas de muestra

Variar los tipos de entrada y la complejidad

Definir el flujo de trabajo esperado del agente

Paso 3: Configuración de una ejecución de conjunto de datos

Crear una ejecución de conjunto de datos

Revisar los datos de entrada

Paso 4: Ejecutar el conjunto de datos

Abrir ventana lateral de ejecución de conjunto de datos

Ejecutar el conjunto de datos

Mejores prácticas para crear conjuntos de datos de evaluación

Incluir escenarios realistas

Cubre Fundas Edge

Variar tipos de entrada

Simular errores comunes

Empezar a crear agentes de IA para automatizar procesos