Paso 1: Ejecutar el conjunto de datos
Acceder al conjunto de datos
Desplácese a la sección Conjuntos de datos de evaluación y seleccione el conjunto de datos relevante para el agente que desea optimizar.
Ejecutar el conjunto de datos
Haga clic en Run Dataset para iniciar la prueba. Esto enviará todas las entradas al agente, permitiéndole procesarlas basándose en los flujos de trabajo definidos y en los resultados esperados.
Ejecutar conjunto de datos
Paso 2: Obtener los resultados de la evaluación
Acceda a la precisión del flujo de trabajo
Vaya a la sección Precisión del flujo de trabajo una vez que el conjunto de datos haya terminado de ejecutarse.
Seleccione la ejecución de evaluación reciente para ver los resultados de precisión.
Ver métricas de evaluación
Compruebe las métricas clave, como Precisión de coincidencia de flujos de trabajo y Precisión de flujos de trabajo, para ver el rendimiento del agente en diferentes flujos de trabajo.
Precisión de coincidencia de flujos de trabajo muestra la tasa de éxito de cada flujo de trabajo, indicando áreas específicas en las que el agente podría estar rindiendo por debajo de lo esperado.
Obtenga resultados detallados
Paso 3: Analizar qué falló
Identificar los flujos de trabajo de bajo rendimiento
Examinar los resultados paso a paso
Identificar patrones
Determine si hay problemas recurrentes en varios pasos o flujos de trabajo. Esto puede poner de relieve las áreas en las que el agente necesita mejorar, como la gestión de datos ambiguos o el seguimiento de instrucciones estructuradas
Paso 4: Optimizar el agente
Refinar los datos de formación o la lógica del flujo de trabajo
Basado en tu análisis, actualiza los datos de entrenamiento del agente para abordar debilidades específicas.
Ajusta la lógica de flujo de trabajo del agente o las plantillas de respuesta para alinearse mejor con los resultados esperados.
Mejorar los resultados esperados
Actualice las salidas esperadas y las indicaciones según sea necesario para proporcionar una orientación más clara para el agente.
Asegúrese de que los criterios de evaluación reflejen con precisión los resultados deseados y no penalicen involuntariamente las variaciones aceptables.
Pruebe los cambios en un conjunto de datos más pequeño (opcional)
Si se han realizado cambios significativos, es posible que desee probar las mejoras en un subconjunto más pequeño del conjunto de datos para asegurarse de que las actualizaciones son efectivas.
Paso 5: Ejecutar de nuevo el conjunto de datos
Repetir la ejecución del conjunto de datos
Vuelva a ejecutar el conjunto de datos para probar el agente optimizado. Esto le permitirá verificar si los cambios han mejorado el rendimiento.
Comparar resultados
Compruebe las puntuaciones de precisión actualizadas y los resultados de la evaluación para confirmar las mejoras en los flujos de trabajo y en los pasos que anteriormente tenían un rendimiento inferior.
Iterar según sea necesario
Continúe este proceso de forma iterativa, perfeccionando el agente en función de cada ciclo de evaluación, hasta que consiga un rendimiento satisfactorio en todos los flujos de trabajo.
