وصول الوكلاء والمعايير
اذهب إلى قسم الوكلاء والمعايير في إطار تقييم Beam AI.
اختر مساحة العمل المتعلقة بالوكيل الذي تقوم بتقييمه.
اختر الوكيل ومسار العمل
اختر الوكيل الذي تقوم بتقييمه.
حدد سير العمل المحدد المرتبط بحالات الاختبار.
تحديد الخطوات لكل سير عمل
داخل كل سير عمل، ستجد خطوات فردية تمثل المهام المنفصلة التي يجب على الوكيل إكمالها.
سيكون لكل خطوة معايير تقييم خاصة بها لقياس أداء الوكيل في تلك المهمة.
حدد معايير التقييم لكل خطوة
انقر على خطوة لعرض أو تحرير تفاصيل تقييمها.
حدد تقنية التقييم:
اختر تقنية مناسبة بناءً على احتياجات التقييم، مثل التقييم بناءً على النتائج المتوقعة.
اختر معايير التحقق ضد:
هذا يحدد أساس المقارنة، مثل استخدام النتائج المتوقعة (إجابة دقيقة وصحيحة) أو القالب (نموذج عام مع عناصر نائبة).
أفضل الممارسات لاختيار بين المخرجات المتوقعة والموجهات
استخدام النتيجة المتوقعة:
عندما يجب أن يكون رد الوكيل دقيقًا أو محددًا للغاية.
للمهام التي يوجد فيها إجابة واحدة صحيحة أو نتيجة محددة بدقة.
تشمل السيناريوهات المثال الأعمال التي تتطلب استخراج البيانات، حيث يجب استخراج قطعة معينة من المعلومات (مثل رقم أو معرف) بشكل صحيح.
استخدام التوجيه:
عندما تكون هناك حاجة إلى المرونة في الرد، ويمكن أن يختلف الناتج داخل هيكل مقبول.
للمهام التي يكون فيها التنسيق أكثر أهمية من صياغة الكلمات الدقيقة، مثل توليد ردود بهيكل معين.
هذا النهج مناسب عندما قد تحتوي الردود على تفاصيل متغيرة ولكن يجب أن تلتزم بقالب موحد.
كتابة المخرجات المتوقعة والتعليمات بوضوح وفعالية
المخرجات المتوقعة:
اكتب المخرجات المتوقعة لتكون دقيقة قدر الإمكان، موضحاً بالضبط ما يجب على الوكيل (agent) أن يقدمه.
تجنب الغموض لضمان إمكانية تقييم استجابة الوكيل بدقة ضد معيار واضح.
الموجهات:
اكتب موجهات تحتوي على أماكن مخصصة للعناصر المتغيرة، مع التركيز على البنية والمكونات الأساسية بدلاً من الكلمات المحددة.
استخدم تسميات واضحة في الأماكن المخصصة لتحديد نوع المعلومات التي ينبغي أن تذهب هناك (على سبيل المثال،
<اسم العميل>
أو<رقم الطلب>
).تأكد من أن الموجه يغطي جميع الأجزاء الأساسية من الاستجابة، بحيث حتى مع استخدام كلمات مرنة، يفي الوكيل بالبنية المطلوبة.
مراجعة المعايير وتأكيدها
تأكد من أن معايير كل خطوة موجزة ومتسقة ومتوافقة مع السلوك المطلوب للوكيل.
احفظ أي تغييرات لتأكيد معايير التقييم.