قائمة مجانية

قائمة التدقيق الذاتي لأنظمة الذكاء الاصطناعي

20 سؤالاً تفصل بين نظام ذكاء اصطناعي موثوق ونظام يشكّل مخاطرة. طبّقوها على أي روبوت محادثة أو نظام معرفي أو وكيل منشور لديكم - أياً كان من بناه. وإن لم تستطيعوا الإجابة عن سؤال، فذلك بحد ذاته نتيجة.

استلموا القائمة عبر البريد

نرسل لكم هذه القائمة كمستند يمكن مشاركته مع فريقكم، مع ملاحظات عملية متفرقة عن جودة أنظمة الذكاء الاصطناعي. لا شيء غير ذلك.

لا رسائل مزعجة. إلغاء الاشتراك في أي وقت.

01الدقة والاستناد للمصادر

1.هل قاس أحد دقة إجابات النظام على مجموعة أسئلة موثقة مبنية من وثائقكم الحقيقية - وهل يمكنكم رؤية ذلك الرقم؟
2.عندما لا تكون الإجابة موجودة في المصادر، هل يقول النظام "لا أعلم" - أم ينتج شيئاً على أي حال؟
3.هل تستشهد كل إجابة واقعية بالوثيقة والفقرة المصدرية تحديداً؟
4.هل أُعيد قياس الدقة منذ الإطلاق، أم فقط أثناء العرض الأولي؟
5.إذا كان النظام يجيب بالعربية (أو أي لغة ثانية)، هل قيست الجودة لتلك اللغة على حدة؟

02الأمان

6.هل جرّب أحد حقن الأوامر ضده (تعليمات مخفية في مدخلات المستخدم أو الوثائق المرفوعة)؟
7.هل يمكن لجلسة مستخدم أن ترى بيانات مستخدم آخر - وهل اختُبر ذلك فعلاً؟
8.هل يمكن استدراج النظام لإجراءات أو تصريحات خارج نطاقه (خصومات، التزامات، استثناءات من السياسات)؟
9.هل يستطيع مستخدم مثابر استخراج التعليمات الداخلية للنظام؟

03التكلفة والاقتصاديات

10.هل تعرفون التكلفة الحقيقية لكل استعلام، شاملة إعادة المحاولات وحمل السياق - لا سعر المزود للرمز فحسب؟
11.كم تصبح الفاتورة الشهرية عند 10 أضعاف الحجم الحالي، وهل يملك أحد هذا الإسقاط مكتوباً؟
12.إذا رفع مزود النموذج أسعاره أو أوقف النموذج، ما مسار الانتقال؟

04التشغيل

13.لو تدهورت جودة الإجابات الأسبوع القادم، هل سينبهكم شيء - أم سيكتشفها العملاء أولاً؟
14.هل تُسجل كل التفاعلات بطريقة تتيح إعادة بناء ما قاله النظام ولمن؟
15.ماذا يحدث عند انقطاع مزود النموذج: تحويل سلس أم فشل صامت؟
16.هل يوجد مسار تصعيد بشري محدد عندما يكون النظام غير متأكد؟

05الملكية والحوكمة

17.هل تملكون الكود المصدري والتعليمات والإعدادات - أم يحتفظ بها المورّد؟
18.هل يوجد بيان مكتوب بالبيانات التي تغادر بنيتكم التحتية ووجهتها؟
19.هل يمكنكم تسمية الشخص المسؤول عن إجابات النظام - داخل شركتكم أو لدى المورّد؟
20.لو اختفى المورّد غداً، هل يستطيع غيره صيانة النظام من وثائقه؟

التقييم: احسبوا الأسئلة التي لم تستطيعوا الإجابة عنها أو أجبتم عنها بـ"لا". من 0 إلى 3: وضع صحي غير معتاد - تحققوا بقياس عيّني. من 4 إلى 8: وضع نموذجي مع انكشاف حقيقي يستحق القياس. 9 فأكثر: النظام يعمل على الثقة، لا على الدليل.

تريدون الإجابات مقاسةً لا مقدّرة؟

تدقيقنا بالرسوم الثابتة يجيب عن الأسئلة العشرين كلها بالأدلة: نسبة هلوسة مقاسة على وثائقكم، فحص أمني فعلي، وتقرير مكتوب خلال 10 أيام عمل.

اطلعوا على التدقيق الكامل