تطوير برنامج حماية للذكاء الاصطناعي من الاختراق - عرب بريس

0 تعليق ارسل طباعة
جو 24 :

أعلنت شركة "أنثروبيك" عن تطوير نظام جديد يمكنه حماية نماذج الذكاء الاصطناعي من محاولات كسر حواجز الحماية (جيل بريك).

وفي التقنية الجديدة يمكن كشف محاولة كسر الحماية على مستوى الإدخال ومنع الذكاء الاصطناعي من توليد استجابة ضارة نتيجة لذلك، واختبرت شركة الذكاء الاصطناعي قوة النظام من خلال برامج كسر الحماية المستقلة وفتحت أيضا عرضا توضيحياً حياً مؤقتاً للنظام للسماح لأي فرد مهتم باختبار قدراته، وفق "غادجيت 360".

ويُطلق على هذا النظام اسم Dubbed Constitutional Classifiers ، وهي عبارة عن تقنية حماية يمكنها اكتشاف محاولات الاختراق.

ويشير "كسر الحماية في الذكاء الاصطناعي التوليدي"، إلى تقنيات الكتابة السريعة غير العادية التي يمكن أن تجبر نموذج الذكاء الاصطناعي على عدم الالتزام بإرشادات التدريب الخاصة به وإنشاء محتوى ضار وغير مناسب.

وكسر الحماية ليس شيئاً جديداً، ويطبق معظم مطوري الذكاء الاصطناعي العديد من الضمانات ضده داخل النموذج، غير أنه، ونظراً لأن مهندسي كسر الحماية يواصلون إنشاء تقنيات جديدة، فمن الصعب بناء نموذج لغوي كبير (LLM) محمي تماماً من مثل هذه الهجمات.

وتتضمن بعض تقنيات كسر الحماية مطالبات طويلة للغاية ومعقدة تربك قدرات الذكاء الاصطناعي على التفكير.

ويستخدم البعض الآخر مطالبات متعددة لكسر الضمانات، ويستخدم البعض حتى أحرفاً كبيرة غير عادية لاختراق دفاعات الذكاء الاصطناعي.

وفي منشور يفصل البحث، أعلنت شركة أنثروبيك أنها تعمل على تطوير برنامج كطبقة واقية لنماذج الذكاء الاصطناعي.

وعلاوة على ذلك، أثناء اختبار التقييم الآلي، حيث جربت شركة الذكاء الاصطناعي Claude باستخدام 10000 مطالبة لكسر الحماية، ووجد أن معدل النجاح كان 4.4 بالمائة، مقابل 86 بالمائة لنموذج الذكاء الاصطناعي غير المحمي، وتمكنت أنثروبيك أيضاً من تقليل الرفض المفرط (رفض الاستعلامات غير الضارة) ومتطلبات قوة المعالجة الإضافية للبرنامج الجديد.

 


إخترنا لك

أخبار ذات صلة

0 تعليق