🚨 هل يمكن للذكاء الاصطناعي أن يُعيد إنتاج أوراق بحثية من مؤتمرات كبرى مثل ICML؟
OpenAI أطلقت PaperBench للإجابة!

🔬 PaperBench يختبر قدرة الوكلاء الذكيين على:
- فهم أوراق بحثية حديثة
- كتابة الكود من الصفر
- إعادة تنفيذ التجارب

تم اختيار 20 ورقة من ICML 2024، مع 8316 مهمة فرعية لكل الأوراق، وتعاون مع المؤلفين الأصليين لوضع معايير دقيقة.

⚖️ التقييم تم عبر قاضٍ ذكي (LLM Judge) بدقة تقارب البشر (F1=0.83).
لكن النتائج؟ صادمة!

📉 الأداء:
- Claude 3.5: 21%
- o1: 13.2%
- GPT-4o: 4.1%
- دكتوراه بشر: 41.4% على 3 أوراق في 48 ساعة

🧠 الفشل كان بسبب:
- غياب التخطيط طويل المدى
- توقف مبكر
- حساسية لأسلوب البرمجة

🎯 النتيجة؟ الذكاء الاصطناعي قوي في الكود، ضعيف في التجارب المعقدة.
المستقبل يتطلب وكلاء أكثر استراتيجية واستمرارية.

📎 الورقة: [arxiv.org/abs/2404.04080](https://arxiv.org/abs/2404.04080)

8 نظرات