كيف يعمل الذكاء الاصطناعي
يستخدم Pong شبكة DQN مع اللعب الذاتي. يتنافس وكيلان؛ يتدرّب كل منهما ضد نسخة مجمّدة من خصمه، فترتفع الصعوبة تلقائياً.
الحالة والأفعال والمكافأة
- الحالة: مواضع المضارب والكرة وسرعة الكرة.
- الأفعال: تحريك المضرب لأعلى أو لأسفل أو البقاء.
- المكافأة: +1 عند التسجيل، -1 عند استقبال هدف.
لماذا اللعب الذاتي
أمام خصم ثابت قد يبالغ الوكيل في الملاءمة. أما اللعب الذاتي فيخلق منهجاً يتحسّن باستمرار: كلما تحسّن طرف دفع الآخر للتحسّن.
البقاء بارعاً
تُهيَّأ الشبكتان بسياسة اعتراض تحليلية (استهداف موضع وصول الكرة المتوقَّع) وتُثبَّتان عليها أثناء التدريب — منظِّم يسمح بالضبط الدقيق دون النسيان الكارثي الذي يجعل وكلاء اللعب الذاتي ينهارون مع الوقت.
ما تراه على الشاشة
تشاهد سياستين متعلّمتين تتبادلان الكرة — دون أي ذكاء مبرمج يدوياً، فقط شبكتان علّمتا نفسيهما وتحافظان على مستواهما.