"/> ما هو التعلم المعزز وما هي استخداماته؟ • ديجيكالا ماج

ما هو التعلم المعزز وما هي استخداماته؟ • ديجيكالا ماج

التعلم المعزز هو جزء من التعلم الآلي الذي يحاول القيام بأشياء لتحقيق أقصى قدر من تحقيق مواقف معينة. الهدف من خوارزميات التعلم المعزز هو العثور على أفضل شيء يمكن القيام به في موقف معين. يمكن لهذا النوع من التعلم الآلي أن يتعلم ، حتى في البيئات المعقدة وغير المؤكدة ، تنفيذ عملية التعلم وتحقيق أهدافه. هذا النظام ، تمامًا مثل الدماغ البشري ، يكافئ الخيارات الجيدة ، ويتم تغريمه على الخيارات السيئة ، ويتعلم من كل خيار.

إن أبسط نموذج عقلي يمكن أن يساعدك على فهم التعلم المعزز هو لعبة فيديو. من المثير للاهتمام معرفة أن خوارزميات التعلم المعزز تلعب دورًا بارزًا في ألعاب الفيديو. في لعبة فيديو نموذجية لديك العناصر التالية ؛

  • وكيل (لاعب) يقوم بأشياء مختلفة
  • الأشياء التي يجب على الضابط القيام بها (التحرك في الفضاء ، أو شراء جهاز ، أو أي شيء آخر)
  • مكافآت الضباط (العملات المعدنية ، تدمير الأعداء ، …)
  • البيئة التي يوجد بها الوكيل (غرفة ، خريطة ، إلخ.)
  • الحالة المحددة التي يوجد فيها الضابط حاليًا (جزء محدد من الغرفة ، جزء محدد من الخريطة ، على سبيل المثال بجوار مربع)
  • هدف للضابط الذي يحقق أعلى مكافأة ممكنة بتحقيقه

هذه هي بالضبط العناصر التي تشكل التعلم المعزز (ربما يكون التعلم الآلي لعبة في الواقع.) في التعلم المعزز ، نقوم بتوجيه الوكيل خطوة بخطوة من خلال البيئة ومكافأته إذا كان يقوم بعمله أو وظيفتها بشكل صحيح في كل مرحلة. هل سمعت عن مصطلح عملية اتخاذ القرار ماركوف؟ هذا هو أفضل ما يمكن أن يصف هذا الإعداد الدقيق.

تخيل فأرًا في متاهة لتوضيح أفضل ؛

ما هو التعلم المعزز وما هي استخداماته؟ • ديجيكالا ماج أكو وب

إذا وجدت نفسك في هذه المتاهة وكان هدفك هو تحقيق المزيد ، أي جمع المزيد من الماء والجبن ، فسوف تحسب كيف ستحصل على المزيد من المكافآت. على سبيل المثال ، ماذا تفعل إذا كانت هناك ثلاث مكافآت على يمينك ومكافأة واحدة على يسارك؟ سوف تذهب بالتأكيد إلى اليمين.

هذه هي الطريقة التي يعمل بها التعلم المعزز. في كل حالة ، يقوم بحساب جميع الإجراءات الممكنة ، في هذه الحالة الذهاب إلى اليسار أو اليمين أو لأعلى أو لأسفل ، ويقوم بتنفيذ الإجراء الذي له أفضل نتيجة. إذا تكررت هذه العملية عدة مرات ، فيجب أن يعرف الماوس الآخر أفضل مسار.

اقرأ
طقم الإنذار الإلكتروني للمصنع الهندسي ؛ ترفيه عملي للمراهقين

ولكن كيف ستقرر بالضبط أفضل نتيجة؟

عملية صنع القرار في التعلم المعزز

هناك طريقتان رئيسيتان لتدريس اتخاذ القرار الجيد في بيئات التعلم المعززة ؛

  • تعلم سياسة أو سياسة
  • Q- التعلم / وظيفة القيمة

تعلم السياسة

يجب اعتبار تعلم السياسة بمثابة تعليمات مفصلة للغاية. تخبر السياسة الضابط بالضبط بما يجب فعله في كل موقف. قد يكون جزء من السياسة شيئًا كالتالي: “إذا واجهت العدو وكان العدو أقوى منك ، انسحب” إذا نظرت إلى السياسات كوظيفة ، فهناك مدخل واحد فقط ؛ شرط. لكن معرفة السياسة التي يجب استخدامها ليس بالأمر السهل وتتطلب معرفة عميقة وكافية بالوظيفة المعقدة التي تقود الخريطة نحو الهدف.

تم إجراء بحث مثير للاهتمام حول استخدام التعلم العميق لتعلم السياسات في سيناريوهات التعلم المعزز. استخدم Andrej Karpathy شبكة عصبية لتعليم الضابط لعبة البونج الكلاسيكية. هذا ليس مفاجئًا لأننا نعلم أن الشبكات العصبية تعمل جيدًا في المواقف المعقدة.

Q- التعلم – وظيفة القيمة

هناك طريقة أخرى لتوجيه الضابط وهي إعطائه إطار عمل لاتخاذ قراراته ، بدلاً من إخباره بما يجب فعله بالضبط في كل مرحلة. على عكس طريقة تعلم السياسة ، فإن Q-Learning له مدخلين ؛ الوضع والعمل. إذا كنت في تقاطع ، فإن Q-Learning يخبرك بالقيمة المتوقعة لكل مهمة يمكن أن يقوم بها وكيلك (اذهب يسارًا أو يمينًا أو أيًا كان).

أحد الأشياء التي تحتاج إلى معرفتها حول Q-Learning هو أنه لا يقدّر فقط القيمة الفورية لتنفيذ إجراء ما في موقف معين ، ولكن أيضًا القيم المحتملة التي قد تنجم عن القيام بالمهام الحالية.

بالنسبة لأولئك الذين هم على دراية بتمويل الشركات ، فإن Q-Learning يشبه تحليل التدفق النقدي المخصوم ، والذي يأخذ في الاعتبار كل القيمة المستقبلية المحتملة عند تحديد القيمة الحالية للإجراء (الأصل). في الواقع ، يستخدم Q-Learning أيضًا عامل خصم للإشارة إلى أن المكافآت المستقبلية أقل قيمة مما هي عليه الآن.

اقرأ
تعمل مجموعة Alphabet الفرعية الجديدة على المستحضرات الصيدلانية القائمة على الذكاء الاصطناعي

تعلم السياسات و Q-Learning هما طريقتان رئيسيتان لتوجيه الوكيل في التعلم المعزز ، ولكن يوجد الآن عدد من الأساليب الجديدة للتعلم العميق التي يمكن دمجها مع هذين النهجين أو إنشاء حل إبداعي آخر.

نشرت DeepMind مقالاً عن استخدام الشبكات العصبية (تسمى شبكات Deep Q) لتقريب وظائف Q-Learning ، وحققت نتائج ملحوظة. بعد بضع سنوات ، جمع نهج رائد معروف باسم A3C بين منظوري تعلم السياسة و Q-Learning.

يمكن أن تؤدي إضافة الشبكات العصبية إلى أي شيء إلى تعقيده. ضع في اعتبارك أن كل أساليب التعلم هذه لها غرض بسيط ؛ التوجيه الفعال لوكيلك في البيئة وتحقيق أفضل مكافأة ، هذا كل شيء.

تطبيقات التعلم المعزز

على الرغم من أن المفاهيم قد دعمت التعلم المعزز على مدار العقود الماضية ، إلا أنه للأسف لم يتم استخدامه على نطاق واسع في الممارسة حتى الآن. هناك عدة أسباب لذلك ، لكنهم جميعًا يعتمدون على شيء واحد ؛

يسعى التعلم المعزز إلى تعديل الخوارزميات الأخرى لأداء مهام محددة جيدًا بشكل فعال.

لهذا السبب ، عندما تكون بيئة التعلم الآلي غير مؤكدة ومعقدة ، فمن الأفضل استخدام التعلم المعزز.

كانت ألعاب الفيديو أكثر الوسائل التعليمية العملية استخدامًا في العقود الأخيرة. أسفرت خوارزميات التعلم المعزز المعروفة باسم Cut Edge عن نتائج فعالة في الألعاب الحديثة والكلاسيكية التي تمكنت من التفوق بشكل كبير على المنافسين البشريين. ألعاب الفيديو هي مجموعات معقدة جذابة للغاية لخوارزميات التعلم المعزز.

1633591652 49 ما هو التعلم المعزز وما هي استخداماته؟ • ديجيكالا ماج أكو وب

تم نشر هذا المخطط في مقال DeepMind. لأكثر من نصف الألعاب التي تم اختبارها ، كان اللاعب قادرًا على تلبية المعايير البشرية وأظهر ضعف مستوى المهارة. بالطبع ، في بعض الألعاب ، لم تكن الخوارزميات قريبة حتى من الأداء البشري.

مجال آخر حقق فيه تحسين التعلم نجاحًا عمليًا هو الأتمتة الصناعية والروبوتات. يمكن بسهولة اعتبار الروبوتات عوامل أو لاعبين في البيئة ، وقد ثبت أن التعلم المعزز هو حل عملي للتدريب.

اقرأ
تحويل صورة سيلفي إلى لوحة كلاسيكية باستخدام الذكاء الاصطناعي

بمساعدة التعلم المحسّن ، تمكنت Google من تحسين تكاليف مركز البيانات. لقد استخدموا التعلم المعزز لتقليل الطاقة المستخدمة للمبردات وبالتالي إجمالي استهلاك الطاقة.

الصحة والتعليم من المجالات الأخرى التي تم استخدام التعلم المعزز فيها. بالطبع ، معظم العمل الذي تم إنجازه حتى الآن في هذه المجالات كان بحثًا أكاديميًا. يمكن أن تساعدك طريقة التعلم الآلي هذه في اختيار أفضل علاج وأفضل دواء للمرضى وأن تكون مدربًا جذابًا. حقق التعلم الآلي تطورات مثيرة للاهتمام في السنوات الأخيرة.

تحديات العمل مع التعلم المعزز

على الرغم من أن التعلم المعزز قد قطع خطوات كبيرة ، إلا أنه لا يزال من الصعب جدًا العمل معه.

القضية الأولى هي البيانات. يتطلب التعلم المعزز لتحقيق الدقة الكافية قدرًا كبيرًا من البيانات للتدريب ، بينما تصل الخوارزميات الأخرى إلى هذا المستوى من الدقة بشكل أسرع. تتطلب RainbowDQN ، على سبيل المثال ، 18 مليون إطار من ألعاب Atari أو 83 ساعة من التدريب. يمكن للبشر القيام بذلك بشكل أسرع.

التحدي الآخر في العمل مع التعلم المعزز هو مشكلة المجال المحدد. التعلم المعزز هو خوارزمية عامة يجب أن تكون نظريًا قادرة على حل جميع المشكلات. لكن كل هذه المشكلات لها حلول محددة تعمل بشكل أفضل من التعلم المعزز ، مثل تحسين المسار عبر الإنترنت لروبوتات MuJuCo.

أخيرًا ، أهم شيء في التعلم المعزز هو تصميم وظيفة المكافأة. إذا كان مصممو الخوارزميات هم من وضعوا المكافآت ، فستتأثر نتائج النموذج بشدة بالمصممين.

حتى عندما يتم ضبط وظيفة المكافأة بشكل جيد ، لا يزال التعلم المعزز لديه طريقة ذكية لإيجاد طرق مشابهة لما تريده والعمل وفقًا لها ، وهو أمر خطير في الممارسة العملية. لأن النتيجة هي أننا عالقون في المواقف المحلية المثلى ولن نصل إلى الأساليب والنتائج الجديدة التي يجب أن يكون النظام قادرًا على تحقيقها بعد التعلم.

من المتوقع أن تكون الأبحاث الجارية قادرة على التغلب على العوائق التي تحول دون التعلم المعزز بمرور الوقت وتمكين استخدام أفضل وأكثر لهذه التكنولوجيا.

إرسال تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *