ईआईटीसी/एआई/एआरएल एडवांस्ड रीइन्फोर्समेंट लर्निंग कृत्रिम बुद्धिमत्ता में रीइन्फोर्समेंट लर्निंग के लिए डीपमाइंड के दृष्टिकोण पर यूरोपीय आईटी प्रमाणन कार्यक्रम है।
ईआईटीसी/एआई/एआरएल एडवांस्ड रीइन्फोर्समेंट लर्निंग का पाठ्यक्रम निम्नलिखित संरचना के भीतर आयोजित डीपमाइंड के परिप्रेक्ष्य से सुदृढीकरण सीखने की तकनीकों में सैद्धांतिक पहलुओं और व्यावहारिक कौशल पर केंद्रित है, जिसमें इस ईआईटीसी प्रमाणन के संदर्भ के रूप में व्यापक वीडियो उपदेशात्मक सामग्री शामिल है।
सुदृढीकरण सीखने (आरएल) मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि कैसे बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए वातावरण में कार्रवाई करनी चाहिए। सुदृढीकरण सीखना तीन बुनियादी मशीन सीखने के प्रतिमानों में से एक है, पर्यवेक्षित शिक्षण और अनुपयोगी शिक्षण के साथ।
सुदृढीकरण सीखने को लेबल/आउटपुट जोड़े की जरूरत नहीं है, और स्पष्ट रूप से सुधारा जा करने के लिए उप-इष्टतम कार्यों की जरूरत नहीं है में निगरानी सीखने से अलग है। इसके बजाय ध्यान अन्वेषण (अपरिवर्तित क्षेत्र के) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।
पर्यावरण को आमतौर पर मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम गतिशील तकनीकी तकनीकों का उपयोग करते हैं। शास्त्रीय गतिशील प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि उत्तरार्द्ध एमडीपी के सटीक गणितीय मॉडल के ज्ञान को ग्रहण नहीं करता है और वे बड़े एमडीपी को लक्षित करते हैं जहां सटीक विधियां संक्रामक हो जाती हैं।
अपनी व्यापकता के कारण, सुदृढीकरण सीखने का कई विषयों में अध्ययन किया जाता है, जैसे कि गेम थ्योरी, नियंत्रण सिद्धांत, संचालन अनुसंधान, सूचना सिद्धांत, सिमुलेशन-आधारित अनुकूलन, मल्टी-एजेंट सिस्टम, झुंड खुफिया और आँकड़े। संचालन अनुसंधान और नियंत्रण साहित्य में, सुदृढीकरण सीखने को अनुमानित गतिशील प्रोग्रामिंग, या न्यूरो-गतिशील प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का भी इष्टतम नियंत्रण के सिद्धांत में अध्ययन किया गया है, जो कि ज्यादातर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन के साथ संबंधित है, और उनके सटीक गणना के लिए एल्गोरिदम, और सीखने या सन्निकटन के साथ कम है, विशेष रूप से सलाह के अभाव में पर्यावरण का एक गणितीय मॉडल। अर्थशास्त्र और गेम थ्योरी में, सुदृढीकरण सीखने का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्क के तहत संतुलन कैसे उत्पन्न हो सकता है।
बुनियादी सुदृढीकरण को मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है। गणित में, एक मार्कोव निर्णय प्रक्रिया (एमडीपी) एक असतत समय स्टोकेस्टिक नियंत्रण प्रक्रिया है। यह उन स्थितियों में मॉडलिंग निर्णय लेने के लिए एक गणितीय ढांचा प्रदान करता है जहां परिणाम आंशिक रूप से यादृच्छिक होते हैं और आंशिक रूप से निर्णय निर्माता के नियंत्रण में होते हैं। MDPs डायनामिक प्रोग्रामिंग के माध्यम से हल की गई अनुकूलन समस्याओं का अध्ययन करने के लिए उपयोगी हैं। एमडीपी कम से कम 1950 के दशक की शुरुआत में जाना जाता था। मार्कोव निर्णय प्रक्रियाओं पर अनुसंधान का एक मुख्य निकाय रोनाल्ड हॉवर्ड की 1960 की पुस्तक, डायनामिक प्रोग्रामिंग और मार्कोव प्रक्रियाओं से उत्पन्न हुआ। उनका उपयोग कई विषयों में किया जाता है, जिसमें रोबोटिक्स, स्वचालित नियंत्रण, अर्थशास्त्र और विनिर्माण शामिल हैं। एमडीपी का नाम रूसी गणितज्ञ एंड्री मार्कोव से आता है क्योंकि वे मार्कोव श्रृंखला का विस्तार हैं।
प्रत्येक समय कदम पर, प्रक्रिया कुछ राज्य एस में होती है, और निर्णय निर्माता किसी भी कार्रवाई का चयन कर सकता है जो राज्य एस में उपलब्ध है। प्रक्रिया अगली बार कदम पर प्रतिक्रिया करती है जो बेतरतीब ढंग से एक नए राज्य एस में चलती है, और दे रही है निर्णय निर्माता एक संबंधित इनाम रा (एस, एस ')।
संभावना है कि प्रक्रिया अपने नए राज्य एस में स्थानांतरित हो जाती है, चुनी हुई कार्रवाई से प्रभावित होती है। विशेष रूप से, यह राज्य संक्रमण फ़ंक्शन पा (एस, एस ') द्वारा दिया जाता है। इस प्रकार, अगला राज्य एस 'वर्तमान स्थिति एस और निर्णय निर्माता की कार्रवाई पर निर्भर करता है। लेकिन एस और ए को देखते हुए, यह सशर्त रूप से सभी पिछले राज्यों और कार्यों से स्वतंत्र है। दूसरे शब्दों में, एमडीपी के राज्य परिवर्तन मार्कोव संपत्ति को संतुष्ट करते हैं।
मार्कोव निर्णय प्रक्रिया मार्कोव श्रृंखला का एक विस्तार है; अंतर क्रियाओं (पसंद की अनुमति) और पुरस्कार (प्रेरणा देने) का जोड़ है। इसके विपरीत, यदि प्रत्येक राज्य के लिए केवल एक ही क्रिया मौजूद है (उदाहरण के लिए "प्रतीक्षा") और सभी पुरस्कार समान हैं (उदाहरण के लिए "शून्य"), एक मार्कोव निर्णय प्रक्रिया एक मार्कोव श्रृंखला में कम हो जाती है।
सुदृढीकरण सीखने वाला एजेंट असतत समय चरणों में अपने पर्यावरण के साथ बातचीत करता है। प्रत्येक समय टी पर, एजेंट को वर्तमान स्थिति एस (टी) और रिवार्ड आर (टी) प्राप्त होता है। यह तब उपलब्ध क्रियाओं के सेट से एक ए (टी) चुनता है, जिसे बाद में पर्यावरण में भेजा जाता है। पर्यावरण एक नई स्थिति S (t + 1) की ओर बढ़ता है और संक्रमण से जुड़े इनाम r (t + 1) निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य ऐसी नीति सीखना है जो अपेक्षित संचयी इनाम को अधिकतम करता है।
एमडीपी के रूप में समस्या का समाधान एजेंट को मानता है जो वर्तमान पर्यावरणीय स्थिति को प्रत्यक्ष रूप से देखता है। इस मामले में समस्या को पूर्ण अवलोकन कहा जाता है। यदि एजेंट के पास केवल राज्यों के सबसेट तक ही पहुँच है, या यदि अवलोकन किए गए राज्यों को शोर से दूषित किया जाता है, तो एजेंट को आंशिक रूप से अवलोकन करने के लिए कहा जाता है, और औपचारिक रूप से समस्या को आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया के रूप में तैयार किया जाना चाहिए। दोनों मामलों में, एजेंट को उपलब्ध कार्यों का सेट प्रतिबंधित किया जा सकता है। उदाहरण के लिए, खाता शेष की स्थिति को सकारात्मक होने के लिए प्रतिबंधित किया जा सकता है; यदि राज्य का वर्तमान मूल्य 3 है और राज्य संक्रमण 4 से मूल्य कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।
जब एजेंट के प्रदर्शन की तुलना उस एजेंट से की जाती है, जो आशावादी कार्य करता है, तो प्रदर्शन का अंतर अफसोस की धारणा को जन्म देता है। आशा के निकट कार्य करने के लिए, एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (यानी, भविष्य की आय को अधिकतम करना) के बारे में कारण होना चाहिए, हालांकि इसके साथ जुड़ा तत्काल इनाम नकारात्मक हो सकता है।
इस प्रकार, सुदृढीकरण सीखने विशेष रूप से उन समस्याओं के लिए अच्छी तरह से अनुकूल है जिनमें दीर्घकालिक बनाम अल्पकालिक इनाम व्यापार-बंद शामिल हैं। यह रोबोट नियंत्रण, एलेवेटर शेड्यूलिंग, दूरसंचार, बैकगैमौन, चेकर्स और गो (अल्फा) सहित विभिन्न समस्याओं के लिए सफलतापूर्वक लागू किया गया है।
दो तत्व सुदृढीकरण सीखने को शक्तिशाली बनाते हैं: प्रदर्शन का अनुकूलन करने के लिए नमूनों का उपयोग और बड़े वातावरण से निपटने के लिए फ़ंक्शन सन्निकटन का उपयोग। इन दो प्रमुख घटकों के लिए धन्यवाद, सुदृढीकरण सीखने का उपयोग निम्न स्थितियों में बड़े वातावरण में किया जा सकता है:
- पर्यावरण का एक मॉडल ज्ञात है, लेकिन एक विश्लेषणात्मक समाधान उपलब्ध नहीं है।
- केवल पर्यावरण का एक सिमुलेशन मॉडल दिया गया है (सिमुलेशन-आधारित अनुकूलन का विषय)।
- पर्यावरण के बारे में जानकारी एकत्र करने का एकमात्र तरीका इसके साथ बातचीत करना है।
इन समस्याओं में से पहले दो को नियोजन समस्या माना जा सकता है (चूंकि मॉडल का कोई रूप उपलब्ध है), जबकि अंतिम को वास्तविक सीखने की समस्या माना जा सकता है। हालाँकि, सुदृढीकरण अधिगम, दोनों नियोजन समस्याओं को मशीन अधिगम समस्याओं में परिवर्तित करता है।
बहु-सशस्त्र दस्यु समस्या के माध्यम से अन्वेषण बनाम शोषण व्यापार बंद का सबसे अच्छी तरह से अध्ययन किया गया है और बर्नेटस और केथेकिस (1997) में परिमित राज्य अंतरिक्ष एमडीपी के लिए।
सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; बेतरतीब ढंग से चयन, अनुमानित संभाव्यता वितरण के संदर्भ के बिना, खराब प्रदर्शन को दर्शाता है। (छोटे) परिमित मार्कोव निर्णय प्रक्रियाओं का मामला अपेक्षाकृत अच्छी तरह से समझा जाता है। हालांकि, एल्गोरिदम की कमी के कारण जो राज्यों की संख्या के साथ अच्छी तरह से पैमाने पर (या अनंत राज्य के रिक्त स्थान के साथ समस्याओं के पैमाने), सरल अन्वेषण के तरीके सबसे व्यावहारिक हैं।
भले ही अन्वेषण के मुद्दे की अवहेलना की जाती है और यहां तक कि अगर राज्य अवलोकन योग्य था, तो समस्या पिछले अनुभव का उपयोग करने के लिए बनी रहती है ताकि यह पता लगाया जा सके कि किन कार्यों के कारण उच्च संचयी पुरस्कार मिलते हैं।
प्रमाणीकरण पाठ्यक्रम के बारे में विस्तार से जानने के लिए आप नीचे दी गई तालिका का विस्तार और विश्लेषण कर सकते हैं।
ईआईटीसी/एआई/एआरएल एडवांस्ड रीइन्फोर्समेंट लर्निंग सर्टिफिकेशन पाठ्यक्रम एक वीडियो फॉर्म में ओपन-एक्सेस उपदेशात्मक सामग्री का संदर्भ देता है। सीखने की प्रक्रिया को प्रासंगिक पाठ्यक्रम भागों को कवर करते हुए चरण-दर-चरण संरचना (कार्यक्रम -> पाठ -> विषय) में विभाजित किया गया है। डोमेन विशेषज्ञों के साथ असीमित परामर्श भी प्रदान किया जाता है।
प्रमाणन प्रक्रिया की जांच के विवरण के लिए यह किस प्रकार काम करता है?.
पाठ्यक्रम संदर्भ संसाधन
डीप रिनफोर्स लर्निंग प्रकाशन के माध्यम से मानव स्तर पर नियंत्रण
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
यूसी बर्कले में गहन सुदृढीकरण सीखने पर ओपन-एक्सेस कोर्स
http://rail.eecs.berkeley.edu/deeprlcourse/
आरएल ने मैनिफोल्ड.ई से के-आर्मड बैंडिट समस्या के लिए आवेदन किया
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL उन्नत सुदृढीकरण शिक्षण कार्यक्रम के लिए संपूर्ण ऑफ़लाइन स्व-शिक्षण तैयारी सामग्री को एक पीडीएफ फ़ाइल में डाउनलोड करें।
ईआईटीसी/एआई/एआरएल प्रारंभिक सामग्री - मानक संस्करण
EITC/AI/ARL प्रारंभिक सामग्री - समीक्षा प्रश्नों के साथ विस्तारित संस्करण