पायथन का उपयोग करके मशीन लर्निंग में अपने स्वयं के K निकटतम पड़ोसियों (KNN) एल्गोरिदम को लागू करने के संदर्भ में ट्रेन और परीक्षण सेट के लिए शब्दकोशों को पॉप्युलेट करने के लिए, हमें एक व्यवस्थित दृष्टिकोण का पालन करने की आवश्यकता है। इस प्रक्रिया में हमारे डेटा को एक उपयुक्त प्रारूप में परिवर्तित करना शामिल है जिसका उपयोग KNN एल्गोरिदम द्वारा किया जा सकता है।
सबसे पहले, आइए पायथन में शब्दकोशों की मूल अवधारणा को समझें। शब्दकोश कुंजी-मूल्य युग्मों का एक अव्यवस्थित संग्रह है, जहां प्रत्येक कुंजी अद्वितीय होती है। मशीन लर्निंग के संदर्भ में, शब्दकोशों का उपयोग आमतौर पर डेटासेट का प्रतिनिधित्व करने के लिए किया जाता है, जहां कुंजियाँ सुविधाओं या विशेषताओं के अनुरूप होती हैं, और मान संबंधित डेटा बिंदुओं का प्रतिनिधित्व करते हैं।
ट्रेन और परीक्षण सेट के लिए शब्दकोश तैयार करने के लिए, हमें निम्नलिखित कदम उठाने होंगे:
1. डेटा तैयारी: हमारे मशीन लर्निंग कार्य के लिए डेटा एकत्र करने और तैयार करने से शुरुआत करें। इसमें आम तौर पर डेटा को साफ करना, गायब मानों को संभालना और डेटा को उपयुक्त प्रारूप में बदलना शामिल है। सुनिश्चित करें कि डेटा को ठीक से लेबल या वर्गीकृत किया गया है, क्योंकि पर्यवेक्षित शिक्षण कार्यों के लिए यह आवश्यक है।
2. डेटासेट को विभाजित करना: इसके बाद, हमें अपने डेटासेट को दो भागों में विभाजित करना होगा: ट्रेन सेट और परीक्षण सेट। ट्रेन सेट का उपयोग हमारे केएनएन एल्गोरिदम को प्रशिक्षित करने के लिए किया जाएगा, जबकि परीक्षण सेट का उपयोग इसके प्रदर्शन का मूल्यांकन करने के लिए किया जाएगा। यह विभाजन हमें यह आकलन करने में मदद करता है कि हमारा एल्गोरिदम अदृश्य डेटा को कितनी अच्छी तरह सामान्यीकृत करता है।
3. फ़ीचर एक्सट्रैक्शन: एक बार जब डेटासेट विभाजित हो जाता है, तो हमें डेटा से संबंधित फ़ीचर निकालने और उन्हें हमारे शब्दकोशों में कुंजी के रूप में निर्दिष्ट करने की आवश्यकता होती है। हमारे डेटा की प्रकृति के आधार पर विशेषताएँ संख्यात्मक या श्रेणीबद्ध हो सकती हैं। उदाहरण के लिए, यदि हम छवियों के डेटासेट के साथ काम कर रहे हैं, तो हम रंग हिस्टोग्राम या बनावट विवरणक जैसी सुविधाएं निकाल सकते हैं।
4. मान निर्दिष्ट करना: सुविधाओं को निकालने के बाद, हमें अपने शब्दकोशों में प्रत्येक कुंजी के लिए संबंधित मान निर्दिष्ट करने की आवश्यकता है। ये मान हमारे डेटासेट में वास्तविक डेटा बिंदुओं या उदाहरणों का प्रतिनिधित्व करते हैं। प्रत्येक उदाहरण को उसके संबंधित फीचर मानों के साथ संबद्ध किया जाना चाहिए।
5. ट्रेन सेट डिक्शनरी: ट्रेन सेट को दर्शाने के लिए एक डिक्शनरी बनाएं। इस शब्दकोश की कुंजियाँ विशेषताएँ होंगी, और मान सूचियाँ या सरणियाँ होंगी जिनमें ट्रेन सेट में प्रत्येक उदाहरण के लिए संबंधित सुविधा मान होंगे। उदाहरण के लिए, यदि हमारे पास दो विशेषताओं (आयु और आय) और तीन उदाहरणों वाला डेटासेट है, तो ट्रेन सेट शब्दकोश इस तरह दिख सकता है:
ट्रेन_सेट = {'उम्र': [25, 30, 35], 'आय': [50000, 60000, 70000]}
6. टेस्ट सेट डिक्शनरी: इसी तरह, टेस्ट सेट को दर्शाने के लिए एक डिक्शनरी बनाएं। इस शब्दकोश की कुंजियाँ ट्रेन सेट की तरह ही सुविधाएँ होंगी, और मान सूचियाँ या सरणियाँ होंगी जिनमें परीक्षण सेट में प्रत्येक उदाहरण के लिए संबंधित फ़ीचर मान होंगे। उदाहरण के लिए, यदि हमारे पास दो उदाहरणों वाला एक परीक्षण सेट है, तो परीक्षण सेट शब्दकोश इस तरह दिख सकता है:
test_set = {'उम्र': [40, 45], 'आय': [80000, 90000]}
7. शब्दकोशों का उपयोग: एक बार ट्रेन और परीक्षण सेट के लिए शब्दकोश भर जाने के बाद, हम उन्हें अपने KNN एल्गोरिदम में इनपुट के रूप में उपयोग कर सकते हैं। परीक्षण सेट में उदाहरणों के लिए पूर्वानुमान या वर्गीकरण करने के लिए एल्गोरिदम ट्रेन सेट से फीचर मानों का उपयोग करेगा।
इन चरणों का पालन करके, हम पायथन का उपयोग करके मशीन लर्निंग में अपने स्वयं के केएनएन एल्गोरिदम को लागू करने के संदर्भ में ट्रेन और परीक्षण सेट के लिए शब्दकोशों को प्रभावी ढंग से तैयार कर सकते हैं। ये शब्दकोश हमारे एल्गोरिदम के प्रदर्शन के प्रशिक्षण और मूल्यांकन के लिए आधार के रूप में काम करते हैं।
ट्रेन और परीक्षण सेट के लिए शब्दकोशों को पॉप्युलेट करने के लिए, हमें डेटासेट को तैयार करने और विभाजित करने, प्रासंगिक सुविधाओं को निकालने, शब्दकोशों में संबंधित कुंजियों के लिए फीचर मान निर्दिष्ट करने और इन शब्दकोशों को अपने स्वयं के केएनएन एल्गोरिदम में उपयोग करने की आवश्यकता है।
संबंधित अन्य हालिया प्रश्न और उत्तर अपने K निकटतम पड़ोसियों एल्गोरिथ्म को लागू करना:
- हम अपने K निकटतम पड़ोसी एल्गोरिदम की सटीकता की गणना कैसे करते हैं?
- ट्रेन और परीक्षण सेट में कक्षा का प्रतिनिधित्व करने वाली प्रत्येक सूची में अंतिम तत्व का क्या महत्व है?
- डेटासेट को प्रशिक्षण और परीक्षण सेट में विभाजित करने से पहले उसमें फेरबदल करने का उद्देश्य क्या है?
- K निकटतम पड़ोसियों एल्गोरिथ्म को लागू करने से पहले डेटासेट को साफ़ करना क्यों महत्वपूर्ण है?