हम ट्रेन और परीक्षण सेट के लिए शब्दकोश कैसे तैयार करते हैं?

by EITCA अकादमी / सोमवार, 07 अगस्त 2023 / में प्रकाशित Artificial Intelligence, पायथन के साथ EITC/AI/MLP मशीन लर्निंग, प्रोग्रामिंग मशीन लर्निंग, अपने K निकटतम पड़ोसियों एल्गोरिथ्म को लागू करना, परीक्षा समीक्षा

पायथन का उपयोग करके मशीन लर्निंग में अपने स्वयं के K निकटतम पड़ोसियों (KNN) एल्गोरिदम को लागू करने के संदर्भ में ट्रेन और परीक्षण सेट के लिए शब्दकोशों को पॉप्युलेट करने के लिए, हमें एक व्यवस्थित दृष्टिकोण का पालन करने की आवश्यकता है। इस प्रक्रिया में हमारे डेटा को एक उपयुक्त प्रारूप में परिवर्तित करना शामिल है जिसका उपयोग KNN एल्गोरिदम द्वारा किया जा सकता है।

सबसे पहले, आइए पायथन में शब्दकोशों की मूल अवधारणा को समझें। शब्दकोश कुंजी-मूल्य युग्मों का एक अव्यवस्थित संग्रह है, जहां प्रत्येक कुंजी अद्वितीय होती है। मशीन लर्निंग के संदर्भ में, शब्दकोशों का उपयोग आमतौर पर डेटासेट का प्रतिनिधित्व करने के लिए किया जाता है, जहां कुंजियाँ सुविधाओं या विशेषताओं के अनुरूप होती हैं, और मान संबंधित डेटा बिंदुओं का प्रतिनिधित्व करते हैं।

ट्रेन और परीक्षण सेट के लिए शब्दकोश तैयार करने के लिए, हमें निम्नलिखित कदम उठाने होंगे:

1. डेटा तैयारी: हमारे मशीन लर्निंग कार्य के लिए डेटा एकत्र करने और तैयार करने से शुरुआत करें। इसमें आम तौर पर डेटा को साफ करना, गायब मानों को संभालना और डेटा को उपयुक्त प्रारूप में बदलना शामिल है। सुनिश्चित करें कि डेटा को ठीक से लेबल या वर्गीकृत किया गया है, क्योंकि पर्यवेक्षित शिक्षण कार्यों के लिए यह आवश्यक है।

2. डेटासेट को विभाजित करना: इसके बाद, हमें अपने डेटासेट को दो भागों में विभाजित करना होगा: ट्रेन सेट और परीक्षण सेट। ट्रेन सेट का उपयोग हमारे केएनएन एल्गोरिदम को प्रशिक्षित करने के लिए किया जाएगा, जबकि परीक्षण सेट का उपयोग इसके प्रदर्शन का मूल्यांकन करने के लिए किया जाएगा। यह विभाजन हमें यह आकलन करने में मदद करता है कि हमारा एल्गोरिदम अदृश्य डेटा को कितनी अच्छी तरह सामान्यीकृत करता है।

3. फ़ीचर एक्सट्रैक्शन: एक बार जब डेटासेट विभाजित हो जाता है, तो हमें डेटा से संबंधित फ़ीचर निकालने और उन्हें हमारे शब्दकोशों में कुंजी के रूप में निर्दिष्ट करने की आवश्यकता होती है। हमारे डेटा की प्रकृति के आधार पर विशेषताएँ संख्यात्मक या श्रेणीबद्ध हो सकती हैं। उदाहरण के लिए, यदि हम छवियों के डेटासेट के साथ काम कर रहे हैं, तो हम रंग हिस्टोग्राम या बनावट विवरणक जैसी सुविधाएं निकाल सकते हैं।

4. मान निर्दिष्ट करना: सुविधाओं को निकालने के बाद, हमें अपने शब्दकोशों में प्रत्येक कुंजी के लिए संबंधित मान निर्दिष्ट करने की आवश्यकता है। ये मान हमारे डेटासेट में वास्तविक डेटा बिंदुओं या उदाहरणों का प्रतिनिधित्व करते हैं। प्रत्येक उदाहरण को उसके संबंधित फीचर मानों के साथ संबद्ध किया जाना चाहिए।

5. ट्रेन सेट डिक्शनरी: ट्रेन सेट को दर्शाने के लिए एक डिक्शनरी बनाएं। इस शब्दकोश की कुंजियाँ विशेषताएँ होंगी, और मान सूचियाँ या सरणियाँ होंगी जिनमें ट्रेन सेट में प्रत्येक उदाहरण के लिए संबंधित सुविधा मान होंगे। उदाहरण के लिए, यदि हमारे पास दो विशेषताओं (आयु और आय) और तीन उदाहरणों वाला डेटासेट है, तो ट्रेन सेट शब्दकोश इस तरह दिख सकता है:

ट्रेन_सेट = {'उम्र': [25, 30, 35], 'आय': [50000, 60000, 70000]}

6. टेस्ट सेट डिक्शनरी: इसी तरह, टेस्ट सेट को दर्शाने के लिए एक डिक्शनरी बनाएं। इस शब्दकोश की कुंजियाँ ट्रेन सेट की तरह ही सुविधाएँ होंगी, और मान सूचियाँ या सरणियाँ होंगी जिनमें परीक्षण सेट में प्रत्येक उदाहरण के लिए संबंधित फ़ीचर मान होंगे। उदाहरण के लिए, यदि हमारे पास दो उदाहरणों वाला एक परीक्षण सेट है, तो परीक्षण सेट शब्दकोश इस तरह दिख सकता है:

test_set = {'उम्र': [40, 45], 'आय': [80000, 90000]}

7. शब्दकोशों का उपयोग: एक बार ट्रेन और परीक्षण सेट के लिए शब्दकोश भर जाने के बाद, हम उन्हें अपने KNN एल्गोरिदम में इनपुट के रूप में उपयोग कर सकते हैं। परीक्षण सेट में उदाहरणों के लिए पूर्वानुमान या वर्गीकरण करने के लिए एल्गोरिदम ट्रेन सेट से फीचर मानों का उपयोग करेगा।

इन चरणों का पालन करके, हम पायथन का उपयोग करके मशीन लर्निंग में अपने स्वयं के केएनएन एल्गोरिदम को लागू करने के संदर्भ में ट्रेन और परीक्षण सेट के लिए शब्दकोशों को प्रभावी ढंग से तैयार कर सकते हैं। ये शब्दकोश हमारे एल्गोरिदम के प्रदर्शन के प्रशिक्षण और मूल्यांकन के लिए आधार के रूप में काम करते हैं।

ट्रेन और परीक्षण सेट के लिए शब्दकोशों को पॉप्युलेट करने के लिए, हमें डेटासेट को तैयार करने और विभाजित करने, प्रासंगिक सुविधाओं को निकालने, शब्दकोशों में संबंधित कुंजियों के लिए फीचर मान निर्दिष्ट करने और इन शब्दकोशों को अपने स्वयं के केएनएन एल्गोरिदम में उपयोग करने की आवश्यकता है।

अधिक प्रश्न और उत्तर:

: अंतर्गत टैग Artificial Intelligence, डेटा तैयारी, शब्दकोश, केएनएन एल्गोरिदम, मशीन लर्निंग, अजगर

EITCA अकादमी

हम ट्रेन और परीक्षण सेट के लिए शब्दकोश कैसे तैयार करते हैं?

संबंधित अन्य हालिया प्रश्न और उत्तर अपने K निकटतम पड़ोसियों एल्गोरिथ्म को लागू करना:

अधिक प्रश्न और उत्तर:

EITCA अकादमी यूरोपीय आईटी प्रमाणन ढांचे का एक हिस्सा है

EITCA अकादमी के लिए पात्रता 80% EITCI DSJC सब्सिडी सहायता

EITCA अकादमी

अपना USERNAME या EMAIL ADDRESS प्राप्त करके अपने खाते में प्रवेश करें

अपना विवरण भूल जाओ?

खाता बनाएं

हम ट्रेन और परीक्षण सेट के लिए शब्दकोश कैसे तैयार करते हैं?

संबंधित अन्य हालिया प्रश्न और उत्तर अपने K निकटतम पड़ोसियों एल्गोरिथ्म को लागू करना:

अधिक प्रश्न और उत्तर:

EITCA अकादमी के लिए पात्रता 80% EITCI DSJC सब्सिडी सहायता