Google विज़न एपीआई का उपयोग करके किसी छवि से निकाले गए टेक्स्ट तक पहुंचने के लिए, आप चरणों की एक श्रृंखला का पालन कर सकते हैं जिसमें एपीआई की ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) क्षमताओं का उपयोग शामिल है। Google विज़न एपीआई में ओसीआर तकनीक लिखावट सहित छवियों से पाठ का पता लगाने और निकालने में सक्षम बनाती है। यह कार्यक्षमता उन अनुप्रयोगों में विशेष रूप से उपयोगी है जिनके लिए दृश्य डेटा में मौजूद पाठ्य जानकारी के विश्लेषण और समझ की आवश्यकता होती है।
सबसे पहले, आपको Google Vision API के साथ काम करने के लिए आवश्यक वातावरण स्थापित करना होगा। इसमें Google क्लाउड कंसोल में एक प्रोजेक्ट बनाना, विज़न एपीआई को सक्षम करना और एपीआई कुंजी या सेवा खाता कुंजी जैसे आवश्यक प्रमाणीकरण क्रेडेंशियल प्राप्त करना शामिल है।
एक बार जब आपका वातावरण सेट हो जाता है, तो आप छवि फ़ाइल पर ओसीआर निष्पादित करने के लिए विज़न एपीआई की `asyncBatchAnnotateFiles` विधि का उपयोग कर सकते हैं। यह विधि आपको प्रसंस्करण के लिए छवि फ़ाइलों की एक सूची पास करने और परिणाम अतुल्यकालिक रूप से प्राप्त करने की अनुमति देती है। वैकल्पिक रूप से, आप छवियों की सूची को सीधे संसाधित करने के लिए `asyncBatchAnnotateImages` विधि का उपयोग कर सकते हैं।
किसी छवि से टेक्स्ट निकालने के लिए, आपको `AnnotateImageRequest` ऑब्जेक्ट का एक उदाहरण बनाना होगा और वांछित सुविधाओं को निर्दिष्ट करना होगा। इस मामले में, आप यह इंगित करने के लिए `TEXT_DETECTION` सुविधा सेट करेंगे कि आप छवि से टेक्स्ट निकालना चाहते हैं। आप ओसीआर की सटीकता में सुधार के लिए भाषा संकेत जैसे अतिरिक्त पैरामीटर भी निर्दिष्ट कर सकते हैं।
इसके बाद, आपको छवि फ़ाइल को बेस64-एन्कोडेड स्ट्रिंग में एन्कोड करना होगा और एन्कोडेड छवि डेटा का उपयोग करके `इमेज` ऑब्जेक्ट का एक उदाहरण बनाना होगा। इस `इमेज` ऑब्जेक्ट को पहले बनाए गए `AnnotateImageRequest` ऑब्जेक्ट में जोड़ा जाना चाहिए।
अनुरोध सेट करने के बाद, आप इसे अपने चुने हुए दृष्टिकोण के आधार पर `batchAnnotateImages` या `batchAnnotateFiles` विधि का उपयोग करके विज़न एपीआई पर भेज सकते हैं। एपीआई छवि को संसाधित करेगा और निकाले गए टेक्स्ट वाली प्रतिक्रिया लौटाएगा।
प्रतिक्रिया से निकाले गए पाठ तक पहुंचने के लिए, आप 'AnnotateImageResponse' ऑब्जेक्ट के 'textAnnotations' फ़ील्ड पर पुनरावृति कर सकते हैं। इस फ़ील्ड में `EntityAnnotation` ऑब्जेक्ट की एक सूची है, प्रत्येक छवि में एक खोजे गए टेक्स्ट तत्व का प्रतिनिधित्व करता है। प्रत्येक `EntityAnnotation` ऑब्जेक्ट के `विवरण` फ़ील्ड में निकाला गया टेक्स्ट होता है।
यहां पायथन में एक उदाहरण कोड स्निपेट है जो दर्शाता है कि Google विज़न एपीआई का उपयोग करके किसी छवि से निकाले गए टेक्स्ट तक कैसे पहुंचा जाए:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
इस उदाहरण में, `extract_text_from_image` फ़ंक्शन इनपुट के रूप में एक छवि फ़ाइल का पथ लेता है और विज़न एपीआई को अनुरोध भेजने के लिए Google क्लाउड विज़न क्लाइंट लाइब्रेरी का उपयोग करता है। फिर निकाले गए टेक्स्ट को प्रिंट कर लिया जाता है।
Google विज़न एपीआई का उपयोग करके किसी छवि से निकाले गए पाठ तक पहुंचने के लिए, आपको पर्यावरण सेट करना होगा, वांछित सुविधाओं के साथ एक `AnnotateImageRequest` ऑब्जेक्ट बनाना होगा, छवि फ़ाइल को एन्कोड करना होगा, एपीआई को अनुरोध भेजना होगा और निकाले गए पाठ को पुनः प्राप्त करना होगा प्रतिक्रिया से. विज़न एपीआई की ओसीआर क्षमताएं लिखावट सहित छवियों से पाठ का पता लगाने और निकालने में सक्षम बनाती हैं।
संबंधित अन्य हालिया प्रश्न और उत्तर लिखावट से पाठ का पता लगाना और निकालना:
- Google Vision API का उपयोग करके जटिल दस्तावेज़ों से पाठ निकालते समय क्या सीमाएँ उत्पन्न हो सकती हैं?
- Google विज़न एपीआई के पाठ की व्याख्या में आत्मविश्वास के स्तर का क्या महत्व है?
- Google विज़न एपीआई हस्तलिखित नोट्स से टेक्स्ट को सटीक रूप से कैसे पहचान और निकाल सकता है?
- हस्तलिखित छवियों से पाठ का पता लगाने और निकालने में क्या चुनौतियाँ हैं?
- क्या Google Vision लिखावट पहचान सकता है?