स्कॅन आणि ओसीआर

शुभ दुपार

जेव्हा आपल्याला कागदपत्रे इलेक्ट्रॉनिक स्वरूपात अनुवादित करण्याची आवश्यकता असते तेव्हा कदाचित आपल्यापैकी प्रत्येकास कार्यकाळाचा सामना करावा लागतो. हे विशेषतः ज्यांचे अभ्यास करतात, दस्तऐवजीकरणाने कार्य करतात, इलेक्ट्रॉनिक शब्दकोश वापरुन ग्रंथांचे भाषांतर करतात.

या लेखात मी या प्रक्रियेच्या काही मूलभूत गोष्टी सामायिक करू इच्छितो. सर्वसाधारणपणे, स्कॅनिंग आणि मजकूर ओळखणे बराच वेळ घेते कारण बहुतेक ऑपरेशन्स स्वतः करावे लागतात. आम्ही काय, कसे आणि कसे हे शोधण्याचा प्रयत्न करू.

प्रत्येकजण लगेच एक गोष्ट समजत नाही. स्कॅनिंग केल्यानंतर (स्कॅनरवरील सर्व पत्रके फिट करणे) आपल्याकडे बीएमपी, जेपीजी, पीएनजी, जीआयएफ (इतर स्वरूपे असू शकतात) स्वरुपाचे चित्र असतील. तर या चित्रातून आपल्याला मजकूर मिळवणे आवश्यक आहे - ही प्रक्रिया ओळख आहे. या ऑर्डरमध्ये आणि खाली सादर केले जाईल.

सामग्री

1. स्कॅनिंग आणि ओळखण्यासाठी काय आवश्यक आहे?
2. मजकूर स्कॅनिंग पर्याय
3. दस्तऐवजाचा मजकूर ओळखणे
- 3.1 मजकूर
- 3.2 चित्रे
- 3.3 टेबल्स
- 3.4 अनावश्यक वस्तू
4. पीडीएफ / डीजेव्हीयू फायली ओळखणे
5. कार्य परिणाम तपासण्यात आणि जतन करण्यात त्रुटी

1. स्कॅनिंग आणि ओळखण्यासाठी काय आवश्यक आहे?

1) स्कॅनर

मुद्रित दस्तऐवजांना मजकूर स्वरूपात अनुवादित करण्यासाठी, आपल्याला प्रथम स्कॅनर आणि त्यानुसार "मूळ" प्रोग्राम आणि त्याच्यासह चालणार्या ड्राइव्हर्सची आवश्यकता आहे. त्यांच्यासह आपण दस्तऐवज स्कॅन करू शकता आणि पुढील प्रक्रियेसाठी ते जतन करू शकता.

आपण इतर अॅनालॉग वापरू शकता, परंतु किटमध्ये स्कॅनरसह आलेला सॉफ्टवेअर सहसा अधिक जलद कार्य करतो आणि त्यात बरेच पर्याय आहेत.

आपल्याकडे कोणत्या प्रकारचे स्कॅनर आहे यावर अवलंबून - कार्य वेगाने लक्षणीय बदलू शकते. स्कॅनर आहेत जे एका शीटवरून 10 सेकंदात चित्र मिळवू शकतात, असे काही आहेत जे 30 सेकंदात मिळतील. आपण 200-300 पत्रांवर एक पुस्तक स्कॅन केल्यास - मला वाटते की वेळेमध्ये फरक किती वेळा मोजला जाईल?

2) ओळखण्यासाठी कार्यक्रम

आमच्या लेखात, मी आपल्याला ABBYY FineReader - कोणत्याही दस्तऐवजाचे स्कॅनिंग आणि ओळखण्यासाठी सर्वोत्कृष्ट प्रोग्राममधील एक कार्य दर्शवितो. पासून कार्यक्रम दिलेला आहे, तर लगेच मी दुसर्याला एक दुवा देईन - कुनेई फॉर्मची विनामूल्य अॅनालॉग. खरे तर, मी त्यांच्याशी तुलना करणार नाही कारण FineReader सर्व बाबतीत जिंकला आहे, म्हणून मी ते सर्व करण्याचा प्रयत्न करतो.

एबीबीवाय फाइनरायडर 11

अधिकृत साइट: //www.abbyy.ru/

त्याच्या प्रकारची सर्वोत्तम कार्यक्रमांपैकी एक. चित्रातील मजकूर ओळखण्यासाठी डिझाइन केलेले आहे. अनेक पर्याय आणि वैशिष्ट्ये बांधली. हे फॉन्टचा एक समूह विश्लेषित करू शकते, हस्तलेखित आवृत्त्यांचे समर्थन देखील करू शकते (जरी मी वैयक्तिकरित्या प्रयत्न केला नसेल तर, मला एक परिपूर्ण कॅलिग्राफिक हस्तलेखनाशिवाय, हस्तलेखित आवृत्ती ओळखणे चांगले आहे असे मला वाटते). तिच्याबरोबर काम केल्याबद्दल अधिक माहिती खाली चर्चा केली जाईल. आम्ही येथे हे देखील नोंदवितो की हा लेख प्रोग्राम 11 आवृत्त्यांमध्ये कार्य करेल.

नियम म्हणून, एबीबीवाय फाइनराइडरचे भिन्न आवृत्त्या एकमेकांपेक्षा वेगळे नाहीत. आपण ते इतरही सहज करू शकता. मुख्य फरक हा प्रोग्रामच्या सुविधा आणि त्याच्या क्षमतांमध्ये असू शकतो. उदाहरणार्थ, मागील आवृत्त्यांनी PDF दस्तऐवज आणि डीजेव्हीयू उघडण्यास नकार दिला ...

3) स्कॅन करण्यासाठी दस्तऐवज

होय, तर येथे मी एका स्वतंत्र स्तंभात कागदपत्रे घेण्याचे ठरविले. बर्याच बाबतीत, कोणत्याही पाठ्यपुस्तके, वर्तमानपत्रे, लेख, मासिके इत्यादी स्कॅन करा त्या पुस्तके आणि साहित्य मागणी आहे. मी काय करणार आहे? वैयक्तिक अनुभवातून, मी सांगू इच्छितो की आपण स्कॅन करू इच्छित आहात - कदाचित नेटवर असू शकते! जेव्हा मी नेटवर्कवर एक पुस्तक किंवा अन्य स्कॅन केले तेव्हा मला किती वेळा वेळ वाचवावा लागला. मला फक्त मजकूर दस्तऐवजामध्ये कॉपी करावा आणि त्यासह पुढे चालू ठेवा.

या सोप्या सल्ल्यातून - आपण काहीतरी स्कॅन करण्यापूर्वी, कोणीतरी आधीपासून स्कॅन केले आहे किंवा नाही हे तपासा आणि आपल्याला आपला वेळ वाया घालवायचा नाही.

2. मजकूर स्कॅनिंग पर्याय

येथे, मी स्कॅनरसाठी, त्याच्यासह चाललेल्या प्रोग्रामसाठी आपल्या ड्राइव्हर्सविषयी बोलणार नाही कारण सर्व स्कॅनर मॉडेल वेगळे आहेत, सॉफ्टवेअर सर्वत्र भिन्न आहे आणि अंदाज लावणे आणि ऑपरेशन कसे करावे हे अधिक स्पष्टपणे अवास्तविक आहे हे स्पष्टपणे सांगते.

परंतु सर्व स्कॅनर्सकडे समान सेटिंग्ज असतात ज्या आपल्या कामाच्या वेग आणि गुणवत्तेस मोठ्या प्रमाणावर प्रभावित करतात. येथे त्यांच्याबद्दल मी येथेच बोलत आहे. मी क्रमाने यादी करेल.

1) स्कॅन गुणवत्ता - डीपीआय

प्रथम, 300 डीपीआयपेक्षा कमी नसलेल्या पर्यायांमध्ये स्कॅन गुणवत्ता सेट करा. शक्य असेल तर थोडी अधिक ठेवणे देखील योग्य आहे. DPI जितका जास्त असेल तितका स्पष्ट होईल की आपले चित्र बदलले जातील आणि म्हणून पुढील प्रक्रिया अधिक जलद होईल. याव्यतिरिक्त, स्कॅनची गुणवत्ता जितकी अधिक असेल - कमीतकमी चुका आपल्याला नंतर दुरुस्त करावी लागतात.

सर्वोत्तम पर्याय, सहसा 300-400 डीपीआय प्रदान करते.

2) रंगमंच

हा पॅरामीटर स्कॅन वेळेवर मोठ्या प्रमाणावर प्रभाव टाकतो (तसे, डीपीआय देखील प्रभावित करते, परंतु ते इतके शक्तिशाली असतात आणि वापरकर्त्याने उच्च मूल्ये सेट केल्यावरच).

सहसा तीन पद्धती असतात:

- काळा आणि पांढरा (साध्या मजकुरासाठी परिपूर्ण);

- राखाडी (टेबल आणि चित्रांसह मजकूरासाठी योग्य);

- रंग (रंगीन मासिके, पुस्तके, सर्वसाधारणपणे, कागदपत्रे, जेथे रंग महत्त्वपूर्ण आहे).

सामान्यपणे स्कॅन वेळ रंगाच्या निवडीवर अवलंबून असतो. शेवटी, आपल्याकडे मोठ्या दस्तऐवज असल्यास, संपूर्ण पृष्ठावर अतिरिक्त 5-10 सेकंद देखील एक सभ्य वेळ ठरतील ...

3) फोटो

आपण कागदजत्र स्कॅनिंगद्वारेच नव्हे तर एक चित्र घेऊन देखील मिळवू शकता. नियम म्हणून, या प्रकरणात आपल्याला काही इतर समस्या असतीलः प्रतिमा विकृती, अस्पष्ट करणे. यामुळे, प्राप्त झालेल्या मजकुराच्या अधिक संपादनाची आणि प्रक्रियेची आवश्यकता असू शकते. वैयक्तिकरित्या, मी या व्यवसायासाठी कॅमेरे वापरण्याची शिफारस करत नाही.

हे लक्षात घेणे आवश्यक आहे की अशा प्रत्येक दस्तऐवजास ओळखले जाणार नाही कारण स्कॅन गुणवत्ता तो अत्यंत कमी असू शकतो ...

3. दस्तऐवजाचा मजकूर ओळखणे

आम्ही मानतो की आपल्याला मिळालेली स्कॅन केलेली पृष्ठे स्कॅन केली गेली आहेत. बर्याचदा ते स्वरूपने असतात: tif, bmb, jpg, png. सर्वसाधारणपणे, एबीबीवाय फाइनरायडरसाठी - हे फार महत्वाचे नाही ...

ABBYY FineReader मध्ये चित्र उघडल्यानंतर, प्रोग्राम म्हणून, प्रोग्राम म्हणून, मशीनवर क्षेत्र निवडणे आणि त्यांना ओळखणे प्रारंभ होते. परंतु कधीकधी ती चुकीची करते. यासाठी आम्ही इच्छित क्षेत्रांची निवड स्वहस्ते निवडतो.

हे महत्वाचे आहे! प्रोग्राममधील कागदपत्र उघडल्यानंतर लगेच प्रत्येकाला समजले नाही की, विंडोमध्ये स्त्रोत दस्तऐवज डाव्या बाजूला प्रदर्शित केले आहे, ज्यामध्ये आपण भिन्न क्षेत्रे हायलाइट करा. "ओळख" बटणावर क्लिक केल्यानंतर, उजवीकडे असलेल्या विंडोमधील प्रोग्राम आपल्याला समाप्त मजकूर देईल. ओळखीच्या नंतर, त्याच FineReader मधील त्रुटींसाठी मजकूर तपासण्याचा सल्ला दिला जातो.

3.1 मजकूर

हा भाग मजकूर हायलाइट करण्यासाठी वापरला जातो. चित्रे आणि सारण्या त्यातून वगळल्या पाहिजेत. दुर्मिळ आणि असामान्य फॉन्ट मॅन्युअली प्रविष्ट करणे आवश्यक आहे ...

मजकूर क्षेत्र निवडण्यासाठी, FineReader च्या शीर्षस्थानी पॅनेलकडे लक्ष द्या. "टी" बटण आहे (पहा. खाली स्क्रीनशॉट, माऊस पॉईंटर फक्त या बटणावर आहे). त्यावर क्लिक करा, नंतर खालील चित्रात मजकूर व्यवस्थित असलेल्या सुदैवाने आयताकृती क्षेत्र निवडा. तसे, काही बाबतीत आपल्याला 2-3 ची मजकूर अवरोध तयार करण्याची आणि काहीवेळा 10-12 प्रति पृष्ठ तयार करण्याची आवश्यकता आहे मजकूर स्वरूपन भिन्न असू शकते आणि संपूर्ण आयत एका आयताकृतीसह निवडू शकत नाही.

हे लक्षात घेणे आवश्यक आहे की प्रतिमा मजकूर क्षेत्रात प्रवेश करू नयेत! भविष्यात, तो आपल्याला बर्याच वेळेस वाचवेल ...

3.2 चित्रे

खराब गुणवत्ता किंवा असामान्य फॉन्टमुळे प्रतिमा आणि त्या क्षेत्रांना ओळखणे कठीण आहे हायलाइट करण्यासाठी वापरला जातो.

खाली स्क्रीनशॉटमध्ये, "पॉइंटर" क्षेत्र निवडण्यासाठी वापरलेल्या बटणावर माउस पॉइंटर स्थित आहे. तसे, या भागात पृष्ठाचा कोणताही भाग निवडला जाऊ शकतो आणि FineReader नंतर त्यास सामान्य प्रतिमेच्या रूपात दस्तऐवजमध्ये समाविष्ट करेल. म्हणजे फक्त "मूर्ख" कॉपी करेल ...

सामान्यतया, हा क्षेत्र गैर-मानक मजकूर आणि फॉन्टला दर्शविण्याकरिता खराब स्कॅन केलेल्या सारण्यांना हायलाइट करण्यासाठी वापरला जातो.

3.3 टेबल्स

खालील स्क्रीनशॉट टेबल दर्शविण्यास बटण दर्शविते. सर्वसाधारणपणे, मी तो अगदी क्वचितच वापरतो. खरं म्हणजे आपल्याला टेबलवर प्रत्येक ओळ नियमितपणे काढावी लागते आणि प्रोग्राम कसा आणि कसा दाखवायचा हे दर्शवितो. जर टेबल लहान असेल आणि खूप चांगली गुणवत्ता नसेल तर मी या हेतूंसाठी "चित्र" क्षेत्र वापरण्याची शिफारस करतो. यामुळे बर्याच वेळेस बचत होईल आणि त्यानंतर आपण चित्राच्या आधारावर शब्दात त्वरीत एक टेबल तयार करू शकता.

3.4 अनावश्यक वस्तू

हे लक्षात घेणे महत्वाचे आहे. काहीवेळा पृष्ठावर अनावश्यक घटक असतात ज्यामुळे मजकूर ओळखणे कठिण होते किंवा आपल्याला इच्छित क्षेत्र निवडता येत नाही. ते "इरेजर" वापरुन काढले जाऊ शकतात.

हे करण्यासाठी, प्रतिमा संपादन मोडवर जा.

इरेज़र साधन निवडा आणि अवांछित क्षेत्र निवडा. ते नष्ट केले जाईल आणि त्याच्या जागी कागदाचे पांढरे पत्रक असेल.

तसे, मी शक्य तितक्या वेळा आपल्याला हा पर्याय वापरण्याची शिफारस करतो. आपण निवडलेल्या सर्व मजकूर क्षेत्रांचा प्रयत्न करा, जेथे आपल्याला मजकुराचा एक भाग नको आहे किंवा कोणतेही अनावश्यक बिंदू, अस्पष्टता, विकृती - इरेजरसह हटवा. या ओळखल्याबद्दल धन्यवाद वेगवान होईल!

4. पीडीएफ / डीजेव्हीयू फायली ओळखणे

सर्वसाधारणपणे, हे ओळख स्वरूप इतरांपेक्षा वेगळे नसते - म्हणजे. आपण चित्रांसह जसे कार्य करू शकता. जर आपण पीडीएफ / डीजेव्हीयू फाइल्स उघडत नसाल तर प्रोग्राम ही जुनी आवृत्ती नसेल, तर ही आवृत्ती 11 वर अद्यतनित करा.

थोडी सल्ला FineReader मध्ये दस्तऐवज उघडल्यानंतर - ते स्वयंचलितपणे कागदजत्र ओळखण्यास प्रारंभ करेल. बहुतेकदा पीडीएफ / डीजेव्हीयू फायलींमध्ये, संपूर्ण दस्तऐवजावर पृष्ठाचा विशिष्ट भाग आवश्यक नाही! सर्व पृष्ठांवर अशा क्षेत्राला काढण्यासाठी खालील गोष्टी करा:

1. प्रतिमा संपादन विभागात जा.

2. "ट्रिमिंग" पर्याय सक्षम करा.

3. आपल्याला सर्व पृष्ठांवर आवश्यक क्षेत्र निवडा.

4. सर्व पृष्ठांवर आणि ट्रिम करण्यासाठी लागू करा क्लिक करा.

5. कार्य परिणाम तपासण्यात आणि जतन करण्यात त्रुटी

असे दिसते की इतर समस्या निवडल्या असता इतर समस्या असू शकतात, नंतर ओळखले - ते घ्या आणि जतन करा ... ते तेथे नव्हते!

प्रथम, आम्हाला कागदजत्र तपासण्याची गरज आहे!

हे सक्षम करण्यासाठी, उजवीकडे असलेल्या विंडोमध्ये, "चेक" बटण असेल, खाली स्क्रीनशॉट पहा. त्यावर क्लिक केल्यानंतर, FineReader प्रोग्राम स्वयंचलितपणे आपल्याला त्या क्षेत्रांमध्ये दर्शवेल जेथे प्रोग्राममध्ये त्रुटी आहेत आणि ते एक किंवा दुसर्या चिन्हाचे विश्वसनीयरित्या निराकरण करू शकत नाहीत. आपल्याला केवळ प्रोग्रामची मते निवडणे किंवा आपण सहमत आहात किंवा आपला वर्ण प्रविष्ट करणे आवश्यक आहे.

तसे, अर्ध्या प्रकरणात, अंदाजे प्रोग्राम आपल्याला एक तयार केलेला उजवा शब्द देईल - आपल्याला हवा असलेला पर्याय निवडण्यासाठी आपल्याला माउसचा वापर करावा लागेल.

दुसरे म्हणजे, आपण तपासल्यानंतर आपण आपल्या कार्याचे परिणाम जतन करता त्या स्वरुपाची निवड करणे आवश्यक आहे.

येथे FineReader आपल्याला पूर्ण वळण देईल: आपण केवळ माहिती एका-शब्दात हस्तांतरित करू शकता आणि आपण यास एका डझनभर स्वरूपात जतन करू शकता. पण मी आणखी एक महत्त्वाचा मुद्दा हायलाइट करू इच्छितो. आपण निवडलेला कोणताही फॉर्म, कॉपी प्रकार निवडणे अधिक महत्वाचे आहे! सर्वात मनोरंजक पर्यायांचा विचार करा ...

अचूक प्रत

मान्यताप्राप्त दस्तऐवजातील पृष्ठावर आपण निवडलेले सर्व भाग नक्कीच स्त्रोत दस्तऐवजात जुळतील. मजकूर स्वरूपन गमावण्याकरिता आपल्यासाठी महत्त्वपूर्ण नसताना एक सोयीस्कर पर्याय. तसे, फॉन्ट देखील मूळसारखेच असतील. डॉक्युमेंटला Word वर स्थानांतरित करण्यासाठी या पर्यायाने मी पुढील कार्य सुरू ठेवण्याची शिफारस करतो.

संपादनयोग्य प्रत

हा पर्याय चांगला आहे कारण आपल्याला मजकूराची आधीपासूनच स्वरूपित आवृत्ती मिळते. म्हणजे "किलोमीटर" ची इंडेंटेशन, जी कदाचित मूळ दस्तऐवजामध्ये असू शकते - आपण भेटणार नाही. आपण महत्त्वपूर्ण माहिती संपादित कराल तेव्हा उपयोगी पर्याय.

डिझाइन, फॉन्ट, इंडेंट्सची शैली संरक्षित करणे आपल्यासाठी महत्त्वाचे आहे का हे आपण निवडू नये. कधीकधी, ओळख फार यशस्वी नसल्यास - आपला कागदजत्र बदललेल्या स्वरूपनामुळे "स्कू" होऊ शकतो. या प्रकरणात, एक अचूक प्रत निवडणे उचित आहे.

साधा मजकूर

प्रत्येकाशिवाय पृष्ठावरील केवळ मजकूराची आवश्यकता असणार्यांसाठी एक पर्याय. चित्र आणि टेबल्सशिवाय दस्तऐवजांसाठी योग्य.

हे कागदजत्र स्कॅनिंग आणि ओळख लेख संपवते. मला आशा आहे की या सोप्या टिपांच्या मदतीने आपण आपल्या समस्यांचे निराकरण करू शकता ...

शुभेच्छा!