https://archive.org/ൽ മലയാളം ഒസിആർ പ്രവർത്തിച്ചു തുടങ്ങി

ആർക്കൈവ്.ഓർഗിൽ മലയാളം ഒസിആർ പ്രവർത്തിച്ചു തുടങ്ങി ആയി. ഇപ്പോൾ പുതിയ സ്കാനുകൾ അപ്‌ലൊഡ് ചെയ്യുമ്പോൾ ഗൂഗിളിൻ്റെ tesseract എന്ന ഒസിആർ ആപ്ലിക്കെഷൻ റൺ ചെയ്യുകയും മലയാളത്തിലുള്ള pure text ഔട്ട് പുട്ട് വരികയും ചെയ്യുന്നുണ്ട്. മുൻപ് ലാറ്റിൻ സ്ക്രിപ്റ്റുകൾ ഉപയോഗിക്കുന്ന ഭാഷകൾക്ക് മാത്രമേ ഈ സൗകര്യം ലഭ്യമായിരുന്നുള്ളൂ. ഇപ്പോൾ അത് ഇന്ത്യൻ ഭാഷകൾക്ക് കൂടെ എക്സ്റ്റെൻ്റ് ചെയ്തതാണെന്ന് തോന്നുന്നു. പ്രമുഖ പബ്ലിക്ക് ഡൊമൈൻ ആക്ടിവിസ്റ്റ് കാൾ മലമൂദ് ആയിരിക്കാം ഇത് ചെയ്തെന്ന് ഞാൻ ഊഹിക്കുന്നു (പക്ഷെ ഇക്കാര്യം എനിക്കുറപ്പില്ല).  തിങ്കൾ (7 ഡിസംബർ 2020)  തൊട്ടാണ് ഇത് പ്രവർത്തിച്ചു തുടങ്ങിയതെന്ന് കാണുന്നു. ഞാൻ അതിനു മുൻപ് അപ്‌ലോഡ് ചെയ്ത സ്കാനുകളിൽ ഈ ഔട്ട് പുട്ട് കാണുന്നില്ല,

ഈ വിധത്തിൽ ഒസിആർ റൺ ചെയ്ത, ഞാൻ കഴിഞ്ഞ ദിവസം അപ്‌ലൊഡ് ചെയ്ത  ശാർങ്ഗധരസംഹിത എന്ന പുസ്തകത്തിൻ്റെ ടെസ്റ്റ് ഔട്ട്പുട്ട് ഈ ലിങ്കിലൂടെ കാണാം. pure text ഔട്ട് പുട്ടിനു പുറമെ ടെസ്റ്റ് ലെയർ ഉള്ള പിഡീഫ് കൂടെ ഇനി മുതൽ ലഭ്യമാകും. പക്ഷെ ഇത് 100% കൃത്യമായ ഔട്ട് പുട്ട് ഒന്നും തരുന്നില്ല. എങ്കിലും 70-80% വരെ ശരിയായ ടെസ്റ്റ് ആണെന്നാണ് ഓടിച്ചു നോക്കിയപ്പോൾ കണ്ടത്.

 

ocr-files

 

ഈ ടെസ്റ്റ് ഔട്ട് പുട്ട് പല തരത്തിൽ സഹായകരമാകും. സ്കാനുകളുടെ ഉള്ളടക്കം യൂണിക്കൊഡ് ടെസ്റ്റാക്കി മാറ്റി ഇ ബുക്കുകളും മറ്റും നിർമ്മിക്കുന്നവർക്ക് ഈ ടെസ്റ്റ് ഫയൽ പണി തുടങ്ങാനുള്ള ഒരു ബേസ് ഫയൽ ആയി ഉപയോഗിക്കാം. അതിനു പുറമേ സേർച്ച് എഞ്ചിനുകൾക്ക് ഈ ടെസ്റ്റ് സഹായകരമാകും. അത് സ്കാനുകളെ കൂടുതൽ പേരിലേക്ക് എത്താൻ സഹായകരമാകും

മലയാളത്തിനുവേണ്ടി കൂടുതൽ കൃത്യതയാർന്ന ഒ.സി.ആർ ആപ്ലിക്കേഷനുകൾ മുൻപോട്ട് പോകുമ്പോൾ വരും എന്ന് പ്രതീക്ഷിക്കാം.

Comments

comments