ആർക്കൈവ്.ഓർഗിൽ മലയാളം ഒസിആർ പ്രവർത്തിച്ചു തുടങ്ങി ആയി. ഇപ്പോൾ പുതിയ സ്കാനുകൾ അപ്ലൊഡ് ചെയ്യുമ്പോൾ ഗൂഗിളിൻ്റെ tesseract എന്ന ഒസിആർ ആപ്ലിക്കെഷൻ റൺ ചെയ്യുകയും മലയാളത്തിലുള്ള pure text ഔട്ട് പുട്ട് വരികയും ചെയ്യുന്നുണ്ട്. മുൻപ് ലാറ്റിൻ സ്ക്രിപ്റ്റുകൾ ഉപയോഗിക്കുന്ന ഭാഷകൾക്ക് മാത്രമേ ഈ സൗകര്യം ലഭ്യമായിരുന്നുള്ളൂ. ഇപ്പോൾ അത് ഇന്ത്യൻ ഭാഷകൾക്ക് കൂടെ എക്സ്റ്റെൻ്റ് ചെയ്തതാണെന്ന് തോന്നുന്നു. പ്രമുഖ പബ്ലിക്ക് ഡൊമൈൻ ആക്ടിവിസ്റ്റ് കാൾ മലമൂദ് ആയിരിക്കാം ഇത് ചെയ്തെന്ന് ഞാൻ ഊഹിക്കുന്നു (പക്ഷെ ഇക്കാര്യം എനിക്കുറപ്പില്ല). തിങ്കൾ (7 ഡിസംബർ 2020) തൊട്ടാണ് ഇത് പ്രവർത്തിച്ചു തുടങ്ങിയതെന്ന് കാണുന്നു. ഞാൻ അതിനു മുൻപ് അപ്ലോഡ് ചെയ്ത സ്കാനുകളിൽ ഈ ഔട്ട് പുട്ട് കാണുന്നില്ല,
ഈ വിധത്തിൽ ഒസിആർ റൺ ചെയ്ത, ഞാൻ കഴിഞ്ഞ ദിവസം അപ്ലൊഡ് ചെയ്ത ശാർങ്ഗധരസംഹിത എന്ന പുസ്തകത്തിൻ്റെ ടെസ്റ്റ് ഔട്ട്പുട്ട് ഈ ലിങ്കിലൂടെ കാണാം. pure text ഔട്ട് പുട്ടിനു പുറമെ ടെസ്റ്റ് ലെയർ ഉള്ള പിഡീഫ് കൂടെ ഇനി മുതൽ ലഭ്യമാകും. പക്ഷെ ഇത് 100% കൃത്യമായ ഔട്ട് പുട്ട് ഒന്നും തരുന്നില്ല. എങ്കിലും 70-80% വരെ ശരിയായ ടെസ്റ്റ് ആണെന്നാണ് ഓടിച്ചു നോക്കിയപ്പോൾ കണ്ടത്.
ഈ ടെസ്റ്റ് ഔട്ട് പുട്ട് പല തരത്തിൽ സഹായകരമാകും. സ്കാനുകളുടെ ഉള്ളടക്കം യൂണിക്കൊഡ് ടെസ്റ്റാക്കി മാറ്റി ഇ ബുക്കുകളും മറ്റും നിർമ്മിക്കുന്നവർക്ക് ഈ ടെസ്റ്റ് ഫയൽ പണി തുടങ്ങാനുള്ള ഒരു ബേസ് ഫയൽ ആയി ഉപയോഗിക്കാം. അതിനു പുറമേ സേർച്ച് എഞ്ചിനുകൾക്ക് ഈ ടെസ്റ്റ് സഹായകരമാകും. അത് സ്കാനുകളെ കൂടുതൽ പേരിലേക്ക് എത്താൻ സഹായകരമാകും
മലയാളത്തിനുവേണ്ടി കൂടുതൽ കൃത്യതയാർന്ന ഒ.സി.ആർ ആപ്ലിക്കേഷനുകൾ മുൻപോട്ട് പോകുമ്പോൾ വരും എന്ന് പ്രതീക്ഷിക്കാം.
You must be logged in to post a comment.