OCR
ടെസ്സറാക്റ്റ്
ഇന്ന് ലഭ്യമായ സ്വതന്ത്ര ഓസിആര് സംവിധാനങ്ങളില്, എറ്റവും മികച്ചതാണ് ടെസ്സറാക്റ്റ്. ഇംഗ്ലീഷീനും മറ്റു ലാറ്റിന് ഭാഷകളിലും സുഗമമായി പ്രവര്ത്തിക്കുന്ന ടെസ്സറാക്റ്റ് യുണികോഡ് വളരെ നല്ല രീതിയില് പിന്തുണയ്ക്കുകയും ചെയ്യുന്നുണ്ട്.
ടെസ്സറാക്റ്റിനു മുകളിലുള്ള പരീക്ഷണങ്ങളില് നമ്മള് പ്രധാനമായി ഉന്നം വയ്ക്കുന്നതിവയാണ്,
- സിംബല് ക്ലാസിഫിക്കേഷന് സംവിധാനം മലയാളത്തിന് 99% കൃത്യത നല്കുമെന്നുറപ്പാക്കുക.
- പ്രീ-പോസ്റ്റ് പ്രോസസ്സിങ് സംവിധാനത്തില് വേണ്ട മാറ്റങ്ങള് വരുത്തുക.
ഇപ്പോള് ഉണ്ടാക്കിയിട്ടുള്ള ഒരു രൂപരേഖ ഏതാണ്ടിങ്ങനെയാണ്,
- ടെസ്സറാക്റ്റിനെ സാധാരണകാണുന്ന മലയാളം സിംബലുകള്ക്കായി പരിശീലിപ്പിക്കുക.
- ഈ ട്രെയിന് ചെയ്തെടുത്ത ടെസ്സറാക്റ്റ് സാമാന്യം വലിയ ഒരു കോര്പ്പസില് ടെസ്റ്റ് ചെയ്യകയും, റിസല്ട്ടുകള് വിശദമായി വിശകലനം ചെയ്യകയും ചെയ്യുക.
- ടെസ്സറാക്റ്റിന്റെ കോഡും വര്ക്ക് ഫ്ലോയും വിശദമായി മനസ്സിലാക്കുക.
- എറര് സോഴ്സുകള് മനസ്സിലാക്കാന് വിവിധതരം പരീക്ഷണങ്ങള് തയ്യാറാക്കുകയും നടത്തുകയും ചെയ്യുക.
- ആവശ്യമെങ്കില് പുതിയ വര്ക്ക്ഫ്ലോയും മെത്തേഡുകളും ഉണ്ടാക്കുക.
ഇപ്പോഴത്തെ സ്ഥിതി
ഒരു പ്രാഥമിക സംവിധാനം പ്രവര്ത്തനക്ഷമമാണ്. ചെറിയ ഒരു പൈത്തണ് പ്രോഗ്രാം കൂടി ഉപയോഗിച്ച് ഏതാണ്ട് 88% അക്ഷരങ്ങളും ശരിയായി തിരിച്ചറിയാന് കഴിയുന്നുണ്ട്(നോര്മല് ബുക്ക് പേജ്, വളരെക്കുറച്ച് പങ്ചുവേഷന്സ്)
ഇപ്പോഴത്തെ സംവിധാനം പരീക്ഷിക്കുന്നതിനായി
- ഇവിടെ നിന്നും ടെസ്സറാക്റ്റ് ഡൌണ്ലോഡ് ചെയ്യുക.
- ഇവിടെ നിന്നും മലയാളം ഫയലുകള് ഡൌണ്ലോഡ് ചെയ്യുക.
- ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള് tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക.
- ടെസ്സറാക്റ്റ് ഇന്സ്റ്റാള് ചെയ്യുക. മലയാളം പേജുകള്ക്കായി -l mal ഓപ്ഷന് ഉപയോഗിക്കുക.
- ഇവിടെയുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്, കുറച്ചൂകൂടി കൃത്യമായ റിസല്ട്ടുകള് ലഭിക്കും.
ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള് ഇതിലുണ്ട്.