OCR

From SMC Wiki
Revision as of 10:21, 17 October 2013 by BaijuMuthukadan (talk | contribs) (Link to etherpad)
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

ടെസ്സറാക്റ്റ്

ഇന്ന് ലഭ്യമായ സ്വതന്ത്ര ഓസിആര്‍ സംവിധാനങ്ങളില്‍, എറ്റവും മികച്ചതാണ് ടെസ്സറാക്റ്റ്. ഇംഗ്ലീഷീനും മറ്റു ലാറ്റിന്‍ ഭാഷകളിലും സുഗമമായി പ്രവര്‍ത്തിക്കുന്ന ടെസ്സറാക്റ്റ് യുണികോഡ് വളരെ നല്ല രീതിയില്‍ പിന്തുണയ്ക്കുകയും ചെയ്യുന്നുണ്ട്.

ടെസ്സറാക്റ്റിനു മുകളിലുള്ള പരീക്ഷണങ്ങളില്‍ നമ്മള്‍ പ്രധാനമായി ഉന്നം വയ്ക്കുന്നതിവയാണ്,

  1. സിംബല്‍ ക്ലാസിഫിക്കേഷന്‍ സംവിധാനം മലയാളത്തിന് 99% കൃത്യത നല്‍കുമെന്നുറപ്പാക്കുക.
  2. പ്രീ-പോസ്റ്റ് പ്രോസസ്സിങ് സംവിധാനത്തില്‍ വേണ്ട മാറ്റങ്ങള്‍ വരുത്തുക.

ഇപ്പോള്‍ ഉണ്ടാക്കിയിട്ടുള്ള ഒരു രൂപരേഖ ഏതാണ്ടിങ്ങനെയാണ്,

  1. ടെസ്സറാക്റ്റിനെ സാധാരണകാണുന്ന മലയാളം സിംബലുകള്‍ക്കായി പരിശീലിപ്പിക്കുക.
  2. ഈ ട്രെയിന്‍ ചെയ്തെടുത്ത ടെസ്സറാക്റ്റ് സാമാന്യം വലിയ ഒരു കോര്‍പ്പസില്‍ ടെസ്റ്റ് ചെയ്യകയും, റിസല്‍ട്ടുകള്‍ വിശദമായി വിശകലനം ചെയ്യകയും ചെയ്യുക.
  3. ടെസ്സറാക്റ്റിന്റെ കോഡും വര്‍ക്ക് ഫ്ലോയും വിശദമായി മനസ്സിലാക്കുക.
  4. എറര്‍ സോഴ്സുകള്‍ മനസ്സിലാക്കാന്‍ വിവിധതരം പരീക്ഷണങ്ങള്‍ തയ്യാറാക്കുകയും നടത്തുകയും ചെയ്യുക.
  5. ആവശ്യമെങ്കില്‍ പുതിയ വര്‍ക്ക്ഫ്ലോയും മെത്തേഡുകളും ഉണ്ടാക്കുക.


ഇപ്പോഴത്തെ സ്ഥിതി

ഒരു പ്രാഥമിക സംവിധാനം പ്രവര്‍ത്തനക്ഷമമാണ്. ചെറിയ ഒരു പൈത്തണ്‍ പ്രോഗ്രാം കൂടി ഉപയോഗിച്ച് ഏതാണ്ട് 88% അക്ഷരങ്ങളും ശരിയായി തിരിച്ചറിയാന്‍ കഴിയുന്നുണ്ട്(നോര്‍മല്‍ ബുക്ക് പേജ്, വളരെക്കുറച്ച് പങ്ചുവേഷന്‍സ്)

ഇപ്പോഴത്തെ സംവിധാനം പരീക്ഷിക്കുന്നതിനായി

  1. ഇവിടെ നിന്നും ടെസ്സറാക്റ്റ് ഡൌണ്‍ലോഡ് ചെയ്യുക.
  2. ഇവിടെ നിന്നും മലയാളം ഫയലുകള്‍ ഡൌണ്‍ലോഡ് ചെയ്യുക.
  3. ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള്‍ tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക.
  4. ടെസ്സറാക്റ്റ് ഇന്‍സ്റ്റാള്‍ ചെയ്യുക. മലയാളം പേജുകള്‍ക്കായി -l mal ഓപ്ഷന്‍ ഉപയോഗിക്കുക.
  5. ഇവിടെയുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്‍, കുറച്ചൂകൂടി കൃത്യമായ റിസല്‍ട്ടുകള്‍ ലഭിക്കും.

ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള്‍ ഇതിലുണ്ട്.

ചര്‍ച്ചകള്‍

  1. http://etherpad.wikimedia.org/p/mal-ocr