OCR

From SMC Wiki
Revision as of 16:22, 15 January 2015 by Hrishikesh.kb (talk | contribs) (added category)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search

ടെസ്സറാക്റ്റ്

ഇന്ന് ലഭ്യമായ സ്വതന്ത്ര ഓസിആര്‍ സംവിധാനങ്ങളില്‍, എറ്റവും മികച്ചതാണ് ടെസ്സറാക്റ്റ്. ഇംഗ്ലീഷീനും മറ്റു ലാറ്റിന്‍ ഭാഷകളിലും സുഗമമായി പ്രവര്‍ത്തിക്കുന്ന ടെസ്സറാക്റ്റ് യുണികോഡ് വളരെ നല്ല രീതിയില്‍ പിന്തുണയ്ക്കുകയും ചെയ്യുന്നുണ്ട്.

ടെസ്സറാക്റ്റിനു മുകളിലുള്ള പരീക്ഷണങ്ങളില്‍ നമ്മള്‍ പ്രധാനമായി ഉന്നം വയ്ക്കുന്നതിവയാണ്,

  1. സിംബല്‍ ക്ലാസിഫിക്കേഷന്‍ സംവിധാനം മലയാളത്തിന് 99% കൃത്യത നല്‍കുമെന്നുറപ്പാക്കുക.
  2. പ്രീ-പോസ്റ്റ് പ്രോസസ്സിങ് സംവിധാനത്തില്‍ വേണ്ട മാറ്റങ്ങള്‍ വരുത്തുക.

ഇപ്പോള്‍ ഉണ്ടാക്കിയിട്ടുള്ള ഒരു രൂപരേഖ ഏതാണ്ടിങ്ങനെയാണ്,

  1. ടെസ്സറാക്റ്റിനെ സാധാരണകാണുന്ന മലയാളം സിംബലുകള്‍ക്കായി പരിശീലിപ്പിക്കുക.
  2. ഈ ട്രെയിന്‍ ചെയ്തെടുത്ത ടെസ്സറാക്റ്റ് സാമാന്യം വലിയ ഒരു കോര്‍പ്പസില്‍ ടെസ്റ്റ് ചെയ്യകയും, റിസല്‍ട്ടുകള്‍ വിശദമായി വിശകലനം ചെയ്യകയും ചെയ്യുക.
  3. ടെസ്സറാക്റ്റിന്റെ കോഡും വര്‍ക്ക് ഫ്ലോയും വിശദമായി മനസ്സിലാക്കുക.
  4. എറര്‍ സോഴ്സുകള്‍ മനസ്സിലാക്കാന്‍ വിവിധതരം പരീക്ഷണങ്ങള്‍ തയ്യാറാക്കുകയും നടത്തുകയും ചെയ്യുക.
  5. ആവശ്യമെങ്കില്‍ പുതിയ വര്‍ക്ക്ഫ്ലോയും മെത്തേഡുകളും ഉണ്ടാക്കുക.


ഇപ്പോഴത്തെ സ്ഥിതി

ഒരു പ്രാഥമിക സംവിധാനം പ്രവര്‍ത്തനക്ഷമമാണ്. ചെറിയ ഒരു പൈത്തണ്‍ പ്രോഗ്രാം കൂടി ഉപയോഗിച്ച് ഏതാണ്ട് 88% അക്ഷരങ്ങളും ശരിയായി തിരിച്ചറിയാന്‍ കഴിയുന്നുണ്ട്(നോര്‍മല്‍ ബുക്ക് പേജ്, വളരെക്കുറച്ച് പങ്ചുവേഷന്‍സ്)

ഇപ്പോഴത്തെ സംവിധാനം പരീക്ഷിക്കുന്നതിനായി

  1. ഇവിടെ നിന്നും ടെസ്സറാക്റ്റ് ഡൌണ്‍ലോഡ് ചെയ്യുക.
  2. ഇവിടെ നിന്നും മലയാളം ഫയലുകള്‍ ഡൌണ്‍ലോഡ് ചെയ്യുക.
  3. ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള്‍ tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക.
  4. ടെസ്സറാക്റ്റ് ഇന്‍സ്റ്റാള്‍ ചെയ്യുക. മലയാളം പേജുകള്‍ക്കായി -l mal ഓപ്ഷന്‍ ഉപയോഗിക്കുക.
  5. ഇവിടെയുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്‍, കുറച്ചൂകൂടി കൃത്യമായ റിസല്‍ട്ടുകള്‍ ലഭിക്കും.

ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള്‍ ഇതിലുണ്ട്.

ചര്‍ച്ചകള്‍

  1. http://etherpad.wikimedia.org/p/mal-ocr