OCR: Difference between revisions

From SMC Wiki
m (Reverted edits by Uvijolele (talk) to last revision by Jinsbond007)
 
m (added category)
 
(One intermediate revision by one other user not shown)
Line 29: Line 29:


ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള്‍ ഇതിലുണ്ട്.
ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള്‍ ഇതിലുണ്ട്.
==ചര്‍ച്ചകള്‍==
# http://etherpad.wikimedia.org/p/mal-ocr
[[Category:OCR]]

Latest revision as of 10:52, 15 January 2015

ടെസ്സറാക്റ്റ്

ഇന്ന് ലഭ്യമായ സ്വതന്ത്ര ഓസിആര്‍ സംവിധാനങ്ങളില്‍, എറ്റവും മികച്ചതാണ് ടെസ്സറാക്റ്റ്. ഇംഗ്ലീഷീനും മറ്റു ലാറ്റിന്‍ ഭാഷകളിലും സുഗമമായി പ്രവര്‍ത്തിക്കുന്ന ടെസ്സറാക്റ്റ് യുണികോഡ് വളരെ നല്ല രീതിയില്‍ പിന്തുണയ്ക്കുകയും ചെയ്യുന്നുണ്ട്.

ടെസ്സറാക്റ്റിനു മുകളിലുള്ള പരീക്ഷണങ്ങളില്‍ നമ്മള്‍ പ്രധാനമായി ഉന്നം വയ്ക്കുന്നതിവയാണ്,

  1. സിംബല്‍ ക്ലാസിഫിക്കേഷന്‍ സംവിധാനം മലയാളത്തിന് 99% കൃത്യത നല്‍കുമെന്നുറപ്പാക്കുക.
  2. പ്രീ-പോസ്റ്റ് പ്രോസസ്സിങ് സംവിധാനത്തില്‍ വേണ്ട മാറ്റങ്ങള്‍ വരുത്തുക.

ഇപ്പോള്‍ ഉണ്ടാക്കിയിട്ടുള്ള ഒരു രൂപരേഖ ഏതാണ്ടിങ്ങനെയാണ്,

  1. ടെസ്സറാക്റ്റിനെ സാധാരണകാണുന്ന മലയാളം സിംബലുകള്‍ക്കായി പരിശീലിപ്പിക്കുക.
  2. ഈ ട്രെയിന്‍ ചെയ്തെടുത്ത ടെസ്സറാക്റ്റ് സാമാന്യം വലിയ ഒരു കോര്‍പ്പസില്‍ ടെസ്റ്റ് ചെയ്യകയും, റിസല്‍ട്ടുകള്‍ വിശദമായി വിശകലനം ചെയ്യകയും ചെയ്യുക.
  3. ടെസ്സറാക്റ്റിന്റെ കോഡും വര്‍ക്ക് ഫ്ലോയും വിശദമായി മനസ്സിലാക്കുക.
  4. എറര്‍ സോഴ്സുകള്‍ മനസ്സിലാക്കാന്‍ വിവിധതരം പരീക്ഷണങ്ങള്‍ തയ്യാറാക്കുകയും നടത്തുകയും ചെയ്യുക.
  5. ആവശ്യമെങ്കില്‍ പുതിയ വര്‍ക്ക്ഫ്ലോയും മെത്തേഡുകളും ഉണ്ടാക്കുക.


ഇപ്പോഴത്തെ സ്ഥിതി

ഒരു പ്രാഥമിക സംവിധാനം പ്രവര്‍ത്തനക്ഷമമാണ്. ചെറിയ ഒരു പൈത്തണ്‍ പ്രോഗ്രാം കൂടി ഉപയോഗിച്ച് ഏതാണ്ട് 88% അക്ഷരങ്ങളും ശരിയായി തിരിച്ചറിയാന്‍ കഴിയുന്നുണ്ട്(നോര്‍മല്‍ ബുക്ക് പേജ്, വളരെക്കുറച്ച് പങ്ചുവേഷന്‍സ്)

ഇപ്പോഴത്തെ സംവിധാനം പരീക്ഷിക്കുന്നതിനായി

  1. ഇവിടെ നിന്നും ടെസ്സറാക്റ്റ് ഡൌണ്‍ലോഡ് ചെയ്യുക.
  2. ഇവിടെ നിന്നും മലയാളം ഫയലുകള്‍ ഡൌണ്‍ലോഡ് ചെയ്യുക.
  3. ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള്‍ tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക.
  4. ടെസ്സറാക്റ്റ് ഇന്‍സ്റ്റാള്‍ ചെയ്യുക. മലയാളം പേജുകള്‍ക്കായി -l mal ഓപ്ഷന്‍ ഉപയോഗിക്കുക.
  5. ഇവിടെയുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്‍, കുറച്ചൂകൂടി കൃത്യമായ റിസല്‍ട്ടുകള്‍ ലഭിക്കും.

ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള്‍ ഇതിലുണ്ട്.

ചര്‍ച്ചകള്‍

  1. http://etherpad.wikimedia.org/p/mal-ocr