OCR: Difference between revisions
From SMC Wiki
Jinsbond007 (talk | contribs) No edit summary |
Jinsbond007 (talk | contribs) No edit summary |
||
Line 26: | Line 26: | ||
# ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള് tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക. | # ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള് tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക. | ||
# ടെസ്സറാക്റ്റ് ഇന്സ്റ്റാള് ചെയ്യുക. മലയാളം പേജുകള്ക്കായി -l mal ഓപ്ഷന് ഉപയോഗിക്കുക. | # ടെസ്സറാക്റ്റ് ഇന്സ്റ്റാള് ചെയ്യുക. മലയാളം പേജുകള്ക്കായി -l mal ഓപ്ഷന് ഉപയോഗിക്കുക. | ||
# [http://tesseractindic.googlecode.com/files/vowel_reordering.tar.gz ഇവിടെ]യുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്, കുറച്ചൂകൂടി കൃത്യമായ | # [http://tesseractindic.googlecode.com/files/vowel_reordering.tar.gz ഇവിടെ]യുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്, കുറച്ചൂകൂടി കൃത്യമായ റിസല്ട്ടുകള് ലഭിക്കും. | ||
ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള് ഇതിലുണ്ട്. | ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള് ഇതിലുണ്ട്. |
Revision as of 18:17, 14 March 2009
ടെസ്സറാക്റ്റ്
ഇന്ന് ലഭ്യമായ സ്വതന്ത്ര ഓസിആര് സംവിധാനങ്ങളില്, എറ്റവും മികച്ചതാണ് ടെസ്സറാക്റ്റ്. ഇംഗ്ലീഷീനും മറ്റു ലാറ്റിന് ഭാഷകളിലും സുഗമമായി പ്രവര്ത്തിക്കുന്ന ടെസ്സറാക്റ്റ് യുണികോഡ് വളരെ നല്ല രീതിയില് പിന്തുണയ്ക്കുകയും ചെയ്യുന്നുണ്ട്.
ടെസ്സറാക്റ്റിനു മുകളിലുള്ള പരീക്ഷണങ്ങളില് നമ്മള് പ്രധാനമായി ഉന്നം വയ്ക്കുന്നതിവയാണ്,
- സിംബല് ക്ലാസിഫിക്കേഷന് സംവിധാനം മലയാളത്തിന് 99% കൃത്യത നല്കുമെന്നുറപ്പാക്കുക.
- പ്രീ-പോസ്റ്റ് പ്രോസസ്സിങ് സംവിധാനത്തില് വേണ്ട മാറ്റങ്ങള് വരുത്തുക.
ഇപ്പോള് ഉണ്ടാക്കിയിട്ടുള്ള ഒരു രൂപരേഖ ഏതാണ്ടിങ്ങനെയാണ്,
- ടെസ്സറാക്റ്റിനെ സാധാരണകാണുന്ന മലയാളം സിംബലുകള്ക്കായി പരിശീലിപ്പിക്കുക.
- ഈ ട്രെയിന് ചെയ്തെടുത്ത ടെസ്സറാക്റ്റ് സാമാന്യം വലിയ ഒരു കോര്പ്പസില് ടെസ്റ്റ് ചെയ്യകയും, റിസല്ട്ടുകള് വിശദമായി വിശകലനം ചെയ്യകയും ചെയ്യുക.
- ടെസ്സറാക്റ്റിന്റെ കോഡും വര്ക്ക് ഫ്ലോയും വിശദമായി മനസ്സിലാക്കുക.
- എറര് സോഴ്സുകള് മനസ്സിലാക്കാന് വിവിധതരം പരീക്ഷണങ്ങള് തയ്യാറാക്കുകയും നടത്തുകയും ചെയ്യുക.
- ആവശ്യമെങ്കില് പുതിയ വര്ക്ക്ഫ്ലോയും മെത്തേഡുകളും ഉണ്ടാക്കുക.
ഇപ്പോഴത്തെ സ്ഥിതി
ഒരു പ്രാഥമിക സംവിധാനം പ്രവര്ത്തനക്ഷമമാണ്. ചെറിയ ഒരു പൈത്തണ് പ്രോഗ്രാം കൂടി ഉപയോഗിച്ച് ഏതാണ്ട് 88% അക്ഷരങ്ങളും ശരിയായി തിരിച്ചറിയാന് കഴിയുന്നുണ്ട്(നോര്മല് ബുക്ക് പേജ്, വളരെക്കുറച്ച് പങ്ചുവേഷന്സ്)
ഇപ്പോഴത്തെ സംവിധാനം പരീക്ഷിക്കുന്നതിനായി
- ഇവിടെ നിന്നും ടെസ്സറാക്റ്റ് ഡൌണ്ലോഡ് ചെയ്യുക.
- ഇവിടെ നിന്നും മലയാളം ഫയലുകള് ഡൌണ്ലോഡ് ചെയ്യുക.
- ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള് tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക.
- ടെസ്സറാക്റ്റ് ഇന്സ്റ്റാള് ചെയ്യുക. മലയാളം പേജുകള്ക്കായി -l mal ഓപ്ഷന് ഉപയോഗിക്കുക.
- ഇവിടെയുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്, കുറച്ചൂകൂടി കൃത്യമായ റിസല്ട്ടുകള് ലഭിക്കും.
ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള് ഇതിലുണ്ട്.