<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://wiki.smc.org.in/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Jinsbond007</id>
	<title>SMC Wiki - User contributions [en]</title>
	<link rel="self" type="application/atom+xml" href="https://wiki.smc.org.in/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Jinsbond007"/>
	<link rel="alternate" type="text/html" href="https://wiki.smc.org.in/Special:Contributions/Jinsbond007"/>
	<updated>2026-05-09T21:19:55Z</updated>
	<subtitle>User contributions</subtitle>
	<generator>MediaWiki 1.40.1</generator>
	<entry>
		<id>https://wiki.smc.org.in/index.php?title=OCR&amp;diff=574</id>
		<title>OCR</title>
		<link rel="alternate" type="text/html" href="https://wiki.smc.org.in/index.php?title=OCR&amp;diff=574"/>
		<updated>2009-03-14T18:17:15Z</updated>

		<summary type="html">&lt;p&gt;Jinsbond007: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==ടെസ്സറാക്റ്റ്==&lt;br /&gt;
&lt;br /&gt;
ഇന്ന് ലഭ്യമായ സ്വതന്ത്ര ഓസിആര്‍ സംവിധാനങ്ങളില്‍, എറ്റവും മികച്ചതാണ് ടെസ്സറാക്റ്റ്. ഇംഗ്ലീഷീനും മറ്റു ലാറ്റിന്‍ ഭാഷകളിലും സുഗമമായി പ്രവര്‍ത്തിക്കുന്ന ടെസ്സറാക്റ്റ് യുണികോഡ് വളരെ നല്ല രീതിയില്‍ പിന്തുണയ്ക്കുകയും ചെയ്യുന്നുണ്ട്.&lt;br /&gt;
&lt;br /&gt;
ടെസ്സറാക്റ്റിനു മുകളിലുള്ള പരീക്ഷണങ്ങളില്‍ നമ്മള്‍ പ്രധാനമായി ഉന്നം വയ്ക്കുന്നതിവയാണ്,&lt;br /&gt;
&lt;br /&gt;
# സിംബല്‍ ക്ലാസിഫിക്കേഷന്‍ സംവിധാനം മലയാളത്തിന് 99% കൃത്യത നല്‍കുമെന്നുറപ്പാക്കുക.&lt;br /&gt;
# പ്രീ-പോസ്റ്റ് പ്രോസസ്സിങ് സംവിധാനത്തില്‍ വേണ്ട മാറ്റങ്ങള്‍ വരുത്തുക.&lt;br /&gt;
&lt;br /&gt;
ഇപ്പോള്‍ ഉണ്ടാക്കിയിട്ടുള്ള ഒരു രൂപരേഖ ഏതാണ്ടിങ്ങനെയാണ്,&lt;br /&gt;
# ടെസ്സറാക്റ്റിനെ സാധാരണകാണുന്ന മലയാളം സിംബലുകള്‍ക്കായി പരിശീലിപ്പിക്കുക.&lt;br /&gt;
# ഈ ട്രെയിന്‍ ചെയ്തെടുത്ത ടെസ്സറാക്റ്റ് സാമാന്യം വലിയ ഒരു കോര്‍പ്പസില്‍ ടെസ്റ്റ് ചെയ്യകയും, റിസല്‍ട്ടുകള്‍ വിശദമായി വിശകലനം ചെയ്യകയും ചെയ്യുക.&lt;br /&gt;
# ടെസ്സറാക്റ്റിന്റെ കോഡും വര്‍ക്ക് ഫ്ലോയും വിശദമായി മനസ്സിലാക്കുക.&lt;br /&gt;
# എറര്‍ സോഴ്സുകള്‍ മനസ്സിലാക്കാന്‍ വിവിധതരം പരീക്ഷണങ്ങള്‍ തയ്യാറാക്കുകയും നടത്തുകയും ചെയ്യുക.&lt;br /&gt;
# ആവശ്യമെങ്കില്‍ പുതിയ വര്‍ക്ക്ഫ്ലോയും മെത്തേഡുകളും ഉണ്ടാക്കുക.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
==ഇപ്പോഴത്തെ സ്ഥിതി==&lt;br /&gt;
&lt;br /&gt;
ഒരു പ്രാഥമിക സംവിധാനം പ്രവര്‍ത്തനക്ഷമമാണ്. ചെറിയ ഒരു പൈത്തണ്‍ പ്രോഗ്രാം കൂടി ഉപയോഗിച്ച് ഏതാണ്ട് 88% അക്ഷരങ്ങളും ശരിയായി തിരിച്ചറിയാന്‍ കഴിയുന്നുണ്ട്(നോര്‍മല്‍ ബുക്ക് പേജ്, വളരെക്കുറച്ച് പങ്ചുവേഷന്‍സ്)&lt;br /&gt;
&lt;br /&gt;
==ഇപ്പോഴത്തെ സംവിധാനം പരീക്ഷിക്കുന്നതിനായി==&lt;br /&gt;
&lt;br /&gt;
#[http://tesseract-ocr.googlecode.com/files/tesseract-2.03.tar.gz ഇവിടെ] നിന്നും ടെസ്സറാക്റ്റ് ഡൌണ്‍ലോഡ് ചെയ്യുക. &lt;br /&gt;
#[http://tesseractindic.googlecode.com/files/mal_train_data.tgz ഇവിടെ] നിന്നും മലയാളം ഫയലുകള്‍ ഡൌണ്‍ലോഡ് ചെയ്യുക. &lt;br /&gt;
# ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള്‍ tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക.&lt;br /&gt;
# ടെസ്സറാക്റ്റ് ഇന്‍സ്റ്റാള്‍ ചെയ്യുക. മലയാളം പേജുകള്‍ക്കായി -l mal ഓപ്ഷന്‍ ഉപയോഗിക്കുക.&lt;br /&gt;
# [http://tesseractindic.googlecode.com/files/vowel_reordering.tar.gz ഇവിടെ]യുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്‍, കുറച്ചൂകൂടി കൃത്യമായ റിസല്‍ട്ടുകള്‍ ലഭിക്കും.&lt;br /&gt;
&lt;br /&gt;
ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള്‍ ഇതിലുണ്ട്.&lt;/div&gt;</summary>
		<author><name>Jinsbond007</name></author>
	</entry>
	<entry>
		<id>https://wiki.smc.org.in/index.php?title=OCR&amp;diff=573</id>
		<title>OCR</title>
		<link rel="alternate" type="text/html" href="https://wiki.smc.org.in/index.php?title=OCR&amp;diff=573"/>
		<updated>2009-03-14T18:15:54Z</updated>

		<summary type="html">&lt;p&gt;Jinsbond007: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==ടെസ്സറാക്റ്റ്==&lt;br /&gt;
&lt;br /&gt;
ഇന്ന് ലഭ്യമായ സ്വതന്ത്ര ഓസിആര്‍ സംവിധാനങ്ങളില്‍, എറ്റവും മികച്ചതാണ് ടെസ്സറാക്റ്റ്. ഇംഗ്ലീഷീനും മറ്റു ലാറ്റിന്‍ ഭാഷകളിലും സുഗമമായി പ്രവര്‍ത്തിക്കുന്ന ടെസ്സറാക്റ്റ് യുണികോഡ് വളരെ നല്ല രീതിയില്‍ പിന്തുണയ്ക്കുകയും ചെയ്യുന്നുണ്ട്.&lt;br /&gt;
&lt;br /&gt;
ടെസ്സറാക്റ്റിനു മുകളിലുള്ള പരീക്ഷണങ്ങളില്‍ നമ്മള്‍ പ്രധാനമായി ഉന്നം വയ്ക്കുന്നതിവയാണ്,&lt;br /&gt;
&lt;br /&gt;
# സിംബല്‍ ക്ലാസിഫിക്കേഷന്‍ സംവിധാനം മലയാളത്തിന് 99% കൃത്യത നല്‍കുമെന്നുറപ്പാക്കുക.&lt;br /&gt;
# പ്രീ-പോസ്റ്റ് പ്രോസസ്സിങ് സംവിധാനത്തില്‍ വേണ്ട മാറ്റങ്ങള്‍ വരുത്തുക.&lt;br /&gt;
&lt;br /&gt;
ഇപ്പോള്‍ ഉണ്ടാക്കിയിട്ടുള്ള ഒരു രൂപരേഖ ഏതാണ്ടിങ്ങനെയാണ്,&lt;br /&gt;
# ടെസ്സറാക്റ്റിനെ സാധാരണകാണുന്ന മലയാളം സിംബലുകള്‍ക്കായി പരിശീലിപ്പിക്കുക.&lt;br /&gt;
# ഈ ട്രെയിന്‍ ചെയ്തെടുത്ത ടെസ്സറാക്റ്റ് സാമാന്യം വലിയ ഒരു കോര്‍പ്പസില്‍ ടെസ്റ്റ് ചെയ്യകയും, റിസല്‍ട്ടുകള്‍ വിശദമായി വിശകലനം ചെയ്യകയും ചെയ്യുക.&lt;br /&gt;
# ടെസ്സറാക്റ്റിന്റെ കോഡും വര്‍ക്ക് ഫ്ലോയും വിശദമായി മനസ്സിലാക്കുക.&lt;br /&gt;
# എറര്‍ സോഴ്സുകള്‍ മനസ്സിലാക്കാന്‍ വിവിധതരം പരീക്ഷണങ്ങള്‍ തയ്യാറാക്കുകയും നടത്തുകയും ചെയ്യുക.&lt;br /&gt;
# ആവശ്യമെങ്കില്‍ പുതിയ വര്‍ക്ക്ഫ്ലോയും മെത്തേഡുകളും ഉണ്ടാക്കുക.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
==ഇപ്പോഴത്തെ സ്ഥിതി==&lt;br /&gt;
&lt;br /&gt;
ഒരു പ്രാഥമിക സംവിധാനം പ്രവര്‍ത്തനക്ഷമമാണ്. ചെറിയ ഒരു പൈത്തണ്‍ പ്രോഗ്രാം കൂടി ഉപയോഗിച്ച് ഏതാണ്ട് 88% അക്ഷരങ്ങളും ശരിയായി തിരിച്ചറിയാന്‍ കഴിയുന്നുണ്ട്(നോര്‍മല്‍ ബുക്ക് പേജ്, വളരെക്കുറച്ച് പങ്ചുവേഷന്‍സ്)&lt;br /&gt;
&lt;br /&gt;
==ഇപ്പോഴത്തെ സംവിധാനം പരീക്ഷിക്കുന്നതിനായി==&lt;br /&gt;
&lt;br /&gt;
#[http://tesseract-ocr.googlecode.com/files/tesseract-2.03.tar.gz ഇവിടെ] നിന്നും ടെസ്സറാക്റ്റ് ഡൌണ്‍ലോഡ് ചെയ്യുക. &lt;br /&gt;
#[http://tesseractindic.googlecode.com/files/mal_train_data.tgz ഇവിടെ] നിന്നും മലയാളം ഫയലുകള്‍ ഡൌണ്‍ലോഡ് ചെയ്യുക. &lt;br /&gt;
# ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള്‍ tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക.&lt;br /&gt;
# ടെസ്സറാക്റ്റ് ഇന്‍സ്റ്റാള്‍ ചെയ്യുക. മലയാളം പേജുകള്‍ക്കായി -l mal ഓപ്ഷന്‍ ഉപയോഗിക്കുക.&lt;br /&gt;
# [http://tesseractindic.googlecode.com/files/vowel_reordering.tar.gz ഇവിടെ]യുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്‍, കുറച്ചൂകൂടി കൃത്യമായ റിസല്‍ട്ടികള്‍ ലഭിക്കും.&lt;br /&gt;
&lt;br /&gt;
ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള്‍ ഇതിലുണ്ട്.&lt;/div&gt;</summary>
		<author><name>Jinsbond007</name></author>
	</entry>
	<entry>
		<id>https://wiki.smc.org.in/index.php?title=OCR&amp;diff=570</id>
		<title>OCR</title>
		<link rel="alternate" type="text/html" href="https://wiki.smc.org.in/index.php?title=OCR&amp;diff=570"/>
		<updated>2009-03-14T18:05:42Z</updated>

		<summary type="html">&lt;p&gt;Jinsbond007: പുതിയ താള്‍: ==ടെസ്സറാക്റ്റ് സ്വരാക്ഷരസംവേദനസംവിധാനം(OCR)==  ഇന്ന് ലഭ്യമായ സ്...&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==ടെസ്സറാക്റ്റ് സ്വരാക്ഷരസംവേദനസംവിധാനം(OCR)==&lt;br /&gt;
&lt;br /&gt;
ഇന്ന് ലഭ്യമായ സ്വതന്ത്ര ഓസിആര്‍ സംവിധാനങ്ങളില്‍, എറ്റവും മികച്ചതാണ് ടെസ്സറാക്റ്റ്. ഇംഗ്ലീഷീനും മറ്റു ലാറ്റിന്‍ ഭാഷകളിലും സുഗമമായി പ്രവര്‍ത്തിക്കുന്ന ടെസ്സറാക്റ്റ് യുണികോഡ് വളരെ നല്ല രീതിയില്‍ പിന്തുണയ്ക്കുകയും ചെയ്യുന്നുണ്ട്.&lt;br /&gt;
&lt;br /&gt;
ടെസ്സറാക്റ്റിനു മുകളിലുള്ള പരീക്ഷണങ്ങളില്‍ നമ്മള്‍ പ്രധാനമായി ഉന്നം വയ്ക്കുന്നതിവയാണ്,&lt;br /&gt;
&lt;br /&gt;
# സിംബല്‍ ക്ലാസിഫിക്കേഷന്‍ സംവിധാനം മലയാളത്തിന് 99% കൃത്യത നല്‍കുമെന്നുറപ്പാക്കുക.&lt;br /&gt;
# പ്രീ-പോസ്റ്റ് പ്രോസസ്സിങ് സംവിധാനത്തില്‍ വേണ്ട മാറ്റങ്ങള്‍ വരുത്തുക.&lt;br /&gt;
&lt;br /&gt;
ഇപ്പോള്‍ ഉണ്ടാക്കിയിട്ടുള്ള ഒരു രൂപരേഖ ഏതാണ്ടിങ്ങനെയാണ്,&lt;br /&gt;
# ടെസ്സറാക്റ്റിനെ സാധാരണകാണുന്ന മലയാളം സിംബലുകള്‍ക്കായി പരിശീലിപ്പിക്കുക.&lt;br /&gt;
# ഈ ട്രെയിന്‍ ചെയ്തെടുത്ത ടെസ്സറാക്റ്റ് സാമാന്യം വലിയ ഒരു കോര്‍പ്പസില്‍ ടെസ്റ്റ് ചെയ്യകയും, റിസല്‍ട്ടുകള്‍ വിശദമായി വിശകലനം ചെയ്യകയും ചെയ്യുക.&lt;br /&gt;
# ടെസ്സറാക്റ്റിന്റെ കോഡും വര്‍ക്ക് ഫ്ലോയും വിശദമായി മനസ്സിലാക്കുക.&lt;br /&gt;
# എറര്‍ സോഴ്സുകള്‍ മനസ്സിലാക്കാന്‍ വിവിധതരം പരീക്ഷണങ്ങള്‍ തയ്യാറാക്കുകയും നടത്തുകയും ചെയ്യുക.&lt;br /&gt;
# ആവശ്യമെങ്കില്‍ പുതിയ വര്‍ക്ക്ഫ്ലോയും മെത്തേഡുകളും ഉണ്ടാക്കുക.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
==ഇപ്പോഴത്തെ സ്ഥിതി==&lt;br /&gt;
&lt;br /&gt;
ഒരു പ്രാഥമിക സംവിധാനം പ്രവര്‍ത്തനക്ഷമമാണ്. ചെറിയ ഒരു പൈത്തണ്‍ പ്രോഗ്രാം കൂടി ഉപയോഗിച്ച് ഏതാണ്ട് 88% അക്ഷരങ്ങളും ശരിയായി തിരിച്ചറിയാന്‍ കഴിയുന്നുണ്ട്(നോര്‍മല്‍ ബുക്ക് പേജ്, വളരെക്കുറച്ച് പങ്ചുവേഷന്‍സ്)&lt;br /&gt;
&lt;br /&gt;
==ഇപ്പോഴത്തെ സംവിധാനം പരീക്ഷിക്കുന്നതിനായി==&lt;br /&gt;
&lt;br /&gt;
#[http://tesseract-ocr.googlecode.com/files/tesseract-2.03.tar.gz ഇവിടെ] നിന്നും ടെസ്സറാക്റ്റ് ഡൌണ്‍ലോഡ് ചെയ്യുക. &lt;br /&gt;
#[http://tesseractindic.googlecode.com/files/mal_train_data.tgz ഇവിടെ] നിന്നും മലയാളം ഫയലുകള്‍ ഡൌണ്‍ലോഡ് ചെയ്യുക. &lt;br /&gt;
# ടെസ്സറാക്റ്റ് പൊതിതുറക്കുക. mal_train_data.tgz പൊതിയിലുള്ള ഫയലുകള്‍ tesseract-2.03 ഡയറക്റ്ററിക്കുള്ളിലെ tessdata ഡയറക്റ്ററിയിലിടുക.&lt;br /&gt;
# ടെസ്സറാക്റ്റ് ഇന്‍സ്റ്റാള്‍ ചെയ്യുക. മലയാളം പേജുകള്‍ക്കായി -l mal ഓപ്ഷന്‍ ഉപയോഗിക്കുക.&lt;br /&gt;
# [http://tesseractindic.googlecode.com/files/vowel_reordering.tar.gz ഇവിടെ]യുള്ള പ്രോഗ്രാം കൂടി ഉപയോഗിച്ചാല്‍, കുറച്ചൂകൂടി കൃത്യമായ റിസല്‍ട്ടികള്‍ ലഭിക്കും.&lt;br /&gt;
&lt;br /&gt;
ഈ സംവിധാനം ഇപ്പോഴും പരീക്ഷണഘട്ടത്തിലാണ്. ഒരുപാടു പ്രശ്നങ്ങള്‍ ഇതിലുണ്ട്.&lt;/div&gt;</summary>
		<author><name>Jinsbond007</name></author>
	</entry>
</feed>