Machine translation: Difference between revisions

From SMC Wiki
No edit summary
Line 43: Line 43:
റൂള്‍ ബേസ്ഡ് പരിഭാഷയെ അടിസ്താനമാകിയുള്ള സ്വതന്ത്ര സോഫ്ട്വൈര്‍ ആണ് apertium. wikimeadia യുടെ പുതിയ പരിഭാഷ പദ്ധതിയിലും apertium ആണ് ഉപയോഗിക്കുന്നത് .ലളിതവും extensibility യുമാണ് അപെറ്ടിയത്തെ പ്രിയങ്കരമാക്കുന്നത് . 2004 ഇല്‍ സ്പൈന് വ്യവസായ വകുപ്പിന്റെ കീഴില്‍ കണ്‍സോര്ഷ്യമാണ് അപെറ്ടിയം ഉണ്ടാക്കിയത്  
റൂള്‍ ബേസ്ഡ് പരിഭാഷയെ അടിസ്താനമാകിയുള്ള സ്വതന്ത്ര സോഫ്ട്വൈര്‍ ആണ് apertium. wikimeadia യുടെ പുതിയ പരിഭാഷ പദ്ധതിയിലും apertium ആണ് ഉപയോഗിക്കുന്നത് .ലളിതവും extensibility യുമാണ് അപെറ്ടിയത്തെ പ്രിയങ്കരമാക്കുന്നത് . 2004 ഇല്‍ സ്പൈന് വ്യവസായ വകുപ്പിന്റെ കീഴില്‍ കണ്‍സോര്ഷ്യമാണ് അപെറ്ടിയം ഉണ്ടാക്കിയത്  


=== സ്ഥാപിക്കാന്‍/Installation ===
== സ്ഥാപിക്കാന്‍/Installation ==
Installing the newest version from SVN
Installing the newest version from SVN


Line 84: Line 84:
</pre>
</pre>


=== കൂടുതല്‍ വിവരങ്ങള്‍ക്ക് ===
== കൂടുതല്‍ വിവരങ്ങള്‍ക്ക് ==
* Aboobacker Mk <aboobackervyd at gmail dot com>
* Aboobacker Mk <aboobackervyd at gmail dot com>

Revision as of 19:34, 26 August 2013

Machine language translation with apertium

കമ്പ്യൂട്ടറിന്റെ സഹായത്താല്‍ ഒരു ഭാഷയിലുള്ള ഉള്ളടക്കത്തെ മറ്റൊരു ഭാഷയിലേക്ക് പരിഭാഷപ്പെടുത്തുന്നതിനെയാണ് യാന്ത്രിക പരിഭാഷ എന്നു പറയുന്നത്. ഒരു ഭാഷയിലെ വാക്കുകള്‍ക്ക് പകരം target ഭാഷയിലെ വാക്കുകള്‍ പകരം വച്ചതുകൊണ്ടു മാത്രം പരിഭാഷ സാധ്യമല്ല , കാരണം ഓരോ ഭാഷയ്ക്കും വ്യത്യസ്തമായ വ്യാകരണമാണ്.

യാന്ത്രിക പരിഭാഷയെ പ്രധാനമായും രണ്ടായി തിരിക്കാം.

  1. Rule Based
  2. Corpus Based

Rule Based

വ്യാകരണ നിയമങ്ങളുടെ അടിസ്ഥാനമാക്കി പരിഭാഷപെടുത്തുന്നതിനെയാണ് റൂള്‍ ബേസ്ഡ് എന്നു പറയുന്നത് "Rule-based machine translation is like taking a set of dictionaries and a descriptive grammar, and trying to translate from one language you don’t know into another."

ഗുണങ്ങള്‍

  1. പ്രവചിക്കാവുന്ന ഫലം (predictable output)
  2. പ്രവചിക്കാവുന്ന തെറ്റുകള്‍(predictable errors)
  3. (incremental improvements)
  4. തെറ്റുകള്‍ എളുപ്പത്തില്‍ കണ്ടുപിടിക്കാം
  5. വലിയ അളവില്‍ നിലവിലുള്ള പരിഭാഷയുടെ ലഭ്യത ആവശ്യമില്ല.

ദോഷങ്ങള്‍

  1. Lack of fluency
  2. Lack of idiomaticness
  3. “Mechanical” output
  4. Development (വികസനം) കൂടുതല്‍ സമയമെടുത്തേക്കാം

Corpus Based

ലഭ്യമായ മുന്‍ പരിഭാഷകള്‍ ഉപയോഗിച്ച് word matchingങ്ങിലൂടെ പരിഭാഷപ്പെടുത്തുന്നതിനെയാണ് കോര്‍പസ് ബേസ്ഡ് പരിഭാഷ എന്നു പറയുന്നത് "Corpus-based machine translation is like taking two documents in two languages you don’t know which are translations of each other and trying to match up words. Then you use these words to build sentences which you put into Google to see if they sound likely."

ഗുണങ്ങള്‍

  1. Fluent output
  2. Idiomatic output
  3. No need for linguistic resources:
    1. dictionaries
    2. grammars
    3. linguists

ദോഷങ്ങള്‍

  1. Unpredictable
  2. Incremental improvements are hard
  3. Development can be time consuming

റൂള്‍ ബേസ്ഡ് പരിഭാഷയെ അടിസ്താനമാകിയുള്ള സ്വതന്ത്ര സോഫ്ട്വൈര്‍ ആണ് apertium. wikimeadia യുടെ പുതിയ പരിഭാഷ പദ്ധതിയിലും apertium ആണ് ഉപയോഗിക്കുന്നത് .ലളിതവും extensibility യുമാണ് അപെറ്ടിയത്തെ പ്രിയങ്കരമാക്കുന്നത് . 2004 ഇല്‍ സ്പൈന് വ്യവസായ വകുപ്പിന്റെ കീഴില്‍ കണ്‍സോര്ഷ്യമാണ് അപെറ്ടിയം ഉണ്ടാക്കിയത്

സ്ഥാപിക്കാന്‍/Installation

Installing the newest version from SVN


Step 1: install the prerequisites. ടെര്‍മിനല്‍ ഓപെണ്‍ ചെയ്ത് താഴെയുള്ള കോഡ് എന്റെര്‍ ചെയ്യുക

sudo apt-get install subversion build-essential pkg-config gawk libxml2 libxml2-dev libxml2-utils xsltproc flex automake libtool libpcre3-dev  

പാസ്വെര്‍ഡ് ട്യെപ് ചെയ്ത് എന്റെര്‍ ചെയ്യുക .

Step 2: Download required packages.

svn checkout https://svn.code.sf.net/p/apertium/svn/trunk/lttoolbox
svn checkout https://svn.code.sf.net/p/apertium/svn/trunk/apertium
svn checkout https://svn.code.sf.net/p/apertium/svn/trunk/apertium-lex-tools

Step 2: compile and install.

cd lttoolbox
./autogen.sh 
make
make install
ldconfig
cd apertium
./autogen.sh 
make
make install
ldconfig
cd apertium-lex-tools
./autogen.sh 
make
make install
ldconfig

കൂടുതല്‍ വിവരങ്ങള്‍ക്ക്

  • Aboobacker Mk <aboobackervyd at gmail dot com>