Difference between revisions of "Machine translation"

From SMC Wiki
Line 9: Line 9:
 
=== ഗുണങ്ങള്‍ ===
 
=== ഗുണങ്ങള്‍ ===
 
# പ്രവജിക്കാവുന്ന ഫലം (predictable output)
 
# പ്രവജിക്കാവുന്ന ഫലം (predictable output)
# (predictable errors)
+
# പ്രവജിക്കാവുന്ന തെറ്റുകള്‍(predictable errors)
 
# (incremental improvements)
 
# (incremental improvements)
# Translation errors traceable
+
# തെറ്റുകള്‍ എളുപ്പത്തില്‍ കണ്ടുപിടിക്കാം
# Terminology control easy
+
# വലിയ അളവില്‍ നിലവിലുള്ള പരിഭാഷയുടെ ലഭ്യത ആവഷ്യം ഇല്ല
# No need for large quantity of existing translations
+
===ദോഷങ്ങള്‍ ===
 +
# Lack of fluency
 +
# Lack of idiomaticness
 +
# “Mechanical” output
 +
# ഡെവെലപ്മെന്റ് കൂടുതല്‍ സമയമെടുത്തേക്കാം
 +
 
 +
ലഭ്യമായ മുന്‍ പരിഭാഷകള്‍ യൂസ് ചെയ്ത് word matchingഇലൂടെ പരിഭാഷപ്പെടുത്തുന്നതിനെയാണ് കോര്‍പസ് ബേസ്ഡ് പരിഭാഷ എന്നു പറയുന്നത്
 +
"Corpus-based machine translation is like taking two documents in two languages you don’t know which are translations of each other and trying to match up words. Then you use these words to build sentences which you put into Google to see if they sound likely."
 +
 
 +
=== ഗുണങ്ങള്‍ ===
 +
# Fluent output
 +
# Idiomatic output
 +
# No need for linguistic resources:
 +
## dictionaries
 +
## grammars
 +
## linguists
 +
 
 +
===ദോഷങ്ങള്‍ ===
 +
# Unpredictable
 +
# Incremental improvements are hard
 +
# Development can be time consuming

Revision as of 17:51, 26 August 2013

Machine language translation with apertium

കംപൂട്ടറിന്റെ സഹായത്താല്‍ ഒരു ഭാഷയിലുള്ള text ഇനെ മടൊരു ഭാഷയിലേക് പരിഭാഷപ്പെടുത്തുന്നതിനെയാണ് യാന്ത്രിക പരിഭാഷ എന്നു പറയുന്നത്. ഒരു ഭാഷയിലെ വാക്കുകള്‍ക് പകരം target ഭാഷയിലെ വാക്കുകള്‍ പകരം വെച്ചതു കൊണ്ടു മാത്രം പരിഭാഷ സാദ്യമല്ല , കാരണം ഓരൊ ഭാഷയ്ക്കും വിത്യസ്തമായ grammer ആണ് . യാന്ത്രിക പരിഭാഷയെ പ്രതാനമായും രണ്ടായി തിരിക്കാം

  1. Rule Based
  2. Corpus Based

വ്യാകരണ നിയമങ്ങലുടെ അടിസ്താനമാക്കി പരിഭാഷപെടുത്തുന്നതിനെയാണ് റൂള്‍ ബേസ്ഡ് എന്നു പറയുന്നത് "Rule-based machine translation is like taking a set of dictionaries and a descriptive grammar, and trying to translate from one language you don’t know into another."

ഗുണങ്ങള്‍

  1. പ്രവജിക്കാവുന്ന ഫലം (predictable output)
  2. പ്രവജിക്കാവുന്ന തെറ്റുകള്‍(predictable errors)
  3. (incremental improvements)
  4. തെറ്റുകള്‍ എളുപ്പത്തില്‍ കണ്ടുപിടിക്കാം
  5. വലിയ അളവില്‍ നിലവിലുള്ള പരിഭാഷയുടെ ലഭ്യത ആവഷ്യം ഇല്ല

ദോഷങ്ങള്‍

  1. Lack of fluency
  2. Lack of idiomaticness
  3. “Mechanical” output
  4. ഡെവെലപ്മെന്റ് കൂടുതല്‍ സമയമെടുത്തേക്കാം

ലഭ്യമായ മുന്‍ പരിഭാഷകള്‍ യൂസ് ചെയ്ത് word matchingഇലൂടെ പരിഭാഷപ്പെടുത്തുന്നതിനെയാണ് കോര്‍പസ് ബേസ്ഡ് പരിഭാഷ എന്നു പറയുന്നത് "Corpus-based machine translation is like taking two documents in two languages you don’t know which are translations of each other and trying to match up words. Then you use these words to build sentences which you put into Google to see if they sound likely."

ഗുണങ്ങള്‍

  1. Fluent output
  2. Idiomatic output
  3. No need for linguistic resources:
    1. dictionaries
    2. grammars
    3. linguists

ദോഷങ്ങള്‍

  1. Unpredictable
  2. Incremental improvements are hard
  3. Development can be time consuming