LOGO
  முதல் பக்கம்    இலக்கியம்    கட்டுரை Print Friendly and PDF
- இலக்கியக் கட்டுரைகள்

இயற்கைமொழி ஆய்வின் (Natural Language Processing - NLP )இறுதி நோக்கம் . . .

சிந்திக்கும் திறன்கொண்ட மனிதன் . . . அறிவுத்திறன்கொண்ட மனிதன் . . . எவ்வாறு மொழித்தொடர்களையும் பிற மொழிசாராக் கருவிகளையும் ( முக பாவம், உடல் அசைவு, படங்கள், குறியீடுகள்) இணைத்துப் பிறரிடம் கருத்துப்பறிமாற்றம் செய்கிறான்? பிறரின் கருத்துக்களை எவ்வாறு உள்வாங்கிக்கொள்கிறான்? இதில் மனிதமொழியின் பங்கு என்ன? எவ்வாறு மொழி இந்தச் செயல்பாட்டை வெற்றிகரமாக மேற்கொள்கிறது? இந்தச் செயல்பாட்டை மேற்கொள்வதற்கு மொழி எவ்வாறு தன்னை ஒழுங்கமைத்துக்கொண்டுள்ளது?
 
மேற்கூறப்பட்ட வினாக்களுக்கு விடையளிக்க முயலும் ஒரு துறையே மொழியியல்! இதற்கான விடை காண்பதற்கு மொழியைப் பல கோணங்களில் - பல முனைகளில் - மொழியியல் ஆய்வு செய்கிறது. இதில் ஒரு முனை அகராதியியல், இன்னொரு முனை இலக்கணம். ஆனால் இலக்கணம்மட்டுமே மொழியியல் ஆகாது என்பதை இங்கு நாம் தெளிவுபடுத்திக் கொள்ளவேண்டும். மேலும் பல முனைகள் மொழியியலில் அடங்கும்!
 
ஆறறிவு படைத்த மனிதனின் மொழித் திறனைத்தான் மொழியியல் ஆய்வு செய்கிறது. அவனுக்கு உள்ள அறிவுத்திறனின் பின்னணியில் அவன் மொழி எவ்வாறு செயல்படுகிறது என்பதை ஆய்வுசெய்கிறது.
 
மனிதனின் உலக அறிவுத்திறன், மொழித்திறன் ஆகியவை மனித மூளையின் வேறுபட்ட உறுப்புக்களில் (Cognition domain, Language domain) தங்கி உள்ளன. இந்த இரண்டும் இணைந்துதான் நாம் ஒரு கருத்தை வெளிப்படுத்த . . . அல்லது புரிந்துகொள்ள உதவுகிறது. இந்த இரண்டாவது மொழித்திறன்பற்றிய ஆய்வே மொழியியல்.
 
ஒரு கருத்தை வெளிப்படுத்துவதில் அல்லது புரிந்துகொள்வதில் எழுத்துக்கள் (ஒலியன்கள்) , சொற்கள் (உருபன்கள்) , தொடர் அமைப்புக்கள் ஆகியவை எவ்வாறு ஒழுங்கமைக்கப்பட்டு இணைந்து செயல்படுகின்றன? இதுவே மொழியியலின் அடிப்படை ஆய்வு வினா!
 
மொழித்தொடர் ஆய்வின் ஒரு உயர்கட்டம் தொடர் அமைப்பு ஆய்வு அல்லது தொடரியல் (Syntax) ! இத்தொடர் அமைப்புக்கு ஒரு மொழியின் அகராதிச் சொற்களும் (Lexicon) இலக்கணமும் (Grammar) பொறுப்பாகும். இந்த இரண்டிலிருந்தும் விதிகளைப்பெற்று முறையாக அமைகிற தொடர்கள் (Sentences) தொடரியல் ஆய்வின் இறுதியில் தொடர்களின் பொருண்மையை ( Semantic Interpretation from Syntactic Component) நாம் பெறுகிறோம். ஆனால் இதுவே நாம் முன்வைக்க விரும்புகிற 'முழுமையான கருத்தை' அல்லது 'கருத்தாடலின் பொருண்மையை' நமக்குத் தந்துவிடாது!
 
தொடர்கள் அளித்த ''பொருண்மை (Semantic interpretation) '' மனித மூளையின் 'மொழிப்புலத்திலிருந்து (Language Domain) ' மனித மூளையில் உள்ள 'அறிவுத்திறன் புலத்திற்கு (Cognition domain) ' அனுப்பப்படுகிறது. இந்த இரண்டாவது புலத்தில்தான் மனிதனின் உலக அறிவு (World Knowledge / Ontology) சேகரித்து வைக்கப்பட்டுள்ளது. இதன்வழியே வெளிவரும்போதுதான் ஒரு மொழித்தொடர் நாம் விரும்புகிற கருத்தை முழுமையாக வெளிப்படுத்தும் மொழித்தொடராக ( meaningful and acceptable Utterances) முழுமை பெறுகிறது.
 
மொழியியலின் செயல்பாடு இந்த முதல் புலமான 'மொழிப்புலம்' தொடர்பானது மட்டுமே! இந்த மொழிப்புலத்தின் ஒரு முக்கியமான பகுதியே ''மொழி இலக்கணம்'! மற்றொரு முக்கியமான பகுதி 'அகராதிக் களஞ்சியம்'!
 
ஆகவே ஒரு குறிப்பிட்ட கருத்திற்கான முழுமையான மொழித்தொடரை உருவாக்குவதிலும், அல்லது ஒரு தொடரின் முழுப்பொருண்மையைப் புரிந்துகொள்வதற்கும் ''மொழிப்புலன்'' மட்டுமே போதாது! ''அறிவுப்புலமும் '' அடிப்படை!
இன்று கணினிமொழியியலில் (Computational Linguistics) மேற்கொள்ளப்படுகிற முக்கிய ஆய்வு ... மேற்குறிப்பிட்ட ''மொழிப்புலத்தின்'' அறிவை எவ்வாறு கணினிக்கு அளிப்பது? சரி, அதைக் கணினிக்கு அளித்துவிட்டோம் என்று கொள்வோம்! ஆனால் அதுவே ஒரு கருத்தை முழுமையாகப் புரிந்துகொள்ள அல்லது வெளிப்படுத்த, கணினிக்குப் போதுமா? போதாது! மனிதனின் 'அறிவுப்புலத்தின்' அறிவையும் ( Knowledge Representation ) கணினிக்குக் கொடுக்கவேண்டும்!
 
இந்த இரண்டாவது 'அறிவுப்புலத்தில் ' உள்ள அறிவு என்பது என்ன? அது எவ்வாறு மொழிப்புலம் உருவாக்கிய 'மொழித்தொடர்களுடன்' இணைந்து கருத்துக்களைப் புலப்படுத்துகிறது?
 
இவ்வாறு இந்த இரண்டு புலங்களின் அறிவையையும் கணினியில் சேமித்து வைக்கவேண்டும். இந்த இரண்டு அறிவுகளும் இணைந்து எவ்வாறு செயல்படுகிறது என்பதைக் கண்டறிந்து, அதைக் கணினிக்கு நிரல்களாக அளிக்கவேண்டும்!
மேற்குறிப்பிட்ட இந்த இரண்டு செயல்பாடுகளையும் கொண்டதே இயற்கைமொழி ஆய்வாகும்! அதாவது மனிதன் - மனிதன் கருத்துப்புலப்படுத்தச் செயல்பாட்டை (Human - Human Interface) எவ்வாறு மனிதன் - கணினி கருத்துப்புலப்படுத்தச் செயல்பாடாக (Human - Machine Interface) மாற்றுவது?
அதாவது கணினியை எவ்வாறு மனிதன் - கணினி கருத்துப்புலப்படுத்தச் செயல்பாட்டுக் கருவியாக மாற்றுவது? இது இயலுமா? அறிவியலில் இயலாது என்பது கிடையாது இன்று இயலாமல் இருக்கலாம். எதிர்கால அறிவியல்துறை வளர்ச்சி அதை இயலும் ஒன்றாக மாற்றலாம்.; மாற்றும்.
ஆனால் இதற்கான பயணம் நெடுந்தொலைவு உடையது! இங்கு நான் வலியுறுத்துவது . . . முதலில் நமது மூளையின் ''மொழிப்புலத்தில்'' சேமித்து வைக்கப்பட்டுள்ள மொழி அறிவு என்ன? எப்படிச் சேமித்துவைக்கப்படுகிறது? எழுத்து, சொல், தொடர், பொருண்மை வரை . . . அகராதிக் களஞ்சியம் உட்பட . . .
 
முழுமையான ஆய்வு மேற்கொள்ளப்படவேண்டும். அந்த ஆய்வின் அடிப்படையில் கிடைக்கப்பெறுகிற ''மொழி அறிவை'' எவ்வாறு கணினிக்கு நிரல்களாக அளிப்பது என்பதைக் கண்டறியவேண்டும்.
சொல், தொடர்களை ஆய்வதற்கான பல வழிமுறைகள் இன்று கணினிமொழியியலில் முன்வைக்கப்பட்டுள்ளன. அதுபோன்று அகராதிக் களஞ்சியத்தைக் கணினிக்கு அளிக்கப் பல வழி வகைகள் ( Generative Lexicon, WordNet etc.,) முன்வைக்கப்பட்டுள்ளன. இவற்றை எல்லாம் தமிழுக்குச் செயல்படுத்த வேண்டும்.
 
அமைப்பியல் ஆய்வு (Structural method) , புள்ளியியல் ஆய்வு ( Statistical method) , செயற்கை அறிவுத்திறன் (Artificial Intelligence - AI) , ஆழ்நிலைக் கற்றல் (Deep Learning) , நரம்புவலைப்பின்னல் (Neural Network) போன்ற வழிமுறைகள் முன்வைக்கப்பட்டுள்ளன!
இதுவே கணினிமொழியியலின் ஆய்வு நோக்கமாகும். எனவே நமது மொழி ஆய்வு என்பது ''இலக்கணத்தோடு'' நின்றுவிடக்கூடாது. அகராதியில் உட்பட . . . கருத்தாடல் ஆய்வு உட்பட . . . பலமுனை ஆய்வாக அமைய வேண்டும். அப்போதுதான் மேலைநாட்டுமொழிகளுக்கு உருவாக்கப்பட்டுவருகிற இதுபோன்ற மனிதன் - கணினி இடைமுகத்தைத் தமிழுக்கும் உருவாக்கமுடியும்.
 
எழுத்துரு உருவாக்கம், சொற்பிழைதிருத்தி, தொடர்ப்பிழை திருத்தி, சந்திப்பிழை திருத்தி ஆகியவற்றோடு தமிழ்க் கணினிமொழியியல் ஆய்வு நின்றுவிடக்கூடாது. அடுத்தடுத்து உயர்கட்டங்களுக்கு வளரவேண்டும்!
 
ஆனால் இது மொழியியல் துறையைமட்டும் சார்ந்த ஒரு துறை இல்லை ! மாறாக. , பல துறை அறிவு சார்ந்த ஒரு துறை (Interdisciplinary field) !
இத்துறையில் ஆர்வமுள்ளவர்கள் படிக்கவேண்டிய இரண்டு முக்கிய நூல்களின் படங்களை இங்கு பதிவிட்டுள்ளேன்.
 
-தெய்வ சுந்தரம் நயினார்
by Swathi   on 20 Dec 2022  0 Comments
 தொடர்புடையவை-Related Articles
ஆராய்ச்சி ஆராய்ச்சி
ஜாலங்கள் ஜாலங்கள்
நகர்ந்து கொண்டே இருக்கும் நாணயம் (நா-நயம்) நகர்ந்து கொண்டே இருக்கும் நாணயம் (நா-நயம்)
மண்ணும் மரமும் காட்டும் பண்பு மண்ணும் மரமும் காட்டும் பண்பு
இயற்கை என்னும் அற்புதம் இயற்கை என்னும் அற்புதம்
கடவுள் நம்பிக்கை கடவுள் நம்பிக்கை
சின்ன சின்ன சந்தோசங்கள் சின்ன சின்ன சந்தோசங்கள்
பேச்சுத்தமிழின் முக்கியத்துவம் ! பேச்சுத்தமிழ் ''கொச்சைத் தமிழ் ''  இல்லை! ''பச்சைத் தமிழ்''! பேச்சுத்தமிழின் முக்கியத்துவம் ! பேச்சுத்தமிழ் ''கொச்சைத் தமிழ் '' இல்லை! ''பச்சைத் தமிழ்''!
கருத்துகள்
No Comments found.
உங்கள் கருத்துகள் பதிவு செய்ய
பெயர் *
இமெயில் *
கருத்து *

(Maximum characters: 1000)   You have characters left.
Write reCAPTCHA code *
 
இயல்பாக நீங்கள் டைப் செய்யும் எழுத்துக்கள் Space bar அழுத்தியவுடன் தமிழில் தோன்றும். உங்கள் எழுத்துக்கள் ஆங்கிலத்தில் இருக்க CTRL+G press செய்யவும்.
முக்கிய குறிப்பு:

வலைத்தமிழ் இணையதளத்தில் செய்திகளுக்கும் கட்டுரைகளுக்கும் வாசகர்கள் பதிவு செய்யும் கருத்துக்கள் தணிக்கை இன்றி உடனடியாக பிரசுரமாகும் வகையில் மென்பொருள் வடிவமைக்கப்பட்டுள்ளது. எனவே, வாசகர்களின் கருத்துக்களுக்கு வலைதமிழ் நிர்வாகமோ அல்லது அதன் ஆசிரியர் குழுவோ எந்தவிதத்திலும் பொறுப்பாக மாட்டார்கள்.  பிறர் மனதை புண்படுத்தகூடிய கருத்துகளை / வார்த்தைகளைப் பயன்படுத்துவதை தவிர்க்கும்படி வாசகர்களை கேட்டுக்கொள்கிறோம். வாசகர்கள் பதிவு செய்யும் கருத்துக்கள் தொடர்பான சட்டரீதியான நடவடிக்கைகளுக்கு வாசகர்களே முழுப்பொறுப்பு. கடுமையான கருத்துக்கள் குறித்து எங்கள் கவனத்திற்கு கொண்டு வந்தால் அவற்றை நீக்க நடவடிக்கை எடுக்கப்படும். கடுமையான கருத்துக்களை நீக்குவதற்கு info@ValaiTamil.com என்ற  இ-மெயில் முகவரிக்கு தொடர்பு கொள்ளவும்.