தற்போதைய ஒருங்குறியிலுள்ள முக்கியமான பிழை அதில் உயிர்மெய்யெழுத்துக்கள் உருவாக்கப்படும் விதம்தான். ஒரு பள்ளி மாணவனுக்கும் தெரியும், க = க் + அ, கா = க் + ஆ,........... போன்றப் புணர்ச்சி விதிகளை. ஆனால், ஒருங்குறியை உருவாக்கிய சான்றோர்களோ, இந்த அடிப்படையை கூட மதிக்காமல், க் = க + ஃ, கா = க + ஆ,........... என்ற புது வழியை நமக்கு வழங்கியிருக்கிறார்கள். இதனால், எளிதில் கிடைத்திருக்கக் கூடிய ஒரு பொன்னான வாய்ப்பை நழுவ விட்டிருக்கிறது தமிழ்ச் சமூகம்.
எனக்குத் தெரிந்த வரையில், Tamil is a highly structured language. அதன் உறுதியான வடிவமைப்பினால், அதன் இலக்கண விதிகளைக் கொண்டே அதைக் கணிமைப்படுத்துவது எளிது. மொழியின் அடிப்படைகளைக் கடாசி விட்டு, க + ஆ, க + இ என்றெல்லாம் எழுத்துக்களை உருவாக்கியதால், இன்று நமக்கு எளிதில் கிடைத்திருக்கக் கூடிய ஒரு வசதி - கணிமையாற்றலால் சொற்களைத் தேடிப் பெறும் வசதி, ஒரு கைக்கெட்டாத கனியாகி விட்டது. ஒற்றில் முடியும் பெயர்ச் சொற்கள் - கோயமுத்தூர், சங்கர், ஜெயமோகன்....... போன்றவைகளை ஒரு ஆவணத்திலிருந்து தேடியெடுக்கும் வசதி இதனால் தாரை வார்க்கப் பட்டுவிட்டது. ஏனென்றால், அவை 'கோயமுத்தூரில்' (கோயமுத்தூர + இல்), 'சங்கரின்' (சங்கர + இன்), 'ஜெயமோகனை' (ஜெயமோகன + ஐ), என்றெல்லாம்தான் பெரும்பாலும் அந்த ஆவணத்தில் இடம் பெற்றிருக்கும். அவற்றை தேடிப் பெறுவதற்கு, "ஜெய ஜய சங்கர" என்று் முழங்க வேண்டியதுதான்.
இன்னும் சில சிக்கல்களைப் பற்றிக்் கூறுகிறேன், கேட்டுக்கொள்ளுங்கள். 'திருக்குறள்' அல்லது 'கம்பன்' என்ற சொல்லை எங்கிருந்தாவது select & copy செய்கிறீர்கள். அதைக் கொண்டு போய் paste செய்தால் வருவதென்ன? 'திருக்குறள' அல்லது 'கம்பன'. இன்னொரு சிக்கல், ஒரு சொல்லுக்குப் பிறகு full-stopஓ, commaவோ வைக்க மறந்து விட்டதால், cursorஐ அங்கு நகர்த்திச் சென்று, வேண்டிய நிறுத்தக் குறியீட்டைப் புகுத்துகிறீர்கள். உ-ம், 'நன்றி' என்பதற்குப் பிறகு full-stop வைக்கிறீர்கள். ஆனால், full-stop விழுவதோ, இவ்வாறு ----> 'ற.ி' மற்றொன்று - நேற்று ஒரு நண்பருடன் அரட்டையில், "கிருஷ்ணா கஃபேயில் என்ன சாப்பிட்டே?" என்று கேட்க முயன்ற போது, அது 'கஃபே'யை 'க்பே' என்று மாற்றி டென்ஷனாக்கியது. இது போல் பல சிக்கல்கள் இருக்கின்றன, இப்போதுள்ள ஒருங்குறியில்.
இப்போது TUNE எனப்படும் பயங்கரத்தைப் பற்றிப் பார்ப்போம். 'வெச்சா குடுமி, சிரைச்சா மொட்டை' என்பது போல், தற்போதைய ஒருங்குறியின் உயிர்மெய் புணர்ச்சி விதியில் தவறிருக்கிறது என்பதற்காக, புணர்ச்சி என்பதே இல்லாமல் ஒழித்துக் கட்டி விட்டு், ஒவ்வொரு உயிர்மெய்யெழுத்துக்கும் ஒரு தனி குறியீடு வைக்கப்பட்டிருக்கிறதாம். இவ்வாறு, மொத்தமாக முன்னூத்தி சொச்சம் குறியீடுகள். மொழியின் அடிப்படை என்ன? உயிர்மெய் என்பது ஒரு மெய்யெழுத்தும் ஒரு உயிரெழுத்தும் புணருவதால் ஏற்படும் கூட்டெழுத்து என்பதே. ஆகவே, அதை அப்படியே விட்டு வைப்பதுதான் மொழிக்கு நாம் செலுத்தும்் மரியாதை. உயிர்மெய் என்பது இரு குறியீடுகளைக் கொண்டே குறிக்கப்பட வேண்டும். அதை ஒரு குறியீடாகச் சுருக்குவதால் என்ன பயன்? இந்த ஏற்பாட்டில், 'இவன்' என்ற சொல் 'இவனால்' (இவனா + ல்), 'இவனை' (இவனை), 'இவனோடு' (இவனோ + டு), 'இவனிடம்' (இவனி +டம்) ஆகியவற்றில் இடம்பெறவில்லை என்பது, அடைப்புக் குறிகளுக்குள் கொடுக்கப்பட்ட அவற்றின் TUNE representationஐப் பார்த்தாலே் புரியும். முன்னூற்றுக்கும் மேற்பட்ட எண்களுடைய code set மட்டும் நமக்குக் கிடைத்துவிட்டால், நமது எல்லா பிரச்சனைகளும் தீர்ந்து விடும் என்ற தவறான எண்ணமும் ஆபத்தானது. 50 சொச்சம் குறியீடுகள் இருந்த இடத்தில் 300 சொச்சம் குறியீடுகளை வைத்துக் கணிமை செய்ய வேண்டுமென்றால், அதற்கு செயலியாற்றல் (CPU power), நினைவகத் தேவைகள் ஆகியன பல மடங்கு பெருகும் (இல்லாவிட்டால் கணிமைச் செயல்பாட்டின் வேகம் குறையலாம்). P4 / P5களுக்கு வேண்டுமானால் இது ஒரு பொருட்டாக இல்லாதிருக்கலாம். ஆனால் நாம் கிராமங்களுக்கெல்லாம்் கணினிகளைக் கொண்டு செல்ல வேண்டுமென்றால், lowest common denominatorஐத்தான் நாம் கணக்கில் கொள்ள வேண்டும். (சிம்ப்யூட்டர், கைக்கணினி, செல்பேசி, இதர embedded கணினிகளுக்கான இடைமுகங்கள் etc etc). We need a computing platform that's lean & mean.
எனது பரிந்துரைகள்:
- கீழ்க்கண்ட குறியீடுகளே இடம்பெற்றிருக்க வேண்டும்
- உயிரெழுத்துக்கள் 'அ' விலிருந்து 'ஔ' வரை (and not 'ஃ' to 'ஔ')
- ஆய்த எழுத்து
- மெய்யெழுத்துக்கள் 'க்'இலிருந்து 'ன்' வரை (இலக்கண வரிசைப்படி)
- கிரந்த எழுத்துக்கள் 'ஸ்'இலிருந்து 'க்ஷ்' வரை, மற்றும் 'ஸ்ரீ'
- உயிர்மெய்க் கீற்றுக்கள் (கால், கொக்கி, கொம்பு etc etc)
- தமிழ் எண்கள் மற்றும் சிறப்புச் சின்னங்கள்
- உயிர்மெய்யெழுத்து = மெய்யெழுத்து + கீற்றெழுத்து என்ற அடிப்படையில் புணர்ச்சிகள் ஏற்பட வேண்டும் (க = க் + அ, கா = க் + ஆ, இத்யாதி, இத்யாதி)
- grapheme boundary vs. word boundary வேறுபாட்டை நிரலிகள் அறிந்திருக்க வேண்டும் (if they claim Unicode compliance).
- 'Select', 'Insert', 'sort', 'letter-spacing' ஆகிய செயல்களைச் செய்யும்போது, நிரலிகள் முழு எழுத்துக் கொத்துக்களையும் (character clusters) எடுத்துக் கொண்டு, அவற்றின் மீதே இச்செயல்களைச் செய்ய வேண்டும்.
இப்பரிந்துரைகளைச் செயல்படுத்துவதன்் மூலமாக, தமிழ்க் கணிமையில் தேடல், வரிசைப்படுத்துதல், பக்க வடிவமைப்புகள், text-to-speech, ஆகிய செயல்பாடுகளில் கணிசமான முன்னேற்றமிருக்கும் என்பது என் எதிர்பார்ப்பு. முக்கியமாக, ஒற்றில் முடியும் பெயர்ச் சொற்களை ஆவணங்களிலிருந்து தேடியெடுக்க முடியும், அதாவது ஜெயமோகன் என்று தேடும்போது, 'ஜெயமோகனின்' (ஜெயமோகன் + இன்) என்ற அதற்குத் தொடர்புடைய instanceஉம் கிடைக்க வாய்ப்பிருக்கிறது. ஆனால், உகர / 'ம்' விகுதிச் சொற்களைத்் தேடிப்் பெறுவதில் இன்னமும் பிரச்சனை இருக்கும் (உ-ம், 'நாகப்பட்டினத்தில்', 'தமிழ் நாட்டை' ஆகியவை 'நாகப்பட்டினம்', 'தமிழ் நாடு' என்று கொடுத்துத் தேடினால் கிடைக்காது). அவற்றையும்் பெற வேண்டுமானால், மென்பொருள்களை கொஞ்சம் tinker செய்ய வேண்டியதுதான்.