திங்கள், பிப்ரவரி 06, 2006

கீதா கயீதா ஆன கதை

சென்னை, வருடம் 2050: எங்கும் எதிலும் கணிமை. ஒரே இயந்திர மயம்தான். மேலும், பலரது முயற்சியால், தமிழ் எல்லா நிறுவனங்களிலும் அலுவல் மொழியாக உயர்வு பெறுகிறது. டை கட்டிப் பொய் பேசும் கார்பரேட் ஆசாமிகளெல்லாம் 'முனுசாமி' விட்டுக் கொண்டிருக்கிறார்கள். (இது 'பீட்டர்' விடுவதற்குத் தமிழ் நிகர்).

காலை அலுவலகம் செல்கிறான் ரவி. வாயிலில் இருந்த ஒரு இயந்திரம், அவன் முன்பு துறுத்திக் கொண்டு, அவனது கண்ணின் மணிகளைச் சோதித்து விட்டு, அவன் யாரென்று அடையாளம் கண்டு கொள்கிறது. பிறகு இயந்திரக் குரலில் அது கூறுகிறது: "வணக்கம் ரவயி, நல்வரவவு". "இப்படி சொல்றத்துக்கு பதிலா, சொல்லாமலேயே இருந்திருக்கலாம்" என்று எரிச்சலுடன் அதற்கு பதிலளித்து விட்டு, தனது இருக்கையை நோக்கிச் செல்கிறான் ரவி.

அவனுக்குப் பின் வந்த கீதாவிடம், "வணக்கம் கயீதயா" என்கிறது. அதைக் கேட்டுக் கொலை வெறியுடன் உள்ளே செல்கிறாள் கீதா. ஒவ்வொரு நாளின் ஆரம்பத்திலும் இவ்வாறு தனது மனநிலை கெடுவதை நினைத்து அவளது ரத்த அழுத்தம் ஏறிக் கொண்டே போய், தற்போது அபாய நிலையை எட்டியிருந்தது. இது போல் பாதிக்கப்பட்ட அனைவரும் நிர்வாகத்திடம் முறையிடுகிறார்கள், காலையில் முதல் வேலையாக தாங்கள் அவமானப் படுத்தப்படுவது பற்றி, அதுவும் ஒரு இயந்திரத்தினால்.

நிர்வாகி கையை விரித்துவிட்டுக் கூறுகிறார், "நான் என்ன செய்யட்டும்? உங்கள் பெயர் தமிழ் ஒருங்குறியில் எவ்வாறு எழுதப் பட்டிருக்கிறதோ, அதன்படி இயந்திரம் உங்கள் பெயரை உச்சரிக்கிறது. -ம், கீதா - + + + , இவற்றைச் சேர்த்து உச்சரித்தால் அது 'கயீதயா' ஆகி விடுகிறது. இதை, இரண்டாயிரத்தி ஆறாம் ஆண்டிலேயே சரி செய்திருக்க வேண்டும். ஆனால் அப்போதிருந்தத் தமிழ்க் கணிமை வல்லுனர்களெல்லாம், 'வலைப்பதிவுகளில் போலிப் பின்னூட்டங்கள்' போன்ற முக்கியமான பிரச்சனைகளில் மும்முரமாக இருந்தார்கள். இதை கவனித்து சரி செய்வதற்கு அவர்களுக்கு நேரம் கிடைக்காமல் போய்விட்டது. தவற்றை உணர்ந்து கண் முழிப்பதற்குள் பிழையான ஒருங்குறி அனைத்திடங்களிலும் ஊடுருவி விட்டது, முன்பு Y2K பூச்சி அனைத்திடங்களிலும் விரவியிருந்ததைப் போல். இதை மாற்ற வேண்டுமென்றால், நமக்கு அமெரிக்காவைப் போல் பண வசதியிருந்தாலே அது சாத்தியமாகும். அவ்வாறில்லாத நிலையில், இந்தப் பிழையான குறியேற்றத்தையே தொடர்ந்து பயன்படுத்த வேண்டியிருக்கிறது. தயவு செய்து உங்கள் பெயர் சிதைத்து உச்சரிக்கப் படுவதை கொஞ்சம் பொறுத்துக் கொள்ளுங்கள். அதற்கு நஷ்ட ஈடாக, சம்பளத்தில் ஏதாவது கூட்டிக் கொடுக்க முடியுமென்றால், அதைப் பரிசீலிக்கிறோம்" என்று தனது இயலாமையை வெளிப்படுத்தினார்.

பணியாளர்கள் அனைவரும் ஏமாற்றத்துடன் கலைந்து சென்றார்கள்.

பி.கு:

1. இது பற்றிய மேலதிகத் தகவல்களை இங்கு காணலாம்.

2. 'புனைவு' என்று tag செய்து ஒரு பதிவை இடுவேனென்று கனவிலும் நினைக்கவில்லை :)


| | | |

9 கருத்துகள்:

Mugunth/முகுந்த் சொன்னது…

இது அதீத கற்பனை,
கீதாா -> கயீதா எல்லாம் ஆகாது. ஒருங்குறியில் பிரச்சனை என்பதையும் நான் ஏற்றுக்கொள்ளமாட்டேன்.
இருக்கும் ஒருங்குறியிலேயே (கணினி நிரலில் வேண்டியபடி மாற்றங்களை செய்து) அனைத்து பயன்பாட்டுக்கும் பிழையில்லாமல் தமிழை உபயோகிக்கலாம்.

Voice on Wings சொன்னது…

முகுந்த், உங்கள் வருகைக்கும் கருத்துக்கும் நன்றி. நான் கூறியது அதீத கற்பனை என்பதை ஒப்புக் கொள்கிறேன். அதாவது, அலுவலக வாசலில் நம்மை அடையாளம் கண்டு கொண்டு, நம் பெயரைச் சொல்லியழைக்கும் கணினியெல்லாம் வராமலேயே போகலாம். ஆனால் அப்படி வந்தால், அத்தகைய கணினிக்கு (அது இன்றைய தமிழ் ஒருங்குறியை கடைபிடிக்குமானால்) நம் பெயரை சரியாக உச்சரிப்பதில் பிரச்சனை வரக்கூடுமென்பது உண்மையே.

நான் குறிப்பிட்ட உதாரணத்தையே எடுத்துக் கொள்வோம். கீதா - இது நான்கு குறியீடுகளாலானது (charecters): க (உச்சரிப்பு 'ka') + ஈ (உச்சரிப்பு 'E') + த (உச்சரிப்பு 'tha') + ஆ (உச்சரிப்பு 'A'). சேர்த்து உச்சரியுங்கள் - ka E tha A. 'கயீதயா ' ஆகிவிடுகிறதல்லவா? பார்வையற்றவர்கள் / மற்றவர்களுக்கு உபயோகப் படக்கூடிய text-to-speech / audiobooks போன்ற அப்ளிகேஷன்களில் இந்தப் பிழை வெளிப்படக்கூடிய வாய்ப்பிருக்கிறது.

நான் ஒருங்குறி என்ற conceptஐ எதிர்ப்பவனல்ல. western குறியேற்றத்தில் தமிழை எழுதுவதை விட, இது எவ்வளவோ மேல் என்பதுதான் எனது நிலைப்பாடும். ஆனால் இன்றைய வடிவில் சில தகராறுகள் இருப்பதாகத்தான் தோன்றுகிறது:

- ஒன்று, மேலே குறிப்பிட்ட text-to-speech பிரச்சனை.

- இன்னொன்று, sorting. a,b,c,d,e,f என்ற வரிசைக்கு பதிலாக, a, c, d, b, f, e........ என்ற வரிசையில் குறியீட்டு எண்கள் வழங்கப்பட்டிருந்தால், இன்று நம் sorting programs எல்லாம் ஒரு வழியாகியிருக்காது? நல்ல வேளையாக ஆங்கிலத்தில் எல்லாம் சரியாக இருப்பதால், ஆங்கிலத்தில் வரிசைப்படுத்தும் நிரலை எழுதுவது நமக்கு பிரச்சனையில்லை. இதே நாம் தமிழ்ப் பட்டியலொன்றை அகர வரிசையில் வரிசைப்படுத்த வேண்டுமென்றால், ஒருங்குறியை மட்டும் நம்பியிருக்க முடியுமா?

- மூன்றாவது, Find and Replace (இராம. கி.யும் இதைக் குறிப்பிட்டிருக்கிறார்). இந்தச் சின்னப் பரிசோதனையைச் செய்து பாருங்கள். உங்கள் word processorஇல், "and band rand stand grand" என்று உள்ளிட்டுக் கொண்டு, 'and' என்பதைத் தேடுங்கள். "முழு வார்த்தைகள் மட்டுமே" (Whole words only) என்ற தேர்வைச் செய்து கொண்டு தேடினால் உங்களுக்கு and மட்டுமே கிடைக்கும். இப்போது இராம. கி. குறிப்பிட்ட "வளவு அவ்வளவு இவ்வளவு எவ்வளவு" என்பதை உள்ளிட்டுக் கொண்டு, 'வளவு' என்பதைத் தேடுங்கள். முழு வார்த்தைகளை மட்டுமே தேடிக் கொடுக்க வேண்டிய நிரலி, தமிழில் மட்டும் எல்லா வார்த்தைகளையும் தேடலில் காண்பிக்கும். I think the reason for this is that the word processors treat 'grapheme boundaries' as 'word boundaries'. Result - what is appearing as a single word for us, is seen by the software as 3 words, and wherever they appear in the document, they are found and reported.

பெயரில்லா சொன்னது…

நிஜமாவே நல்லா எழுதியிருக்கீங்க...

நீங்க குடுத்த விளக்கம் இன்னும் படிக்கல.. ஆனாலும் எல்லாம் சரியாயிடாது 2050 க்குள்ளார?

Voice on Wings சொன்னது…

அனானிமஸ், வருகைக்கு நன்றி. விரைவில் இப்பிரச்சனைக்குத் தீர்வு காணப்பட வேண்டுமென்பதுதான் எனது விருப்பமும்.

TUNE என்றொரு மாற்றுத் திட்டம் முன்வைக்கப் பட்டிருக்கிறது. இதில் ஒவ்வொரு தமிழெழுத்துக்கும் ஒரு குறியீடு, என்ற வகையில் வடிவமைக்கப் பட்டிருக்கிறது. இதற்குத் தேவைப்படும் 300+ குறியீடுகளை ஒருங்குறிக் கூட்டமைப்பிலிருந்து (Unicode Consortium) பெற முடியுமா என்பது ஐயமாகத்தானுள்ளது. தற்போதுள்ள தமிழ் ஒருங்குறியில் 50 சொச்சம் குறியீடுகளே உள்ளன என்பது கவனிக்கப் பட வேண்டியது. இது பற்றிய விவாதத்தை இங்கே காணலாம்.

பெயரில்லா சொன்னது…

VOW,

எளிய முறையில் தற்போதிய ஒருகுறி எழுத்துக்களின் குறைபடுகளை விளக்கியதற்கும் தகவல் சுட்டிகளுக்கும் நன்றி!

My .02:

TUNE இன் புதிய குறிமுறை அதிக இடங்களை (300+) பெற்றுத்தந்தாலும் sorting பிரச்சனையை திர்த்து வைக்காது. எடுத்துக்காட்டாக ஷங்கர், சங்கர், மீரா என்பதை sort செய்தால் சங்கர், ஷங்கர், மீரா என்று வருவது உச்சரிப்பிற்கு உகர்ந்ததாக இருக்கும். ஆனால் புதிய முறையில் சங்கர், மீரா, ஷங்கர் என்றே வரிசைப்படுத்தப்படும். இதற்கு E35ல் உள்ள 'ஷ்' - 'ஷௌ' வை E24 க்கு மாற்ற வேண்டும். அதைப்போலவே 'ஸ்', 'க்ஷ்' மற்றும் 'ஹ்' போன்ற எழுத்துவழிகளும் மாற்றப்படவேண்டும். ஆனால் தமிழறிஞர்களுக்கு தமிழ் எழுத்துகளுக்கு மத்தியில் வடமொழி எழுத்து "புகுவது" ஏற்புடையதாக இருக்காது என்று கருதுகிறேன்.


sorting குறித்த மற்றொரு சுட்டி: http://www.angelfire.com/empire/thamizh/2/aanGilam/

அடுத்து இராமகி தெரிவித்திருக்கும் தேடுதல் பொதி சம்பந்தமாக - இதற்கும் TUNE சரியான மாற்று திட்டமாக தெரியவில்லை. 'அவனை' என்று தட்டச்சிவிட்டு 'அவன்' என்று தேடினால் TUNE முறையில் விடையேதும் கிடைக்காது.


So basically what we need is an intelligent search function (/utility) rather than a new encoding format.
அதுவரை கொஞ்சம் எண்ணை தடவி புதிய செருப்பை உபயோகிக்க வேண்டியதுதான், அதற்காக (பழைய) மரச்செருப்பு காலத்திற்கே போய் அவதிப்பட வேண்டிய அவசியமிருப்பதாக படவில்லை.

>>>>தற்போதுள்ள தமிழ் ஒருங்குறியில் 50 சொச்சம் குறியீடுகளே உள்ளன
தவறாக வாசிக்கப்படக்கூடிய சாத்தியக்கூறு இருப்பதால் இப்படி மாற்றி வாசிக்க வேண்டுகிறேன்... "128 (U+0B80 – U+0BFF) இடங்கள் வழங்கி உள்ளார்கள், அதில் நாம் 50 சொச்சத்தையே உபயோகிக்கிறோம்"

.:டைனோ:.


And thanks for not moderating your comments.

இரா. செல்வராசு (R.Selvaraj) சொன்னது…

வாய்ஸ், சம்பந்தப்பட்ட என் பதிவு இங்கே.

Voice on Wings சொன்னது…

டைனோ, இப்போதுதான் பார்த்தேன் உங்கள் பின்னூட்டத்தை. நன்றி :)

1. Sorting: ச, ஸ, ஷ ஆகியவை அடுத்தடுத்து வரவேண்டுமென்பதை ஆங்கில வழிச் சிந்தனையாகக் கருதலாமல்லவா? தமிழில் உயிர், பிறகு மெய்/உயிர்மெய் அதன் பிறகு கிரந்தம் என்ற வரிசையைத்தான் பின்பற்றியிருக்கிறோம். நம் வரலாற்றில் ஆங்கிலேய ஊடுருவல் மட்டும் நிகழ்ந்திருக்காவிட்டால், நமக்கு ச, ஸ, ஷ ஆகியன அடுத்தடுத்து வரவேண்டுமென்ற உணர்வே வந்திருக்காதல்லவா? பல உதாரணங்கள் அளிக்கலாம் - ர - ற, ந - ன, ன - ண, இவையெல்லாம் அருகருகேவா இருக்கின்றன? Even in English - similar sounding letters like s - z, z - j, r - wr, are not lexical neighbors and sorting is done as per lexicon of the language.

2. Searching: நான் இராம.கி.யை கண்மூடித்தனமாக ஆதரிக்கவில்லை. அவர் கூறும் 'அவன் ---> இவன்' மாற்றம், 'அவனை ----> இவனை' மாற்றத்தையும் நிகழ்த்த வேண்டுமென்பது ஒரு semantic எதிர்பார்ப்பு. ஆனால் ஒரு நுட்ப ஆசாமியாக, எனக்கு 'தேடல்' என்பது ஒரு syntactic செயல்பாடு என்பது புரிகிறது. It basically parses text n reports a matching pattern of characters - இதற்கு மேல் அதில் ஒரு புத்திசாலித்தனமும் கிடையாது. But what i cannot accept is the fact that அவ்வளவு and எவ்வளவு are reported when searching for வளவு after specifying 'whole word search'. I think Unicode is to be blamed for that. Unicode introduces a concept of 'grapheme boundaries' which are misunderstood by word processors as 'word boundaries'. 'வளவு' is hence treated as a string of 3 words, whereas, we would consider it as 1 word or even as a partial word in the case of அவ்வளவு & எவ்வளவு.

செல்வராஜ், உங்கள் பதிவையும் இப்போதுதான் பார்த்தேன் (உங்கள் பின்னூட்டத்திலிருந்து). விஜய்க்கு இராம.கி. பதிவிலேயே விடையளித்துள்ளேன். என்ன சொல்கிறாரென்று பார்ப்போம்.

dondu(#11168674346665545885) சொன்னது…

இராமகி அவர்கள் இட்ட, நீங்களும் சுட்டிய பதிவில் நான் இட்ட இந்தப் பின்னூட்டம் விடைக்காகக் காத்திருக்கிறது.

இது உண்மையான டோண்டு இட்டப் பின்னூட்டமே என்பதை நிரூபிக்கும் வகையில் இது ஏற்கனவே என்னுடைய தனிப்பதிவில் பின்னூட்டமாக நகலிடப்பட்டு விட்டது. பார்க்க: http://dondu.blogspot.com/2005/12/2.html

இராமகி அவர்களே,

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்
ஆகியவற்றை டிஸ்கியில் எழுதி சோதித்தாலும் அதே முடிவுதானே வரும்? அதில் மட்டும் நீங்கள் எதிர்ப்பார்ப்பது வந்து விடுமா என்ன? இதில் ஒருங்குறி, நீங்கள் பரிந்துரைக்கும் டிஸ்கி எல்லாவற்றுக்கும் ஒரே நிலைதானே?

இப்பின்னூட்டத்தின் நகல் என்னுடைய தனிப்பதிவிலும் பின்னூட்டமாக இடப்படும். பார்க்க: http://dondu.blogspot.com/2005/12/2.html

அன்புடன்,
டோண்டு ராகவன்

Voice on Wings சொன்னது…

டோண்டு, நீங்கள் கூறுவது உண்மையே. இராம.கி. டிஸ்கியைப் பரிந்துரைத்தாரா என்பது எனக்குத் தெரியாது. ஒருங்குறியில் குறைபாடுள்ளது என்றளவில் அவருடன் உடன்படுகிறேன். மற்றபடி, டிஸ்கியிற்கு வருங்காலமிருப்பதாக நான் நினைக்கவில்லை.