ஒருங்குறிச் செருப்பு
Feb 24th, 2006 by இரா. செல்வராசு
செருப்பிற்காகக் காலை வெட்டு என்று இராம.கி அவர்கள் சும்மா சொல்லவில்லை என்பதைச் சற்றுப் பொறுமையாக ஆய்ந்து பார்ப்பவர்கள் புரிந்துகொள்வார்கள். திரு.விஜய் செருப்பைத் தவறாக மாட்டிக்கொண்டு, செருப்பைக் குறை சொல்ல வேண்டாம் என்று கருத்துத் தெரிவிப்பதற்கு முன் வாய்ஸ் ஆன் விங்ஸின் கீதா கயீதா ஆன கதை போன்றவற்றைப் பார்த்திருக்கலாம். இராம.கி அவர்கள் இட்ட தேட்டைச் சிக்கல் பதிவிற்கும் அங்கிருந்து சுட்டி இருக்கிறது.
யூனிகோடு சம்பந்தப்பட்ட வேலைகளில் ஈடுபட்டிருப்பவர் என்னும் முறையில் விஜய் போன்றவர்கள் இராம.கி அவர்கள் கூறும் குறைபாடுகளைச் சரிவரப் புரிந்து கொள்ள வேண்டும். ஒருவேளை அவரைப் போன்றவர்களின் முயற்சியால் இக்குறைகள் நீங்க வழி கிடைக்கலாம்.
காலை வெட்டிச் செருப்பிற்குள் திணிக்கும் இந்தப் பதிவில் இருக்கும் காட்டுக்களுக்கு வருவோம். (இவன், இவனை, இவனால், இவனிடம், இவனோடு). Find whole words என்பதைத் தெரிவு செய்யாமல் ‘இவன்’ என்பதைத் தேடுகிறீர்கள் என்று வைத்துக் கொள்வோம். என்ன ஆகிறது? ‘இவன்’ மட்டுமே கிடைக்கிறது. மற்ற சொற்கள் கிடைப்பதில்லை. சரியான செயல் எல்லாச் சொற்களையும் செயலி தெரிவு செய்திருக்க வேண்டும் என்பது தான். ஏன்? இவனை=இவன்+ஐ, இவனால்=இவன்+ஆல்… தமிழ் இலக்கணப்படி இது தான் சரியானது. அதோடு, ‘இவன்’ நீக்கி ‘அவன்’ என்று போட்டால் அதன் எல்லா வடிவங்களும் மாற வேண்டும் -> (அவன், அவனை, அவனால், அவனிடம், அவனோடு) என்று. குறிப்பு: இங்கு Find whole words என்பது தெரிவு செய்யப் படவில்லை. அப்படித் தெரிவு செய்திருக்கும் பட்சத்தில் ஒரு சொல் (இவன்) மட்டும் அகப்பட்டு மாறி இருக்கும். அது சரியே.
அதெல்லாம் முடியாது. முதல் தேடலில் நீங்கள் ‘இவன்’ தான் தேடினீர்கள். அங்கு ‘இவன்’ ஒருமுறை தான் இருக்கிறது. அதனால் அதை மட்டுமே தெரிவு செய்த செயலியும் ஒருங்குறியும் சரிதான் என்று வாதிடுகிறீர்களா? சரி. இப்போது ‘இவன’ என்பதைத் தேடுங்கள். (ஈற்று அகரம்). இப்போதும் Find whole words தெரிவு செய்யப்படவில்லை. இப்போது என்ன ஆக வேண்டும். ஒரு சொல்லும் அகப்படக் கூடாது. ‘இவன’ என்று ஒரு சொல்லும் இல்லை அல்லவா? ஆனால் நடைமுறையில் என்ன ஆகிறது? ஒவ்வொரு சொல்லும் தெரிவு செய்யப்படுகிறது. இது தவறில்லையா?
காரணம். ஒருங்குறியில் இவனை=இவன+ஐ, இவனால்=இவன+ஆல் என்று அமைந்திருப்பது தான். ‘இவன+ஐ’ எப்படி ஐயா ‘இவனை’ என்று வருகிறது? இவனவய் என்றல்லவா ஆகும்? கீதா கயீதா ஆன கதையும் இப்படித்தான்.
அதே கோப்பில் இந்தச் சொற்களோடு பல இடங்களில் தெரியாமல் இவன என்று அடித்துவிட்டீர்கள் என்று வைத்துக் கொள்வோம். அவற்றை எல்லாம் இவன் என்று மாற்ற வேண்டுமென்றால் Find whole words போட்டாலும் கூட ‘இவன்’ தவிர எல்லாச் சொற்களும் மாட்டுமே. என்ன செய்வது? அப்போது Search and Replace போட்டால் சில சொற்கள் இப்படி உடைந்து போய் “இவன்ிடம்” “இவன்ோடு” என்று கொக்கி கொம்பெல்லாம் தனியாகத் தொங்கிக் கொண்டு வருகிறதே!
இந்தச் சிக்கல்களைத் தான் இராம.கி பல வருடங்களாக ஆய்ந்து எடுத்துரைக்கிறார். சும்மா போகிற போக்கில் கூறவில்லை என்று புரிந்து கொள்ள வேண்டும். முதலில் sorting பற்றிய பிரச்சினைகளைக் கூறியபோது நானும் சரியாக விளங்கிக் கொள்ளவில்லை என்று எண்ணுகிறேன். இப்போது search/replace இந்தக் குறைகளை வெளிப்படையாகக் காட்டுகிறது.
எனது புரிந்துகொள்ளலில் குறைபாடு இருந்தாலும் பிற கருத்துடையோர் எடுத்துச் சொன்னால் ஆய்ந்து தெளிந்து கொள்கிறேன். இல்லாவிட்டால் அடிப்படை வடிவமைப்பில் சரியாய் அமைக்காமல் இன்னும் இப்படிச் சிறைப்பட்டு இருப்பதை எப்படி ஏற்றுக் கொள்வது?
நிலைப்புப் பொள்ளிகை (stability policy – நன்றி இராம.கி) என்று யூனிகோடு சேர்த்தியம் கூறுவதை நமது எதிர்ப்புக் குரல் கூட இன்றி எப்படி ஏற்றுக் கொள்வது? அதனால் எனது குரலையும் எதிர்ப்பலையில் சேர்த்துக் கொள்கிறேன்.
Selvaraj,
I made the following comment in VOW’s blog post. I am copying it here as it is a related issue. Feel free to remove it if otherwise.
VOW,
எளிய முறையில் தற்போதிய ஒருகுறி எழுத்துக்களின் குறைபடுகளை விளக்கியதற்கும் தகவல் சுட்டிகளுக்கும் நன்றி!
My .02:
TUNE இன் புதிய குறிமுறை அதிக இடங்களை (300+) பெற்றுத்தந்தாலும் sorting பிரச்சனையை திர்த்து வைக்காது. எடுத்துக்காட்டாக ஷங்கர், சங்கர், மீரா என்பதை sort செய்தால் சங்கர், ஷங்கர், மீரா என்று வருவது உச்சரிப்பிற்கு உகர்ந்ததாக இருக்கும். ஆனால் புதிய முறையில் சங்கர், மீரா, ஷங்கர் என்றே வரிசைப்படுத்தப்படும். இதற்கு E35ல் உள்ள ‘ஷ்’ – ‘ஷௌ’ வை E24 க்கு மாற்ற வேண்டும். அதைப்போலவே ‘ஸ்’, ‘க்ஷ்’ மற்றும் ‘ஹ்’ போன்ற எழுத்துவழிகளும் மாற்றப்படவேண்டும். ஆனால் தமிழறிஞர்களுக்கு தமிழ் எழுத்துகளுக்கு மத்தியில் வடமொழி எழுத்து “புகுவது” ஏற்புடையதாக இருக்காது என்று கருதுகிறேன்.
sorting குறித்த மற்றொரு சுட்டி: http://www.angelfire.com/empire/thamizh/2/aanGilam/
அடுத்து இராமகி தெரிவித்திருக்கும் தேடுதல் பொதி சம்பந்தமாக – இதற்கும் TUNE சரியான மாற்று திட்டமாக தெரியவில்லை. ‘அவனை’ என்று தட்டச்சிவிட்டு ‘அவன்’ என்று தேடினால் TUNE முறையில் விடையேதும் கிடைக்காது.
So basically what we need is an intelligent search function (/utility) rather than a new encoding format.
அதுவரை கொஞ்சம் எண்ணை தடவி புதிய செருப்பை உபயோகிக்க வேண்டியதுதான், அதற்காக (பழைய) மரச்செருப்பு காலத்திற்கே போய் அவதிப்பட வேண்டிய அவசியமிருப்பதாக படவில்லை.
.:டைனோ:.
.:டைனோ:. உங்கள் கருத்துக்கும் பத்மகுமாரின் கட்டுரைச் சுட்டிக்கும் நன்றி. உங்களின் கடைசி வரியோடு உடன்படுகிறேன். பழைய காலத்திற்குச் செல்ல வேண்டும் என்று நான் பரிந்துரைக்கவில்லை.
இருப்பினும், பத்மகுமாரின் கட்டுரையில் குறிப்பிட்டிருப்பதைப் போல, யூனிகோட்டின் தற்போதைய (தமிழுக்கான) குறைபாடுகளை உணர்ந்து கொள்ள வேண்டும். உணர்ந்து அதனை நிவர்த்தி செய்ய முயல வேண்டும். அந்தத் திருத்தம் நுட்பியல் அளவில் எப்படி இருக்க வேண்டும் என்று சொல்லும் அளவிற்கு எனக்குத் தெரியவில்லை. புதிய collacation methodஓ, TUNEஓ, வேறு ஏதாவதோ…
ஒட்டு மொத்தமாய் ஒன்றும் பிரச்சினை இல்லை என்று சிலர் மூடிவைத்துவிட்டுப் போய்விட வேண்டாம் என்றே எண்ணுகிறேன்.
இந்த விவாதங்களைக் கிளை பிரிக்க வேண்டாம் என்பதால் இந்த இடுகைக்கு மட்டும் பின்னூட்டங்களை மூடி வைத்துவிடுகிறேன். வாய்ஸ் பதிவிலோ, அல்லது இராம.கி பதிவிலோ தொடர்ந்து கொள்ளலாம்.
[…] * ஒருங்குறிச் செருப்பு. […]