• Home
  • என்னைப் பற்றி

இரா. செல்வராசு

விரிவெளித் தடங்கள்

Feed on
Posts
Comments
« உச்ச நீதிமன்றத் தீர்ப்பு
ஆத்தாவும் தொலைபேசியும் »

யூனிகோடும் UTF-8 முறையும்

Nov 25th, 2003 by இரா. செல்வராசு

யூனிகோடு மற்றும் UTF-8 குறியீட்டு முறைகள் பற்றி எனக்கு இன்னும் கொஞ்சம் தெளிவு ஏற்பட்டிருக்கிறது.  கணிணிகளின் பயன்பாட்டுக்கு எப்படி அமெரிக்க ஆஸ்கி முறை ஆங்கில எழுத்துக்களுக்கு உரிய எண்களை அடையாளம் காட்டுகிறதோ, அதுபோல யூனிகோடு உலக மொழிகள் அத்தனையிலும் உள்ள எழுத்து வடிவங்களுக்கும் உரிய ஒரு எண்ணைக் கட்டிச் சேர்த்து வைக்கும் பெரிய அண்ணன். உதாரணத்திற்கு 65 என்றால் ‘A’,  ’97’ என்றால் குட்டி ‘a’ – இது ஆஸ்கி. ஒரு பைட்டுக்கு ஒரு எழுத்து என்று ஆங்கிலத்திற்கு மட்டும் 128 இடங்களுடன் அது போதுமானதாய் இருந்தது. ஏன் மிச்சம் ஒரு பிட் கூட இருந்தது. (இன்னொரு 128 இடங்கள் = விரிவு ஆஸ்கி). ஆனால் எல்லா மொழிகளையும் உள்ளடக்க இது போதுமானதாய் இல்லை. சரி, ஒன்றிற்கு இரண்டு பைட்டுகள் என்று (16 பிட் = 65536 இடங்கள்) எடுத்துக் கொண்டால் இது சாத்தியமாகும் என்று யூனிகோடு முயற்சிகள் ஆரம்பமாயின. இப்போது சில சீன, கொரிய, ஜப்பானிய எழுத்துக்களின் தேவைக்காக 4 பைட் வரை (32 பிட்) எடுத்துக் கொள்ளலாம் என்ற அளவிற்கு வந்திருக்கின்றனர். ஆனால் பெரும்பாலான மொழிகளை இன்னும் இரண்டு பைட்டுக்களுக்குள் அடக்கி விடலாம்.


0 முதல் 65535 வரையில் சாத்தியமான எண்களில், தமிழ் எழுத்துக்களுக்கு என்று ஒதுக்கப்பட்ட இடங்கள் 2944 முதல் 3071 வரை. இதையே U+0B80 முதல் U+0BFF வரை என்றும் கூடச் சொல்லலாம். இது பதினாறாம் அடிப்படையில் இருக்கும் இலக்க முறை (hexa decimal system representation). இந்த எண்களை இரண்டு பைட்டுக்களில் அடக்கி விடலாம். பதினாறு பிட்டுக்கள் போதும். எல்லா யூனிகோடு எழுத்துக்களையும் இரண்டு பைட்டுக்களுக்குள் அடைத்து விட முடியுமா எனில் அதில் சில இடைஞ்சல்கள். முதலில் பழைய ஆஸ்கி எழுத்துக்கள். அவை நீண்ட காலமாக ஒரு பைட் கொண்டே பயன்படுத்தப் பட்டன. அதனால் அதே முறையில் இருந்தால் தான் வசதி. இரண்டாவது, புதிய 4 பைட்டுக்கள் தேவைப்படும் சீ.கொ.ஜ (சீன, கொரிய, ஜப்பானிய) எழுத்துக்களை இரண்டு பைட்டுக்களில் அடக்க முடியாது.

இந்தச் சிக்கல்களை நீக்க ஒரு குறியீட்டு முறை வேண்டும் என்று பிறந்தது தான் UTF-8 முறை. இன்று இந்த முறை பரவலாகிக் கொண்டு வருகிறது. எந்த ஒரு யூனிகோடு எழுத்தையும் குறிக்க, ஒன்று முதல் நான்கு வரையிலான பைட்டுக்களைப் பயன்படுத்தலாம். குறிப்பாக, கீழ் ஆஸ்கி எனப்படும் ஆங்கில எழுத்துக்களுக்கு ஒரு பைட். மற்றவற்றிற்கு இரண்டோ மூன்றோ அல்லது நான்கோ. கீழே இருக்கும் பிட் அமைப்பைக் காண்க. ஒன்றும் பூஜ்யமும் மாறாதவை. ‘b’ என்றிருக்கும் இடங்கள் ஒன்றையோ பூஜ்யத்தையோ கொண்டிருக்கலாம்.

0bbbbbbb
110bbbbb 10bbbbbb
1110bbbb 10bbbbbb 10bbbbbb
11110bbb 10bbbbbb 10bbbbbb 10bbbbbb

தமிழ் எழுத்துக்கள் எல்லாமே (16 பிட்டுக்கள் போதும் என்றாலும்) இந்த முறைப்படி மூன்று பைட்டுக்கள் (24 பிட்டுக்கள்) கொண்டு அமைக்கப் படும். ஆனால், இன்னும் பல செயலிகளும், பழைய செயலிகளும் மூன்று மூன்று பைட்டாகச் சேர்த்து ஒரு எழுத்தாய்ப் பார்க்காமல், தனித்தனி பைட்டாகப் பார்ப்பதால், சில சமயம் எதிர்பாராத விதமாய்த் தமிழ் எழுத்துக்கள் குதறப் பட்டு கிறுக்கல்களாய்த் தெரியும்.

மனஓசை சந்திரவதனாவின் 16 November 2003 தேதிய இந்தப் பதிப்பைப் பாருங்கள். இந்த பைட் குதறல்களின் விளைவு இப்படி இருக்கிறது.

ம௅.. விடிநà¯à®¤à¯ விடà¯à®Ÿà®¤à®¾..?
நேறà¯à®±à¯ à®®à¯à®©à¯ தினம௠அஸà¯à®¸à¯†à®®à¯à®ªà®¿à®²à®¿ மீறà¯à®±à®¿à®™à¯. வீட௠வநà¯à®¤à¯ சேர நேரமாகி விடà¯à®Ÿà®¤à¯. வழமையில௠வரà¯à®Ÿà®¤à¯à®¤à®¿à®²à¯ ஒர௠நாளà¯à®¤à®¾à®©à¯ இபà¯à®ªà®Ÿà®¿ அடà¯à®Ÿà®•ாசமாக இர
இந்தப் பக்கம் வரும் யாருக்காவது இதை எப்படி மாற்றலாமென விபரம் தெரிந்தால்
எனக்குத் தெரியப் படுத்துங்கள். என்னிடம் வேறு பிரதியும் இல்லை

என்னுடைய யூனிகோடு UTF-8 ஆராய்ச்சியும் முயற்சியும் கொண்டு என்னால் முடிந்த அளவு அவர் இழந்த பதிப்பை இப்படி மீட்டிருக்கிறேன். முழுவதையும் அவருக்கு மின்மடல் வாயிலாய் இன்று அனுப்பி விடுகிறேன்.

….. விடிந்த் விட்டதா..? நேற்ற் ம்ன் தினம் அஸ்ஸெம்பிலி மீற்றிங். வீட் வந்த் சேர நேரமாகி விட்டத். வழமையில் வர்டத்தில் ஒர் நாள்தான் இப்படி அட்டகாசமாக இர்க்க்ம். ஆனால் இவ்வர்டம் எமத் பழைய தலைமையதிகாரி ஓய்வில் சென்ற் விட ப்திய தலைமையதிகாரி வந்த் ஒரே அட்டகாசம்தான். இத் இவ்வர்டத்தின் மூன்றாவத் அட்டகாசமான அஸ்ஸெம்பிலி மீற்றிங். காரியதரிசியைத் தொடர்ந்த் தலைமையதிகாரியே கிறிஸ்மஸ் போனஸ், சம்பள உயர்வ், விட்ப்ப் விதிகள்…

உகர உயிர்மெய்யெழுத்துக்கள் வெறும் மெய்யாகி விட்டது. அதை அவர் சரி செய்து கொள்ளலாம். இழந்ததைப் பெற்றோம் என்று அவர் மகிழ்வாரா தெரியவில்லை. இருப்பினும் எனக்கு என்னவோ பெரியதாய் சாதித்து விட்டது போன்ற உணர்வு. அதனால் நான் மகிழ்ந்து கொள்கிறேன்…

பகிர்க:

  • Click to share on Facebook (Opens in new window)
  • Click to share on Twitter (Opens in new window)
  • Click to share on WhatsApp (Opens in new window)
  • Click to email a link to a friend (Opens in new window)

Posted in கணிநுட்பம், யூனிகோடு

3 Responses to “யூனிகோடும் UTF-8 முறையும்”

  1. on 17 Feb 2004 at 1:02 am1பரி

    அட, இங்க பாருய்யா கலக்குறாரு!
    எப்டி செஞ்சீங்கன்னு சொல்லிக்குடுங்களேன். இந்த யூனிகோட் மேட்டர் புரிஞ்சுது, ஆனா இந்த ஆட்ட மாடா மாத்துற வேலை எல்லாம் தெரியாது. பிளாக்ஸ்பாட் சில சமயம் இப்படி குதறி வைக்கும். எனக்கும் இப்படி நடந்திருக்கு. இப்போலாம் உஷாரா நோட்பேட்-ல டைப் பண்ணி ஒட்டிகிட்டு இருக்கேன்

    ??, ???Ĭ̈?ա
    ?

  2. on 17 Feb 2004 at 1:02 am2செல்வராஜ்

    Pari, encoding Unicode should have worked. Don’t know why. Comments section needs some work. I had to copy/paste your TSCII to wordpad to see also (w/thenee font).

  3. on 17 Feb 2004 at 1:02 am3காசி

    யுனிகோடும் கடவுளும் ஒன்று. புரிந்தமாதிரியும் இருக்கிறது, இன்னும் தெளியாமலும் இருக்கிறது

  • அண்மைய இடுகைகள்

    • பூமணியின் வெக்கை
    • வீட்டுக்கடன்–அசல், வட்டி, தவணை
    • அனைவர்க்குமாம் கல்வியும் வளர்ச்சியும்
    • வணிகப்பெயர்த் தமிழாக்கம் – ஒரு கட்டாய்வு (Case analysis)
    • பொரிம்புப்பெயரும் புறப்பெயரும்
    • குந்தவை
    • நூற்றாண்டுத் தலைவன்
    • அலுக்கம்
  • பின்னூட்டங்கள்

    • இரா. செல்வராசு on வீட்டுக்கடன்–அசல், வட்டி, தவணை
    • RAVIKUMAR NEVELI on வீட்டுக்கடன்–அசல், வட்டி, தவணை
    • Ramasamy Selvaraj on வீட்டுக்கடன்–அசல், வட்டி, தவணை
    • இரா. செல்வராசு on அனைவர்க்குமாம் கல்வியும் வளர்ச்சியும்
    • THIRUGNANAM MURUGESAN on அனைவர்க்குமாம் கல்வியும் வளர்ச்சியும்
    • இரா. செல்வராசு » Blog Archive » வணிகப்பெயர்த் தமிழாக்கம் – ஒரு கட்டாய்வு (Case analysis) on பொரிம்புப்பெயரும் புறப்பெயரும்
    • Balasubramanian Ganesa Thevar on பொரிம்புப்பெயரும் புறப்பெயரும்
    • செல்லமுத்து பெரியசாமி on குந்தவை
  • கட்டுக்கூறுகள்

    • இணையம் (22)
    • இலக்கியம் (16)
    • கடிதங்கள் (11)
    • கணிநுட்பம் (18)
    • கண்மணிகள் (28)
    • கவிதைகள் (6)
    • கொங்கு (11)
    • சமூகம் (30)
    • சிறுகதை (8)
    • தமிழ் (26)
    • திரைப்படம் (8)
    • பயணங்கள் (54)
    • பொது (61)
    • பொருட்பால் (3)
    • யூனிகோடு (6)
    • வாழ்க்கை (107)
    • வேதிப்பொறியியல் (7)
  • அட்டாலி (பரண்)

  • Site Meter

  • Meta

    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org

இரா. செல்வராசு © 2025 All Rights Reserved.

WordPress Themes | Web Hosting Bluebook