Kuinka vaihdan Macintoshin kielen?

Tuomas Rosberg 23.3.2000

Eli mitä tehdä, kun haluaa lukea ja kirjoittaa esimerkiksi arabiaa Macilla. Dokumentin tarkoitus on kuvata, kuinka saa käyttöön toisen kielen kirjoitusjärjestelmän Mac OS 9 ja vanhemmissa käyttöjärjestelmissä. Dokumentti ei kuvaa useamman erikielisen käyttisversion ylläpitoa samalla koneella.
Mac OS on lokalisoitu usealle kielelle. Lokalisointi eli paikallistaminen tarkoittaa käyttöliittymän kääntämistä ja aakkosjärjestyksen, päiväyksen ja rahayksikön laskutavan ja muotoilun muuttamista noudattamaan kansallisia sääntöjä. Lokalisointityö vaati Macintoshin alkutaipaleella runsaasti aikaa ja työvoimaa sekä käyttöjärjestelmän että sovellusohjelmien kehittäjiltä. Siksi Apple kehitti käyttöjärjestelmään WorldScriptin, joka julkaistiin systeemi 7:n aikana.
WolrdScript sisältää ohjelmointirajapinnat, joita käyttämällä sovellus voi vaihtaa "kieltä" vaikkapa kesken lauseen. Se antaa myös mahdollisuuden lisätä samaan käyttöjärjestelmään useita kirjoitusjärjestelmiä eli skriptejä. Kirjoitusjärjestelmiä myytiin, paitsi lokalisoiduissa käyttöjärjestelmissä, myös erillisinä tuotteina nimellä Language Kits.

Mitä skriptillä tässä yhteydessä tarkoitetaan?

Kirjoitusjärjestelmään luetaan tässä yhteydessä mm. seuraavat seikat: kielen merkistö, "aakkosjärjestys" l. lajittelujärjestys, syöttötapa, kirjoitussuunta ja muunnossäännöt muihin merkistöihin. Lisäksi siihen kuuluvat mahdolliset asiayhteydestä riippuvat merkkimuunnokset.

Mitkä ohjelmat tukevat useita "kieliä"?
WorldScript-teknologia on kohtalaisesti hyödynnetty useissa yleisimmissä Mac-ohjelmissa. ClarisWorks tukee joitakin WorldScriptin ominaisuuksia, mutta kirjoitussuunnista vain vasemmalta oikealle etenevää. Japanin ja kiinan tuki ClarisWorksiin vaatii WorldScript Enablerin Claris-kansioon. Jos käyttöjärjestelmään lisätään Language Kit ClarisWorksin asennuksen jälkeen, täytyy tehdä CW:n asentajalla muokattu asennus em. tiedoston asentamiseksi. Tutustu ohjelmatuotteen dokumentaatioon tai lue (vanhaa) tietoa Applelta (1). Kirjoittaja ei ole testannut eri ohjelmia, mutta muiden käyttäjien kehumia WorldScriptiä tukevia tekstinkäsittelyohjelmia ovat ainakin WordPerfect 3.5 (2) ja Nisus Writer (3).

Millaisia olivat Language Kitit?

Alunperin Macintosh-käyttäjät, jotka tarvitsivat useampaa kieltä, joutuivat käynnistämään halutulle kielelle lokalisoidulla systeemillä aina halutessaan vaihtaa kieltä. Nisus Software helpotti tehtävää hakkeroimalla Applen lokalisoiduista systeemeistä tarvittavat osat ja asentamalla ne laajennuksina (Language Extensions). Applen Language Kitit systeemi 7:n tultua helpottivat useamman kielen käyttöä samassa systeemissä. Suppeat versiot kiteistä (mm. niukasti fontteja) löytyvät Mac OS 9 asennuksesta. Esimerkkinä erillisenä myydystä kitistä Japanese Language Kit:
Kitteihin sisältyvät kirjasimet ovat kuten muutkin kirjasimet, asentuvat Järjestelmäkansion Kirjasimiin ja ovat Applen kaupallista softaa, jonka kopiointi ja levittäminen on kielletty. Joitakin kittien komponentteja (mm. fontteja) sisältäviä lokalisoituja System 7.0 -versioita on vapaasti saatavilla Applelta (4).

Mikä on in-line syöttötapa?
Edellä mainittiin jo japanilaisten kaksi skriptiä. On selvää, että kanji-merkeillä kirjoittaessa ei voi käyttää standardin kokoista näppäimistöä, näppäimet eivät riittäisi alkuunkaan tuhansille merkeille. Siksi tarvitaan vaihtoehtoinen syöttötapa (input method). Japanin tapauksessa kirjoitetaan kana-merkkejä, ja ohjelma jalostaa sanan (useamman kana-merkin) saman sanan kanji-merkiksi. Alkuun tähän tarkoitukseen käytettiin erillistä syöttöikkunaa.
In-line input tarkoittaa mahdollisuutta kirjoittaa suoraan dokumentin halutulle riville, käyttämättä erillistä ikkunaa. WoldScript jalostaa merkistön paikalla, valittujen asetusten mukaisesti. Ennen järjestelmätason tukea jokaisessa ohjelmassa tarvittiin oma syöttötapansa, mikä vaikeutti uuden ohjelman oppimista. Myös lokalisointi hidastui.

Miksi tämä artikkeli on kirjoitettu vuonna 2000?
Apple lopetti WorldScriptin kehittämisen ja julkaisi viimeisen version Language Kiteistä Mac OS 9:n mukana 1999. Tämä kuuluu osana suunnitelmaan, joka mainittiin jo vuonna 1992 (1). Apple joutui standardien keskeneräisyyden vuoksi kehittämään omat merkistönsä 1980-luvulla. Yhtiö kuului alusta saakka Unicode-konsortioon, jonka alkuperäinen tarkoitus oli kehittää 16-bittinen "maailmanmerkistö" (2^16=65 536 merkkiä). Apple sitoutui siirtymään siihen tulevissa käyttöjärjestelmissään. Unicode on sittemmin muuttanut muotoaan, ja Apple siirtyy parhaillaan uuteen käyttöjärjestelmään. Mac OS X käyttää sisäisesti Unicodea, jonka pitäisi tehdä kitit tarpeettomiksi (5).
Nyt siis asiakkaat, jotka seuraavat arabialaisin numeroin numeroidun Mac OS:n päivityspolkua loppuun, saavat Language Kitit eli vastaavan toiminnallisuuden kuin jo julkaistussa Mac OS X Serverissä. Yksittäisiä kittejä ei enää saa, ellei niitä ole ohjelmien jälleenmyyjän hyllyssä.

Asennus
Mac OS 8.5 ja 8.6 sisältävät asennusohjelmassa vaihtoehdon "Monikielinen Internet". Tämä on ote WorldScript-teknologiasta, sisältäen osia Language Kiteistä arabiaa, intialaisia kieliä, hepreaa, japania sekä kiinaa ja koreaa varten. Mac OS 8.5 tai 9 asennuksessa valitaan painike "Muokkaa" ja valintaikkunan listasta "Monikielinen Internet" tai "Language Kits".

Mac OS 8.5 sisältää joitakin WorldScriptin osia. Siten on mahdollista mm. lukea japanilaisia www-sivuja.


Jo perusversioissaan Mac OS 8.5 ja uudemmat osaavat muuttaa skriptejä toisikseen Text Encoding Converter -laajennuksen avulla. Käytettävissä olevat koodaukset löytyvät Järjestelmäkansion kansiosta "Text Encodings".

Mac OS 8.5:n tukemat tekstikäännökset.


Kun haluttu kitti on asennettuna, WorldScriptiä tukevassa ohjelmassa skriptin (kielen, kirjoitussuunnan jne.) vaihto käy valitsemalla kirjoitusjärjestelmä Näppäimistö-valikosta (lipulla merkitty valikko, valikkorivissä kellon oikealla puolella) ja Kirjasin-valikosta kyseisen kielen kirjasin. Ohjelmien tuki vaihtelee, joten kannattaa tutustua ohjelman oheisinformaatioon. Kaukaisten kielten kirjasimia saa kirjasimia valmistavilta ohjelmataloilta, esim. Adobelta. Nisus Softwaren tukisivut neuvovat säästämään Language Kittien mukana tulleet kirjasimet, koska kaikkia niitä ei tule Mac OS 9:n mukana.

Kahdeksanbittinen merkistö?
Tietokoneita suunniteltaessa keskusmuistin kalleus ja vain paikallisen tarpeen huomiointi rajoittivat merkistön kokoa. Aluksi käytössä oli 7-bittinen merkistö, johon kuului 2^7=128 merkkiä. Ei-englanninkielisissä länsimaissa siitä johdettiin kansalliset 7-bittiset merkistöt. Päätteissä, pääteohjelmissa ja DOS-ohjelmissa on edelleen näitä väännöksiä.
Apple /// (1981) ja Apple Lisa (1983) olivat ensimmäisiä mikrotietokoneita, joissa oli ohjelmallisesti ladattava merkistö. (Korjatkaa jos tiedätte tarkemmin.) Sitä aiemmissa mikrotietokoneissa merkistö oli omalla ROM-piirillänsä. Eräissä Eurooppaan lokalisoiduissa Apple II -tietokoneissa merkistöä vaihdettiin napsauttamalla keinukytkimellä toinen merkistöpiiri käyttöön.
Edellisiä seuranneissa kahdeksanbittisissä merkistöissä merkit 0-127 ovat samat kuin seitsemänbittisessä US-ASCIIssa. Macintosh ei vuonna 1984 ollut ensimmäinen 2^8=256 merkin merkistöä käyttävä tietokone. Ikkunoiden piirtoon kehitetyt ROM-rutiinit (QuickDraw) tekivät aiemmin mm. DOS- ja kirjoitinmerkistöissä käytetyt graafiset merkit tarpeettomiksi. Tilalle otettiin satunnaiselta vaikuttava valikoima erikoismerkkejä (ääkkösiä, matemaattisia ym).
Vasta Macintoshin kehittämisen jälkeen sovittiin kansainvälisesti 8-bittisten merkkien koodauksesta. Länsi-Euroopan kielissä tarvittavat merkit sisältävä ISO-8859-1 -merkistö otettiin käyttöön mm. Amigassa, ja Microsoft otti sen Windows-merkistön pohjaksi, lisäten tulostumattomien kontrollimerkkien paikalle muutamia tarpeelliseksi katsottuja merkkejä (mm. en-viiva l. "ajatusviiva"). Internetin siirtomuodoksi on vakiintunut ISO-8859-1, mutta protokollat eivät sisällä merkistövaihdos- tai edes kysymys-vastaus-rutiineja siirrettävän datan merkistön sopimiseen palvelinten kesken. Mahdollisuudet sotkuihin ovat siis olemassa. (6 ja 7)
Tekstidokumentin matkatessa järjestelmästä toiseen ääkköset menevät väärin. Syynä on yli 127:n menevien merkkien erilainen koodaus. Windows-Latin-1:n 'ä' (desimaalilukuna 228) osuu MacRoman-taulukossa ä:n kohdalle. DOS-ohjelmalla kirjoitetun dokumentin ääkköset menevät Windows-ohjelmassa sijoiltaan, ja kääntäen. Lisäksi UNIX, Mac ja PC käyttävät hieman erilaisia rivinvaihtorutiineja. Jos tallennetaan DOS- tai Windows-alustalla pelkkää tekstiä (8-bit ASCII), Mac OS:n säädin Tiedostomuunnokset osaa kääntää dokumentin luettavaksi. Muissa tallennusmuodoissa ollaan kääntäjäohjelmien, esim. MacLink Plus (8) varassa.

Tiedostomuunnokset osaa kääntää DOS-ja Windows-peräisen pelkän tekstin (ASCII, Text tai Plain text).


Mac OS (WorldScript) tukee kahdeksanbittisiä merkistöjä (MacRoman ja muut foneettiset merkistöt) ja 16-bittisiä merkistöjä (Kauko-Idän ideograafeilla kirjoitetut kielet). Edellisten tuen lisää laajennus WorldScript I ja jälkimmäisten WorldScript II.

Unicode?
Unicode on kansainvälinen projekti ja ISO-standardi, jonka tarkoitus on laatia merkistö, jossa on määritelty yksikäsitteisesti maailman jokaisen kielen jokainen merkki, ml. kuolleiden kielien. Sen proosallisempi hyöty on ääkkösten siirtyminen alustalta toiselle ilman sotkuja. Merkki on yksikäsitteinen, kun se ei voi sekaantua toiseen merkkiin. Unicode määrittelee paitsi merkit, myös skriptin. Unicode on nykyisin jo 20-bittinen, ja lisää merkkejä on tiettävästi tulossa. Se sisältää siirtomuotojen määrittelyt, joten tiedonvälityksessä ja levylle tallennettaessa tullaan edelleen käsittelemään 8-bittisiä merkkejä (UTF-8). Käännössääntöjä toisiin merkistöihin (mm. Applen WorldScript) voi lukea projektin palvelimelta (9). Käännöksiä siis tarvitaan kuten ennenkin, eikä virheiden mahdollisuus niissä ole suinkaan poissuljettu. Siirtomuodoissa ja muunnoksissa muihin merkistöihin täytyy edelleen käyttää useampaa merkkiä yhden koodaukseen (hiukan kuten HTML:n tapa koodata ä muodolla auml, suljettuna varattujen merkkien & ja ; väliin). (9)
Uudet käyttöjärjestelmät, mm. Windows NT 4 ja 2000 ja Mac OS X Server käyttävät sisäisesti Unicodea. Periaatteessa niissä toisen kielen saa käyttöön valitsemalla kirjasimen ja dokumentin/kappaleen kielen. Skriptin pitäisi tulla käyttöön automaattisesti, kirjoitussuuntineen kaikkineen.
Todennäköisesti 8-bittiset merkistöt säilyvät vielä pitkään. Kansallisia 7-bittisiä merkistöjäkin oli vielä 90-luvun lopulla käytössä pankkien päätepalveluissa. Pankit tosin ovat nykyään siirtyneet kehityksen eturintamaan, niiden www-pohjaisten palvelujen käyttämiseksi saattaa olla tarpeen hankkia kokonaan uusi kone!

Lukemista
  1. Language Kits - WorldScript: the enabling technology. 1992 Apple Computer Inc.

  2. Ilmainen WordPerfect 3.5

  3. http://www.nisus.com

  4. ftp.apple.com

  5. The Yellow Box Text System.1999 Apple Computer Inc.

  6. http://ppewww.ph.gla.ac.uk/~flavell/iso8859/iso8859-pointers.html

  7. http://czyborra.com/utf/

  8. http://www.dataviz.com

  9. ftp.unicode.org/Pub/MAPPINGS/