Mitä käytännön eroa charilla ja shortilla?

harjoittelia

2019-03-23 13:17:57

Molemmathan ovat 16 bittiä pitkiä. Miksi siis pitäisi käyttää jompaa kumpaa? Esimerkiksi C-kielessähän char on 8-bittinen, jolloin ei synny päällekkäisyyksiä.

2866

Äänestä

Vastaukset

jotainkin
2019-03-24 08:21:21
Eri tietotyypeillä kerrotaan mm. kääntäjälle/tulkille miten paljon sen täytyy varata resursseja (esim muistia) ja ohjelmoijalle millaisia arvoja se tulee saamaan.

16 bitin char on tarkoitettu merkeille ja symboleille. Tosin se on vähän huono (ja rajoitettu) koska siihen ei mahdu kaikki unicode merkit vaan osajoukko siitä (parempi on esim. utf8 jne)
- susi-tuli
  2019-03-24 08:33:03
  "Tosin se on vähän huono (ja rajoitettu) koska siihen ei mahdu kaikki unicode merkit vaan osajoukko siitä (parempi on esim. utf8 jne)"
  
  Tuon kun olisit jättänyt sanomatta, olisi viestisi mennyt läpi kuin väärä raha, ei jatkoon.
- jaakai
  2019-03-24 10:35:48
  susi-tuli kirjoitti:
  "Tosin se on vähän huono (ja rajoitettu) koska siihen ei mahdu kaikki unicode merkit vaan osajoukko siitä (parempi on esim. utf8 jne)"
  
  Tuon kun olisit jättänyt sanomatta, olisi viestisi mennyt läpi kuin väärä raha, ei jatkoon.
  Kiinteään 16-bittiseen muuttujaan mahtuu vain 65 536 eri merkkiä kun esim. 32-bittiseen (UTF-32) mahtuu reilusti yli miljoona ja samoin mahtuu vaihtevan pituiseen UTF-8 merkkiin. UTF-8 vie Suomessa eniten käytetyillä (ASCII ) merkeillä vähemmän muistia.
- ubuntu-proffa
  2019-03-24 10:50:26
  jaakai kirjoitti:
  Kiinteään 16-bittiseen muuttujaan mahtuu vain 65 536 eri merkkiä kun esim. 32-bittiseen (UTF-32) mahtuu reilusti yli miljoona ja samoin mahtuu vaihtevan pituiseen UTF-8 merkkiin. UTF-8 vie Suomessa eniten käytetyillä (ASCII ) merkeillä vähemmän muistia.
  Ubuntun UTF-8 vie hyvin vähän muistia, ja se on hyvin nopea. Ubuntun (ASCII ) merkeillä osaa kuka vaan kirjoittaa. olen käyttänyt kaikki ubuntun 32-bittiä ainakin kertaalleen. Ubuntu on paras aloittelevalle koska siihen mahtuu 65 536 eri merkkiä. minä tiedän nämä ubuntu jutut kaikista parhaitten olen käyttänyt ubuntua 8 vuotta.
- todellapitkäaikainen
  2019-03-24 16:31:24
  Mä oon vasta saanu 9 bittiä täyteen ubuntussa. Hyvä että jää säästöön niitäkin koska tämä pitkäaikaistyöttömyys vaan jatkuu. Saisinko sossusta lisää bittejä Ulbuntuun?
- Laazz00
  2019-03-25 06:36:07
  Esim. Lazarus käyttää oletuksena UTF-8 merkistöä.
  Kirjoittamalla Lazaruksessa käsky
  joka tulostaa merkkijonon pituuden
  length('Ostoskorin hinta on 100,- €').ToString
  esim. Memo1.Lines.Add(); sulkeiden sisään jolloin
  se tulostuu TMemo komponenttiin eli muistioon.
  Nähdään että tämän merkkijonon pituus on 29 tavua.
  Muut merkit (jotka ovat perinteisiä ASCII merkkejä) kuin euron merkki
  veivät vain yhden tavun mutta euron merkki vie 3 tavua.
  Jos tuo merkkijono olisi toteutettu UTF-32 merkistönkoodauksella
  se olisi viennyt 108 tavua.
- Laz01
  2019-03-25 09:33:55
  Laazz00 kirjoitti:
  Esim. Lazarus käyttää oletuksena UTF-8 merkistöä.
  Kirjoittamalla Lazaruksessa käsky
  joka tulostaa merkkijonon pituuden
  length('Ostoskorin hinta on 100,- €').ToString
  esim. Memo1.Lines.Add(); sulkeiden sisään jolloin
  se tulostuu TMemo komponenttiin eli muistioon.
  Nähdään että tämän merkkijonon pituus on 29 tavua.
  Muut merkit (jotka ovat perinteisiä ASCII merkkejä) kuin euron merkki
  veivät vain yhden tavun mutta euron merkki vie 3 tavua.
  Jos tuo merkkijono olisi toteutettu UTF-32 merkistönkoodauksella
  se olisi viennyt 108 tavua.
  En ole Lazarusta käyttänyt mutta tuli mieleen että miten mahtaa vaikuttaa suorituskykyyn se että merkkijonot ovat sisäisesti talletettuina UTF8:ksi. Jos vaikka on iso läjä merkkijonoja järjestettävänä aakkoskärjestykseen niin nehän pitää ensin purkaa UTF8:sta toiseen muotoon, jota voi käyttää vertailuissa.
- LaaZzo
  2019-03-25 21:21:32
  Enemmän on merkitystä millaisella lajittelualgoritmillä lajitellaan ja mikä on lajittelun lähtötilanne.
  Lueppa seuraava linkki:
  http://wiki.freepascal.org/UTF-8/fi
  Eli näin yleisesti ottaen UTF-8 merkit eivät ole mitenkään erikoisesti pakattu.
merkillistä
2019-03-24 08:36:31
Char on etumerkitön ja short etumerkillinen.
- ubuntu-maisteri
  2019-03-24 10:54:15
  "etumerkillinen" eli alkukirjain ja tarkoitat varmaan Char alkaa isolla C kirjaimella ja short alkaa pienellä s-kirjaimella.
- merkillistä
  2019-03-24 11:07:00
  ubuntu-maisteri kirjoitti:
  "etumerkillinen" eli alkukirjain ja tarkoitat varmaan Char alkaa isolla C kirjaimella ja short alkaa pienellä s-kirjaimella.
  En tarkoittanut.
- ubuntu-maisteri
  2019-03-24 11:57:50
  merkillistä kirjoitti:
  En tarkoittanut.
  Tarkotitpas, ala vaan tunnustaa, et vain tuntenut alkukirjain sanaa ja käytit yksikertaisuutesi vuoksi etumerkillinen sanaa, joka on tietysti sinun oma vastineesi alkukirjaimelle.
- merkillistä
  2019-03-24 14:57:20
  ubuntu-maisteri kirjoitti:
  Tarkotitpas, ala vaan tunnustaa, et vain tuntenut alkukirjain sanaa ja käytit yksikertaisuutesi vuoksi etumerkillinen sanaa, joka on tietysti sinun oma vastineesi alkukirjaimelle.
  En tarkoittanut mitään alkukirjaimia. Mikä alkukirjain edes on? Onko se vastaava kuin alkuluku numeropuolella?
- ubuntu-maisteri
  2019-03-24 15:28:21
  merkillistä kirjoitti:
  En tarkoittanut mitään alkukirjaimia. Mikä alkukirjain edes on? Onko se vastaava kuin alkuluku numeropuolella?
  Älä nyt ala hankalaksi, alkulukujesi kanssa. Onko tässä (24.3.2019) 24 alkuluku, 3 keskiluku ja 2019 loppuluku. Minä tiedän että keksit alkukirjaimelle omanvastineen (etumerkki), varsin omaperäistä sanojen muunnosta sinulta.
- merkillistä
  2019-03-24 16:10:07
  ubuntu-maisteri kirjoitti:
  Älä nyt ala hankalaksi, alkulukujesi kanssa. Onko tässä (24.3.2019) 24 alkuluku, 3 keskiluku ja 2019 loppuluku. Minä tiedän että keksit alkukirjaimelle omanvastineen (etumerkki), varsin omaperäistä sanojen muunnosta sinulta.
  Minä kehitin siis etumerkillisen 32-bittisen rahayksikköluvun, jolla ei tapahdu pyöristysvirheitä. MSB (most signifant bit) määrittää etumerkin, seuraavat 24 bittiä ovat kokonaislukuosuus (esim eurot) ja 7 alinta bittiä kertovat sadasosat (esim. sentit). Tuolla voidaan ilmoittaa rahamäärä –16 777 216,99 – 16 777 216,99. Rittää tavallisen kotitalouden kirjanpitoon ja laskentaan.
- nimi1merkki
  2019-03-28 19:20:27
  merkillistä kirjoitti:
  Minä kehitin siis etumerkillisen 32-bittisen rahayksikköluvun, jolla ei tapahdu pyöristysvirheitä. MSB (most signifant bit) määrittää etumerkin, seuraavat 24 bittiä ovat kokonaislukuosuus (esim eurot) ja 7 alinta bittiä kertovat sadasosat (esim. sentit). Tuolla voidaan ilmoittaa rahamäärä –16 777 216,99 – 16 777 216,99. Rittää tavallisen kotitalouden kirjanpitoon ja laskentaan.
  Omat tyypit on hieno asia mutta joissakin kielissä on valmiina Currency tyyppi tätä varten.
  Kun Currency tyyppi on valmiina niin silloin ei tarvitse tehdä oparaattoria peruslaskutoimitukseen
Unicode_guru
2019-04-04 17:39:56
Tuo vertaus C -kieleen:

C -kieli on kielenä alkeellinen.

Siksi C -kielessä char on sekä merkki (8 -bittinen sellainen) että samalla 8 -bittinen kokonaislukutyyppi.

Javassa, ja myös Delphissä merkkityypit ja kokonaislukutyypit eivät ole suoraan yhteensopivia keskenään (ja hyvä niin).

Jos tarvitsee muuntaa merkkityyppien ja kokonaislukutyyppien välillä, siihen on omat muunnosfunktionsa.

Javassa tosiaan char on 16-bittinen. Taustalla ilmeisesti jokin varhainen UNICODEn versio, jossa UNICODE silloin tarkoitti UCS-2. Nykyisin tuo rajoittunut UNICODEn versio mahdollistaa sellaisenaan ns BMP:n (Basic Multilingual Page) sisältämien merkkien käytön.

Lisäksi: mikä tahansa BMP:n ulkopuolinen merkki on koodattavissa kahdella UCS2Char -tyyppisellä "merkillä" joista toinen on low surrogate ja toinen high surrogate.

JA tuo javan char -tyyppi on siis samalla UCS2Char.

ASCII menee UTF-8:lla 1 tavu = 1 merkki -periaatteella.

Suomenkielinen teksti menee pääosin tuolla 1 tavu = 1 merkki -periaatteella, poikkeuksena å, ä, ö ja jos aiheena on Saksan kaupungit niin esim ü esiintyy sanassa München. Englanninkielisissä maissa tuosta Saksan kaupungista käytetään nimeä Munich, ehkä siksi kun ü on liian vaikea kirjain jenkkien opeteltavaksi (kuten ovat myös å, ä ja ö).

å,ä,ö,ü ja Å, Ä, Ö, Ü vaativat UTF-8 -koodattuna 2 teknistä merkkiä eli 2 tavua.
UTF-16 ja UCS-2 -koodauksessa ne vaativat 1 teknistä merkkiä eli 2 tavua.

Noita BMP:n ulkopuolisia merkkejä ei kovin usein tarvita.
Yksi esimerkki, missä niitä tarvitaan:

Raamatun alkukielet ovat kreikka, heprea ja aramea.

tuo aramea on sellainen kieli, että sen kirjoitusmerkit eivät kuulu tuohon BMP eli niitä ei voi esittää UCS-2 koodauksella lainkaan ja UTF-16:ssa jokainen arameankielinen merkki = surrogate -pari = 2 teknistä merkkiä eli 4 tavua.

Eli siis :

UTF-8:ssa: 1 tekninen merkki = 1 tavu.
UTF-16:ssa: 1 tekninen merkki = 2 tavua.
UTF-32:ssa: 1 tekninen merkki = 4 tavua.

englanniksi tuo tekninen merkki = encoding unit.

Kaikissa koodauksissa (UTF-8, UTF-16 ja UTF-32) maksimi tilantarve yhdelle oikealle merkille on 4 tavua.

tuossa "oikea merkki" = UNICODE -kooditaulusta löytyvä merkki.

Juu, on olemassa ns. komposiittimerkkejä, mutta ainakin suurimmalle osalle (kaikille?) löytyy ns. precomposed -vaihtoehto, ja jos löytyy, tulee ko. precomposed -vaihtoehtoa myös käyttää !

Käytetään siis precomposed -vaihtoehtoa Ä, EIKÄ käytetä "2 pistettä yhdistettynä seuraavaan merkkiin" A -vaihtoehtoa !

Osa merkeistä on jopa tietoturvamielessä haitallisia.

Jos jokin merkki on sellainen, että se määrää siirtymään 1 pykälä vasemmalle, niin sitä väärinkäyttämällähän voi luoda vaikkapa URLin, joka näyttää samalta kuin toinen URL.

Erilaisiin kusetuksiin mainio kikka.

Tuollaisia merkkejä väärinkäyttämällä voisi vaikkapa luoda linkin, joka näyttäisi vievän tunnettuun verkkopankkiin, mutta viekin sen väärennettyyn versioon, joka on rikollisten hallinnassa.

Joissain kielissä (arabi ?) normaali kirjoitussuunta on oikealta vasemmalle. Mutta kun tuo piirre on sisällytetty UNICODE -järjestelmään, tuliko samalla vahingossa luotua mahdollisuuksia verkkorikollisille kun voi luoda vale -URLeja, jotka näyttävät oikealta, mutta eivät ole sitä ?

Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

Takaisin ylös

Luetuimmat keskustelut

Tänään pyörit ajatuksissa enemmän, kun erehdyin lukemaan palstaa
En saisi, silti toivon että sinä vielä palaat ja otetaan oikeasti selvää, hioituuko särmät ja sulaudummeko yhteen. Vuod
14.05.2025 12:09Ikävä
22
5294
Huomenta ihana
Kauniskasvoinen ihanuus 😘 saan sut vielä
15.05.2025 08:14Ikävä
25
4478
Hei rakas...
Miten on työpäivä sujunut? Rakastan sinua 💗
15.05.2025 13:38Ikävä
28
2591
Edelleen sitä on vaikea uskoa
Että olisit oikeasti rakastunut muhun
15.05.2025 09:49Ikävä
34
2274
Toiveikas vai toivoton
torstai? Ajatuksia?
15.05.2025 08:36Ikävä
37
2018
Vitsi mihin menit. Heti takasin.
Mä näin sut tuu takasin! Oli kiire, niin en ehtiny sin perään!
15.05.2025 14:44Ikävä
15
1968
En ole koskaan kokenut
Ennen mitään tällaista rakastumista. Tiedän että kaipaan sinua varmaan loppu elämän. Toivottavasti ei tarvitsisi vain ka
15.05.2025 19:21Ikävä
19
1617
Mukavaa päivää
Mun rakkauden kohteelle ❤️ toivottavasti olet onnellinen
15.05.2025 09:41Ikävä
12
1551
Voi ei! Jari Sillanpää heitti keikan Helsingissä - Hämmästyttävä hetki lavalla...
Ex-tangokuningas on parhaillaan konserttikiertueella. Hän esiintyi Savoy teatterissa äitienpäivänä. Sillanpää jakoi kons
15.05.2025 10:12Suomalaiset julkkikset
21
1297
Kerranki asiat oikein
Ilkka ja muut pienpuolueeet...teitte hyvän työn kun valitsitte pätevän henkilön virkaan eikä kepulle passelia!! Jatkakaa
15.05.2025 09:28Haapavesi
10
1204

Mitä käytännön eroa charilla ja shortilla?

Vastaukset

susi-tuli kirjoitti:

jaakai kirjoitti:

Laazz00 kirjoitti:

ubuntu-maisteri kirjoitti:

merkillistä kirjoitti:

ubuntu-maisteri kirjoitti:

merkillistä kirjoitti:

ubuntu-maisteri kirjoitti:

merkillistä kirjoitti:

Luetuimmat keskustelut

Tänään pyörit ajatuksissa enemmän, kun erehdyin lukemaan palstaa

Huomenta ihana

Hei rakas...

Edelleen sitä on vaikea uskoa

Toiveikas vai toivoton

Vitsi mihin menit. Heti takasin.

En ole koskaan kokenut

Mukavaa päivää

Voi ei! Jari Sillanpää heitti keikan Helsingissä - Hämmästyttävä hetki lavalla...

Kerranki asiat oikein

Voi ei! Jari Sillanpää heitti keikan Helsingissä - Hämmästyttävä hetki lavalla...

Euroviisut hallussa? Tule testaamaan tietosi Euroviisut-visassa!

Raideleveys muuttuu

Euroviisut 2025 alkoivat...

Suuri seikkailu -tippuja Jari Isometsää arvelutti tämä ennen kuvauksia: "Vähän mietitytti, kun..."

Kulujen jako parisuhteessa

Oho! Antti Railio yllättää - Tässäkö uusi tangokuningas? Tykkäisitkö?

Kauanko skuutteja on siedettävä? Ei tietoa liikennesäännöistä, ajellaan miten sattuu ja missä vain.

Janne Ahonen rehellisenä Suuri seikkailu -ruoista - Yllättävä seikka: "Ei, ei menty niin..."

Euroviisut ohjelmaa tällä vkolla tv:ssä 13.-17.5. - Katso tärkeät ajat tästä ja pysy kartalla!