Lingvistiikka: Ä, Ö, Tavutus ?

Anonyymi

Kun Suomi24:llä ei valitettavasti ole erikseen keskustelualuetta "Lingvistiikka", niin menköön "Yleistä tieteestä" alle sitten:

Kun imuroidaan internet -palvelimelta tekstiä, niin valitettavasti joskus Ä ja Ö ovat korvautuneet "sotkulla", eli korvausmerkillä.

Jos tuotan automaattisesti tuolla tavalla pilalle menneestä tekstistä 2 eri versiota:

versiossa 1 kaikki korvausmerkit korvataan Ä:llä, ja


versiossa 2 kaikki korvausmerkit korvataan Ö:llä.


Seuraavaksi sovelletaan suomen kielen tavutusalgoritmiä.

Löytyyköhän jostain lista kaikista suomen kielen tavuista ?

Sen avulla voisi eliminoida tapaukset, joissa on kelvottomia tavuja.

Tuolla tavalla saisi suurimman osan "kadonneista" Ä ja Ö -kirjaimista oikein.

Ongelmaksi jäisivät vain sellaiset sanat, joissa on samassa sanassa sekä Ä että Ö, ja näihin voi olla vaikea keksiä automaattista ratkaisua, vaan menee väkisin manuaaliseksi editoinniksi.

Lainaan tähän esimerkiksi kirjoituksen joulukuulta 2013:


Jouni Paakkinen
lukematon,
26.12.2013 klo 21.53.02
vastaanottaja
Oma ISP (DNA) lopetti jo jokunen aika sitten, ensin omansa ja sitten
alihankintanakin k�ytt�m�ns� nyyssipalvelimen.

Tauon j�lkeen palasin t�nne juuri Skrollin (2013.4) Usenet-jutun
kannustamana, news.aioe.org tuntuu toimivan ihan jees.

Mutta joo, hiljaista on ja hiljaisemmaksi menee. :(

Jouni

Tuossa esimerkkiviestissä riittää, kun kaikki "�" -merkit korvataan "ä" -kirjaimella.

Mutta teoreettisesti osa voisi olla myös "ö" -kirjaimella korvattavia, vaikka juuri tässä viestissä ei tällaisia olekaan,

Tavoitteena siis kehittää automatiikkaa restoroimaan ä ja ö -kirjaimet kohdalleen tekstissä, joita tietotekniikka (siis huonosti koodatut ohjelmistot) ovat pahoinpidelleet.

1

128

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • Anonyymi

      em. Jouni Paakkisen viesti on lainattu täältä:

      https://groups.google.com/g/sfnet.viestinta.nyyssit/c/yn3VkYbLopU?pli=1

      lainatun viestin aikaleima: 26.12.2013 klo 21.53.02

      Lainaustiedot mainitaan, koska muuten pelkään, että viesti saatetaan sensuroida sen sisältämän henkilötiedon (etu- ja sukunimi) takia.

      Lainauksen syy: esimerkki viestistä, jota tietotekniikka on pahoinpidellyt siten, että ä ja ö -kirjaimet ovat vääristyneet.

    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Nainen, yrittäessäsi olla vahva olet heikoksi tullut

      Tiedätkö mitä todellinen vahvuus on? Selviätkö, kun valtakunnat kukistuvat? Miten suojaudut kun menetät kaiken? :/
      Ikävä
      191
      1284
    2. Miettimisen aihetta.

      Kannattaa yrittää vain niitä oman tasoisia miehiä. Eli tiputa ittes maan pinnalle. Tiedoksi naiselle mieheltä.
      Ikävä
      122
      1128
    3. Mitkä on 3 viimeistä sanaa

      sun ja kaivattusi viesteilyssä? Ensin sun, sitten kaivatun?
      Ikävä
      48
      854
    4. Kai sä näät

      Ku sua katson et olen aika rakastunut. Rakkaus ei vain ole aina niin yksinkertaista
      Ikävä
      70
      850
    5. Just nyt mä

      En haluais sanoa sulle mitään. Voisi vaikka istua vierekkäin hiljaa. Ehkä nojaten toisiimme. Tai maata vierekkäin, ilman
      Ikävä
      53
      780
    6. Nainen miltä tuntuu olla ainoa nainen Suomessa, joka kelpaa ja on yheen sopiva minulle

      Sydämeni on kuin muuri, valtavat piikkimuurit, luottamusongelmat, ulkonäkövaatimukset, persoonavaatimukset ja älykkyysva
      Ikävä
      50
      715
    7. Kuinka hyvin tunnet mut?

      Kerro musta mies jotain.
      Ikävä
      33
      682
    8. Piristä mua ystävä

      Hyvä💫...
      Ikävä
      60
      679
    9. Hakeudu hoitoon.

      En oo kiinnostunut susta.
      Ikävä
      50
      665
    10. Nainen, mitä ajattelet minusta?

      Mitä tuntemuksia saan aikaan sinussa? :/
      Ikävä
      52
      657
    Aihe