sv_SE-one-letter-words.dat och sv_SE-two-letter-words.dat

Jag har analyserat de två saknade filerna sv_SE-one-letter-words.dat och sv_SE-two-letter-words.dat. De skall uppenbarligen (om man tittar på filnamnet) innehålla ord som är ett tecken respektive två tecken långa.

En sak som förbryllar mig med sv_SE-one-letter-words.dat är att filen, på de befintliga språken (som följer med iPhone), inte innehåller specialtecken. Exempelvis innehåller den tyska inte tecknet ü. Dessutom innehåller den tecken som inte är ord. En annan sak som är konstig är att man aldrig får förslag på ord som består av en bokstav, så den exakta använiningen av den här filen är också oklar för mig.

Så här ser den tyska filen ut om man tittar på den i en hexeditor:

one-letter-wordsdat.jpg

Så fort jag får mer information så kommer jag att skapa en sv_SE-one-letter-words.dat-fil. Min gissning blir att den svenska filen är väldigt lik den tyska motsvarigheten.

Noterat: Alla one-letter-words.dat filer är exakt 320 bytes stora.

När det gäller two-letter-words.dat så ser läget lite annorlunda ut. Även här har jag tittat på den tyska filen i en hexeditor. Här är en del av innehållet:

two-letter-wordsdat.jpg

Det råder ingen tvekan om att innehållet är ord som består av två bokstäver. Men varför förkommer vissa ord flera gånger (se exempelvis ”ag” och ”an” ovan)? När jag vet svaret på den frågan så kan jag skapa en two-letter-words.dat-fil.

Jag har dessutom lyckats hitta en lista med svenska ord som är två tecken långa. Den finns här [pdf]. Listan innehåller alla ord från SAOL. Det bästa vore nog att försöka plocka bort alla ord som man i normalt tal inte använder så ofta så att man inte får förslag på dem. Eftersom listan inte är så lång är detta någonting man kan göra manuellt (någon frivillig?).

Jag har provat att ersätta den svenska filen med den tyska motsvarigheten och kan konstatera att man då får förslag på tyska ord.Noterat: Alla two-letter-words.dat-filer är exakt 6092 bytes stora.

Jag har förutom det som jag skrivit om ovan även tittat på dem danska, engelska och amerikanska one/two-letter-words.dat filerna för att försöka hitta likheter/skillnader. Men det har inte gjort mig klokare.

För den som är intresserad så är filerna uppbyggda på det här sättet (citerar signaturen M4v3R):

”These two files hold one and two letter words for each language. They always start with 8 byte header, 6 bytes unknown, and 2 bytes are length of the file minus 8 bytes. Then the list of words follow, with 3 byte ‘counter’ at the beginning, and 3 (one-letter-words) / 6 (two-letter-words) 00-padded word in plain ASCII.”

Så nu har du all information som jag har kring dessa två filer. Har du mer information eller har jag tänkt fel någonstans? Skriv då en kommentar!

Andra bloggar om: , , , , , , , , ,

5 svar to “sv_SE-one-letter-words.dat och sv_SE-two-letter-words.dat”

  1. Lone_fox Says:

    Det kan inte handla om böjelser av ord som förlänger ett ord? Skriver jag ”skola” vill jag inte ha förslag på ”skolan” eller ”skolans”.

    Som det är nu verkar svenska ordlistan föreslå ord som är mkt längre än det man tänkt sig som exemplet ovan. An, er, s, a, t m.fl kanske är sånt som ska finnas med i en separat lista för plural, böjelser och allt annat konstigt.

  2. Kia Says:

    Jag har jämfört innehållet i den amerikanska two-letter-words.dat filen med en lista över amerikanska ord som består av två bokstäver – och den matchar väldigt bra.

    Dessutom har jag provat att byta namn på den tyska two-letter-words.dat filen så att den heter sv_SE-two-letter-words.dat. Och vips så får jag förslag på ord som består av två bokstäver – fast på tyska.

    När det gäller att iPhone föreslår långa ord så beror det förmodligen på programmet iPhoneshop. iPhoneshop-utvecklaren verkar ha tagit semester över jul och nyår men kommer säkert att titta på mina förslag inom en vecka eller två.

  3. Kia Says:

    Nu vet jag varför orden förekommer flera gånger. Anledningen är att filen listar varje eventuell felstavning med det rätta ordet. Varje rätt ord kan givetvis felstavas på mängder med sätt. Några exempel på hur man kan felstava ordet ”en”:

    wj
    wk
    wn
    wm
    ek

  4. Lone_fox Says:

    Ah, det låter ju troligt! Ordlistan blir bara bättre och bättre, kanon!🙂


Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s

%d bloggare gillar detta: