Jag har analyserat de två saknade filerna sv_SE-one-letter-words.dat och sv_SE-two-letter-words.dat. De skall uppenbarligen (om man tittar på filnamnet) innehålla ord som är ett tecken respektive två tecken långa.
En sak som förbryllar mig med sv_SE-one-letter-words.dat är att filen, på de befintliga språken (som följer med iPhone), inte innehåller specialtecken. Exempelvis innehåller den tyska inte tecknet ü. Dessutom innehåller den tecken som inte är ord. En annan sak som är konstig är att man aldrig får förslag på ord som består av en bokstav, så den exakta använiningen av den här filen är också oklar för mig.
Så här ser den tyska filen ut om man tittar på den i en hexeditor:

Så fort jag får mer information så kommer jag att skapa en sv_SE-one-letter-words.dat-fil. Min gissning blir att den svenska filen är väldigt lik den tyska motsvarigheten.
Noterat: Alla one-letter-words.dat filer är exakt 320 bytes stora.
När det gäller two-letter-words.dat så ser läget lite annorlunda ut. Även här har jag tittat på den tyska filen i en hexeditor. Här är en del av innehållet:

Det råder ingen tvekan om att innehållet är ord som består av två bokstäver. Men varför förkommer vissa ord flera gånger (se exempelvis ”ag” och ”an” ovan)? När jag vet svaret på den frågan så kan jag skapa en two-letter-words.dat-fil.
Jag har dessutom lyckats hitta en lista med svenska ord som är två tecken långa. Den finns här [pdf]. Listan innehåller alla ord från SAOL. Det bästa vore nog att försöka plocka bort alla ord som man i normalt tal inte använder så ofta så att man inte får förslag på dem. Eftersom listan inte är så lång är detta någonting man kan göra manuellt (någon frivillig?).
Jag har provat att ersätta den svenska filen med den tyska motsvarigheten och kan konstatera att man då får förslag på tyska ord.Noterat: Alla two-letter-words.dat-filer är exakt 6092 bytes stora.
Jag har förutom det som jag skrivit om ovan även tittat på dem danska, engelska och amerikanska one/two-letter-words.dat filerna för att försöka hitta likheter/skillnader. Men det har inte gjort mig klokare.
För den som är intresserad så är filerna uppbyggda på det här sättet (citerar signaturen M4v3R):
”These two files hold one and two letter words for each language. They always start with 8 byte header, 6 bytes unknown, and 2 bytes are length of the file minus 8 bytes. Then the list of words follow, with 3 byte ‘counter’ at the beginning, and 3 (one-letter-words) / 6 (two-letter-words) 00-padded word in plain ASCII.”
Så nu har du all information som jag har kring dessa två filer. Har du mer information eller har jag tänkt fel någonstans? Skriv då en kommentar!
Andra bloggar om: 3g, apple, iphone, ipod, ipods, mac, mobiltelefon, mobiltelefoner, smartphone, tele2

