Frekvensfördelning

Som jag tidigare skrivit använder jag en ordlista från Debian som bas när jag skapar ordlistan till iPhone. För att få fram en siffra över vilket ord som är vanligast har jag gjort en lista över alla ord på svenska Wikipedia och hur många gånger respektive ord förekommer.

När jag sedan mappar Debians ordlista med frekvenslistan från Wikipedia och konverterar frekvenserna så att dem hamnar mellan talet 20 och 100 så fördelar sig talen på följande sätt (klicka för större bild):

Som synes är det mer än 10000 ord som får samma viktning, talet 20. Det är ord som ”abakus”, ”abandon”, ”abbedissor” (några exempel från början av ordlistan) – det vill säga ord som du inte kommer att skriva så ofta.

Anledningen är att det i listan, som jag genererat från Wikipedia, finns väldigt många ord som förekommer färre än 50 gånger, och det finns några ord som förekommer mer än 200000 gånger. Spridningen blir därför väldigt stor.

Min tanke var att det var bättre att göra om fördelningen så att den blir logaritmisk istället för linjär. Talen skulle då fördela sig jämnare vilket jag tror skulle leda till bättre förslag på ord i slutändan.

Jag hittade en sida som beskrev en algoritm för att göra just fördela frekvenser logaritmistk. Men efter att ha provat alogritmen så visade det sig att fördelningen inte alls blev bättre. Jag vet inte riktigt vad det beror på, men kontentan är att den nuvarande ordlistan är bättre än den ordlista som jag hade planer på att skapa nu i dagarna. Jag har hittat en annan algoritm som jag skall kolla på vid tillfälle – så jag har inte gett upp vad gäller att göra en bättre frekvensfördelning.

Vill du hjälpa till att göra ordlistan bättre? Prova då den nuvarande ordlistan och hör av dig om du upptäcker någonting som skulle kunna bli bättre.

God Jul!

Uppdaterat

Jag tänkte att det kan vara intressant att jämföra frekvensfördelningen i den svenska ordlistan med den amerikanska motsvarigheten (från en 1.1.1 telefon). Här är den (klicka för större bild):

Om vi jämför den amerikanska ordlistan med ”min” ordlista så syns tydligt att den största skillnaden är att den amerikanska har nästan 10000 ord som har fått relevansen ”50”.

Andra bloggar om: , , , , , , , , ,

2 svar to “Frekvensfördelning”

  1. Isak Says:

    Jag har kört ordlistan en dag nu, och måste säga att den funkar väldigt bra. Några saker ter sig dock lite konstiga.

    Till exempel:
    Jag ska skriva ’till’ men råkar skriva ‘toll’. Ordlistan ger istället förslag på ‘tolk’.

    Antar i och för sig att den lär sig efter ett tag vad man skriver oftast.


Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s

%d bloggare gillar detta: