X-Git-Url: https://git.sesse.net/?a=blobdiff_plain;f=www%2Fratings-explained.html;h=8af260e0662f345b5ea906149ec21a645b1594c2;hb=b0ef1678544b47f3ea93cf976f193d1976f29dc6;hp=2067969d658677ccbfb1f513a189099e12817075;hpb=3d850dc87de315a88ccc7a8fcb97b5ddb0465dc4;p=wloh diff --git a/www/ratings-explained.html b/www/ratings-explained.html index 2067969..8af260e 100755 --- a/www/ratings-explained.html +++ b/www/ratings-explained.html @@ -1,7 +1,11 @@ - + + + WLoH-rating - +

WLoH-rating

@@ -9,7 +13,7 @@

Dette er et hobbyprosjekt fra tredjepart, og ikke en offisiell del av Wordfeud Leage of Honour.

Dette er et forsÃ¸k pÃ¥ Ã¥ forklare hvordan ratingene +

Dette er et forsÃ¸k pÃ¥ Ã¥ forklare hvordan ratingene som brukes pÃ¥ denne siden regnes ut. Forklaringen er ment Ã¥ vÃ¦re ikke-teknisk; det hjelper Ã¥ ha en viss sans for matematikk, men den er med vilje skrevet uten for mange greske bokstaver og lignende.

@@ -21,7 +25,7 @@ helt vanlig tall, og det er denne vi prÃ¸ver Ã¥ mÃ¥le ut fra resultatene vi ser. (Vi prÃ¸ver altsÃ¥ eksplisitt ikke Ã¥ dele ut Â«poengÂ» for Ã¥ gjÃ¸re det bra, kun Ã¥ estimere den ekte spillestyrken din; selv et tap kan Ã¸ke ratingen din.) - Vi sier at hvis Anne har spillestyrke (rating) 1550 og BjÃ¸rn har 1500, + Vi sier at hvis Anne har spillestyrke (rating) 550 og BjÃ¸rn har 500, vil Anne i gjennomsnitt slÃ¥ BjÃ¸rn med 50 poeng hvis de spiller.

Imidlertid er Wordfeud er et spill der tilfeldigheter spiller en viktig rolle, @@ -29,7 +33,7 @@ det svinger? Her kommer normalfordelingen inn; de fleste har nok sett kurven for den fÃ¸r:

Normalfordelingskurve med forventningsverdi 50

Kurven her sier rett og slett at hvis Anne og BjÃ¸rn spiller, er det mest sannsynlige at Anne vinner med 50, siden dette er ratingforskjellen deres. @@ -40,7 +44,7 @@

Ratingen din betyr altsÃ¥ bare noe i forhold til andre spillere, sÃ¥ det absolutte tallet er ikke sÃ¥ viktig i seg selv. Gjennomsnittlig spillestyrke - settes i utgangspunktet til 1500 poeng; dette er et helt vilkÃ¥rlig tall, + settes i utgangspunktet til 500 poeng; dette er et helt vilkÃ¥rlig tall, men er valgt delvis ut fra tradisjon i andre ratingsystemer. Det kunne like gjerne vÃ¦rt 0 eller 100000 (selv om det kanskje virker litt dust at en dÃ¥rlig spiller har rating 99800 og en veldig god 100200).

@@ -50,8 +54,8 @@

MÃ¥let til ratingsystemet blir altsÃ¥ Ã¥ prÃ¸ve Ã¥ mÃ¥le folks spillestyrke pÃ¥ en global skala, til tross for tilfeldighetene. MÃ¥let vÃ¥rt blir Ã¥ finne den kombinasjonen av ratinger som er rimeligst mulig, altsÃ¥ stemmer - best, med de observasjonene vi har gjort. PÃ¥ engelsk kalles dette - maximum likelihool estimation, eller MLE.

+ best med de observasjonene vi har gjort. PÃ¥ engelsk kalles dette + maximum likelihood estimation, eller MLE.

SÃ¥, hva er rimeligst vi ser at Anne har slÃ¥tt BjÃ¸rn med 50 poeng og ikke har noe annen informasjon? Her er Ã¥penbart det mest rimelige at Anne har @@ -73,7 +77,7 @@ at Anne ikke bare har slÃ¥tt BjÃ¸rn med 50 poeng, men at hun en annen gang har tapt med 80 for ham:

Normalfordelingskurve med forventningsverdi ca. -18

Her blir det rimeligste resultatet at BjÃ¸rn er litt bedre (ca. 18 poeng).

@@ -103,20 +107,20 @@ finne ekte spillestyrke til relativt nye spillere. Hvis for eksempel David har banket Emma, Fredrik og Gunnar med 200 poeng nedi sin avdeling i 8. divisjon, og man antar i utgangspunktet - at en gjennomsnittlig spiller er 1500 poeng, er det da rimelig - at David skal ha rating 1700 (som er helt mot toppen av lista)?

+ at en gjennomsnittlig spiller er 500 poeng, er det da rimelig + at David skal ha rating 700 (som er helt mot toppen av lista)?

De fleste vil si nei; det er ikke rimelig. Vi uttrykker dette med en utgangsantagelse (eller engelsk Â«priorÂ») om ratingen hos folk generelt, og igjen kommer normalfordelingen inn:

Normalfordelingskurve med forventningsverdi 500

Kurven her sier rett og slett at det er fÃ¥ av de aller beste og dÃ¥rligste spillerne; - de fleste ligger rundt 1500 noe sted. Det er rett og slett ikke veldig - rimelig at en spiller ligger rundt 1700 i seg selv, og inntil det finnes + de fleste ligger rundt 500 noe sted. Det er rett og slett ikke veldig + rimelig at en spiller ligger rundt 700 i seg selv, og inntil det finnes data som sier noe annet (i praksis et relativt stort antall kamper med - godt resultat) vil dette trekke spilleren nÃ¦rmere 1500. I stor grad + godt resultat) vil dette trekke spilleren nÃ¦rmere 500. I stor grad lÃ¸ser dette problemet – det er dog ingen fullstendig fiks.

Minorization-maximization

@@ -134,9 +138,9 @@

I stedet bruker vi en metode som pÃ¥ fint kalles cyclic minorization-maximization (syklisk MM, nÃ¦rt beslektet med EM-algoritmene som er i vid bruk). Den er dog ikke sÃ¥ fryktelig komplisert for vÃ¥rt tilfelle: - FÃ¸rst antar vi alle har rating pÃ¥ 1500. SÃ¥ tar vi Annes rating og + FÃ¸rst antar vi alle har rating pÃ¥ 500. SÃ¥ tar vi Annes rating og setter henne riktig (dvs., med maksimal rimelighet) i forhold til - alle andre (for eksempel 50 poeng over BjÃ¸rns rating pÃ¥ 1500 hvis + alle andre (for eksempel 50 poeng over BjÃ¸rns rating pÃ¥ 500 hvis det er all informasjonen vi har). SÃ¥ setter vi BjÃ¸rn riktig i forhold til alle andre, og sÃ¥ videre for alle spillere. NÃ¥ er antageligvis Anne plassert litt feil (siden BjÃ¸rn har flyttet pÃ¥ seg), sÃ¥ vi oppdaterer @@ -158,11 +162,16 @@

Forbedringer og diverse

Dette var faktisk alt. Det skal sies at det sikkert er nok Ã¥ ta tak i - som ikke er blitt dekket her – for eksempel kunne det vÃ¦re Ã¸nskelig - Ã¥ vite noe om usikkerheten i de estimerte ratingene, og dette - er ikke pÃ¥ plass ennÃ¥. Ei heller er det egentlig tatt hensyn til variabilitet - i folks prestasjoner (modellen antar at folk presterer pÃ¥ samme nivÃ¥ hele tiden), - og vi har ikke sagt noe om vekting av kamper (eldre kamper gis mindre betydning). + som ikke er blitt dekket her – for eksempel er det ikke beskrevet + hvordan man regner ut usikkerheten i de estimerte ratingene + (hvilket er passe komplekst, og basert pÃ¥ Ã¥ invertere + Hess-matrisen + til rimelighetsfunksjonen), + eller hvordan modellen vekter kamper eldre kamper gis mindre betydning).

+ +

Hva gjelder forbedringer av selve modellen, kan det nevnes at det ikke + egentlig tatt hensyn til variabilitet + i folks prestasjoner (modellen antar at folk presterer pÃ¥ samme nivÃ¥ hele tiden). Det er ogsÃ¥ som alltid litt tvilsomt om normalfordelingen er det aller beste valget; den er relativt enkel Ã¥ regne med, hvilket har en ikke ubetydelig verdi i seg selv, men mange andre systemer har etter hvert valgt Ã¥ basere seg