GOATUltimi articoli

The GOAT Theory: l’algoritmo di The Tennis Base

L’idea di trovare un metodo universale per poter misurare le performance di un tennista durante tutta la carriera è vecchia quanto il tennis stesso. Per quanto un vero e proprio ranking, ossia un sistema riconosciuto da tutti per classificare i tennisti sia nato nel 1973, ci sono documenti che cercano di classificare i tennisti già dai primi anni della storia del tennis. I manuali di Spalding, oltre a riportare i risultati di tutti i tornei del circuito americano, si permettono di stabilire chi ha fatto bene o male durante tutta la stagione. L’handicap di queste classifiche stilate da specialisti è quello di non avere una formula che sia alla base della loro compilazione. Si cercava di andare a braccio e dare dei punteggi arbitrari ai tornei classificandoli in modo da mettere su un livello superiore gli eventi più prestigiosi e poi man man meno sempre più basso agli eventi meno importanti. Questi calcoli erano “oscuri” e non venivano pubblicati con una certa frequenza, però erano fondamentali per stilare i seeding. Ecco spiegato perché a Wimbledon a partire dal 1922 c’è una graduatoria intrinseca quale il seeding del torneo pur non avendo nessun punto di riferimento matematico e di conseguenza oggettivo di questa classifica.

Di “algoritmi del GOAT” in giro ce ne sono a bizzeffe e ognuno cerca di quantificare tutto in modo da ottenere un solo numero per pesare la carriera di un tennista. Confrontando questi numeri si capisce chi è davanti e chi dietro. Questo tipo di ragionamento risulta intrinsecamente fallace perché si parte sempre dal presupposto che non esiste un metodo universale per dare dei punti ai tennisti di epoche diverse dalla nostra e soprattutto non è così scontato che le stagioni del passato debbano o possano essere viste sotto l’ottica di quelle attuali, si potrebbe adottare una soluzione diametralmente opposta e nessuno potrebbe protestare. Tra tutti gli algoritmi quello che oggi va per la maggiore è quello fornito dal sito TheTennisBase.com, un algoritmo che presenta delle strutture un po’ complesse, ma che ha l’innegabile privilegio di essere il primo frutto di un processing di migliaia e migliaia di partite mai presenti in altri studi. Vediamo nel dettaglio come TB cerca di confrontare le carriere dei tennisti.

The TB ranking

L’idea di base che hanno tutti questi algoritmi è quella di avere un solo numero, uno solo per “quantificare” la carriera di un tennista. Questa idea è condivisa da tutti anche se è facile intuire che un solo numero mescola tra loro delle grandezze eterogenee che dovrebbero essere trattate singolarmente. Vediamo il dettaglio.

  • Un caposaldo di questo algoritmo è l’uso di un TB ranking proprio che cerca di imitare quello dell’ATP limando certi difetti intrinseci e soprattutto riempire quell’enorme buco senza classifiche oggettive che va dal 1877 all’agosto 1973. Sono quasi 100 anni di buio.
  • Il TB ranking non è calcolato su base settimanale, ma solo per settimane significative così ci sono dei buchi, non una grande cosa
  • Il TB ranking rispecchia più o meno il ranking ATP. Per ogni tennista vengono selezionati 16 tornei, che sono quelli che fanno cassa. I tornei che fanno parte del lotto dei 16 sono quelli di category A, che possono essere paragonati agli Slam, quelli di category B, i Masters 1000 attuali, e di quelli appartenenti alle category C, D ed E si selezionano solo i best 6.
  • Il sistema attribuisce un bonus aggiuntivo a chi batte un membro della Top 200 di questo ranking ad hoc, come accadeva per i ranking ATP non troppo vecchi.
  • L’idea della categorizzazione A, B, C, D ed E non rispecchia la struttura del circuito pre-1990 ma si cerca comunque di “imporla” per poter fare confronti. Usare delle classificazioni diverse porterebbe a delle incoerenze nell’algoritmo, e crea un altro problema: negli anni ’60, per esempio, un tennista giocava ben più di 16 tornei in 52 settimane per cui questo algoritmo è come un filtro passa-alto che taglia tanta e tanta roba che non fa cassa che però ha avuto un suo peso nel corso della stagione agonistica. Possiamo dedurre che in un certo senso questo avvantaggia i tennisti più vicini a noi. E sarà questa un’altra quaestio della teoria: gli anni più vicini a noi partono da una posizione privilegiata rispetto a quelli più lontani o bisogna fare in modo che tutti si trovino sullo stesso piano? Domanda che troverà risposta più avanti.

Categorizzazione

La categorizzazione year-by-year viene stilata secondo l’importanza storica del torneo e dalla quantità e qualità dei partecipanti, però per essere più precisi e oggettivi si usa un sistema di punteggio che assegna ad torneo un tot di punti in base al field.

RANKING POINTS
1 200,0
2 175,0
3 162,5
4 150,0
5 137,5
6 125,0
7 112,5
8 100,0
9 87,5
10 75,0
11 70,0
12 65,0
13 60,0
14 55,0
15 50,0
16 45,0
17 40,0
18 35,0
19 30,0
20 25,0
21-30 20,0
31-40 17,5
41-50 15,0
51-75 10,0
76-100 5,0
101-150 2,5

 

Per esempio: se il torneo presenta i numeri 1, 5, 14 , 18 e 35 del torneo il suo punteggio sarà: 200+137,5+55+35+17,5 = 447.

Ottenuti tutti i punti per ogni torneo dell’anno si può realizzare la categorizzazione.

Un assioma dell’algoritmo di TB è che i tornei del Grande Slam, Grand Slam Pro e World Pro Championship Series sono sempre di category A. Un approccio un po’ semplicistico e intrinsecamente difettoso perché di tornei di questa specie nel torneo dell’era pre-Open ce sono ben più di 4 disallineando così l’equiparazione tra stagioni del passato e stagioni attuali.

Una volta categorizzati si assegna al vincitore del torneo un numero decrescente di punti in base alla categoria secondo il seguente schema.

CATEGORY FIX VARIABLE
“A” 1500 PP/4
“B” 750 PP/6
“C” 375 PP/8
“D” 185 PP/10
“E” 85 PP/10

Partendo dal punteggio assegnato al vincitore si calcolano i punti assegnati ai vari piazzamenti secondo questo schema.

RESULT POINTS
WINNER 100% OF W
FINALIST 60% OF W
SEMIFINALIST 36% OF W
QUARTER FINALIST 18% OF W
R16 9% OF W
R32 4,5% OF W
R64 2,25 % OF W
R128 1,125% OF W

I tornei con un sistema RR e le World Series hanno un sistema punteggio ad hoc.

Bonus system

Il sistema TB prevede anche un bonus a chi batte giocatori che si trovano in una certa posizione del ranking TB. Lo schema seguito è:

RANKING BONUS
1 25
2-5 20
6-10 15
11-20 10
21-30 8
31-40 6
41-50 5
51-75 4
76-100 3
101-200 2

Il bonus a sua volta ha un coefficiente moltiplicativo che si basa sulla competizione in cui viene sconfitto un Top 200. Lo schema usato è il seguente.

COMPETITION MULTIPLIER
DAVIS CUP 6
OTHERS TEAMS 2
TOURNAMENTS “A” 2
TOURNAMENTS “B” 1,5
TOURNAMENTS “C” 1,25

C’è anche un 3° fattore moltiplicativo per il bonus che dipende dal turno in cui si batte un Top 200. Lo schema.

ROUND MULTIPLIER
FINAL 2
SEMIFINAL 1,5
QUARTERS FINAL 1,25

 

Era pre-Open vs era Open

Per dare maggiore importanza all’era Open, ossia quella in cui i professionisti e i dilettanti potevano giocare finalmente insieme, c’è un fattore moltiplicativo di 1.1 a tutti i risultati dell’era Open.

Al punteggio finale si aggiunge anche uno 0.3 per ogni vittoria su un top 10, 0.2 per una vittoria contro i giocatori dall’11 al 25, 0.1 punti per ogni vittoria contro giocatori dal 26 al 100.

Head-to-Head

Per complicare ancora di più l’algoritmo si dà un certo peso agli H2H. Contano solo quelli contro i giocatori che sono stati nella top 10. Viene dato 1 punto per ogni H2H positivo, 0.5 per quelli in parità, 0 per quelli in negativo. Questi numeri additivi vengono divisi per il numero totale degli H2H presi in considerazione. Gli H2H devono avere un numero minimo di 3 partite. Una volta trovata questa percentuale chiamata CocH2H i punti assegnati dall’algoritmo seguono questa formula:

Points H2H=CocH2H*CocH2H*250

Bonus ranking

In base al ranking raggiunto in una settimana, a fine anno, a fine carriera si assegna un bonus aggiuntivo (ranking TB, non ATP)

  • Per il 1° all time: 35 punti

Per il ranking a fine stagione

Dal 1877 al  1914: Numero 1: 12 punti. Numero 2: 6 punti. Numero 3: 3 punti.
Dal 1915 al  1918: Numero 1: 6 punti. Numero 2: 3 punti. Numero 3: 1,5 punti.
Dal 1919 al  1939: Numero 1: 14 punti. Numero 2: 7 punti. Numero 3: 3,5 punti.
Dal 1940 al  1945: Numero 1: 10 punti. Numero 2: 5 punti. Numero 3: 2,5 punti.
Dal 1946 al  1968: Numero 1: 16 punti. Numero 2: 8 punti. Numero 3: 4 punti.
Dal 1969 – oggi: Numero 1: 20 punti. Numero 2: 10 punti. Numero 3: 5 punti.

  • Per ogni settimana al numero 1

Dal 1877 al 1914: 0.48 punti.

Dal 1915 al 1918: 0.24 punti.

Dal 1919 al 1939: 0.56 punti.

Dal 1940 al 1945: 0.40 punti.

Dal 1946 al 1968: 0.64 punti.

Dal 1969 in poi: 0.80 punti.

  • Per ogni settimana in top 5

Dal 1877 al 1914: 0.06 punti

Dal 1915 al 1918: 0.03 punti

Dal 1919 al 1939: 0.07 punti

Dal 1940 al 1945: 0.05 punti

Dal 1946 al 1968:  0.08 punti

Dal 1969 in poi:  0.10 punti

Max performance

Si cerca anche di premiare la max performance, leggasi “dominio” di un tennista nel corso di 52 settimane.  Questo viene quantificato con una ratio MP uguale a:

CoefMP=Maximum score/20000, dove il Maximum score è il punteggio massimo raggiungibile da un tennista

Normalizzata poi con la seguente formula:

Points MP=CoefMP*CoefMP*150

Il Grande Slam

Chi realizza il Grande Slam viene premiato con un bonus aggiuntivo. Il Grande Slam può essere di 2 specie, quello “classico” e quello pro. A sua volta ci sono 3 sottospecie di Grande Slam. Vittoria di tutti i tornei in un anno solare (A), 4 Slam consecutivi (B), il Career Grand Slam (C). I punteggi assegnati ad ognuna di queste evenienze sono:

  • Grand Slam traditional A: 30 points
  • Grand Slam traditional B: 25 points
  • Grand Slam traditional C: 20 points
  • Grand Slam PRO A: 25 points
  • Grand Slam PRO B: 20 points
  • Grand Slam PRO C: 15 points

I record

C’è un ulteriore bonus per chi fa segnare un record particolare, come vincere i 4 tornei dello Slam + Masters + Davis Cup. Ogni torneo ha un valore che il giocatore aggiunge al totale se vince il torneo (detta così non vuol dire nulla, è una traduzione letterale, in pratica significa che la vittoria di un nuovo torneo che mancava al palmarés viene premiata in base al valore che gli viene attribuito dall’ATP) . Il coefficiente P è ottenuto secondo questa formula:

CoefP= Number of points obtained/maximum possible points

Da cui la formula normalizzata

Track records points= CoefP*CoefP*250

Il numero definitivo

Dalla somma dei punti di 7 categorie: tornei pesati, vittorie totali pesate,  H2h, ranking, max performance, Grand Slam bonus e track record si ottiene un numero che è quello che caratterizza la carriera di un tennista.

Conclusione

Questo è un articolo descrittivo che traduce in italiano e in maniera più semplice e con qualche spiegazione quanto riportato qui. E’ solo uno punto di partenza per una discussione molto, ma molto lunga che però già da questo materiale ci dà molti spunti di riflessione.