test alt text

Questo articolo, scritto da Derek Reifer e Duncan Holmes per Corner Three e tradotto in italiano da Pietro Campagna per Around the Game, è stato pubblicato in data 15 marzo 2020.


La NBA sta trasformando il basket in uno sport senza posizioni.


Con il passare degli anni sempre più squadre hanno iniziato a schierare quintetti senza centri e a utilizzare dei lunghi capaci sia di difendere il pitturato che di impostare l’attacco con il ruolo di facilitatori. I giocatori non vengono più inquadrati con le tradizionali etichette di “ala grande” o “guardia tiratrice”, ora si parla semplicemente di “ali” o “lunghi”.

Abbiamo deciso di visualizzare questo enorme cambiamento usando dati statistici per confrontare la NBA di oggi con quella degli Anni ’80. Tramite l’analisi di questi dati siamo riusciti a vedere come le caratteristiche dei giocatori appartenenti a una certa posizione siano cambiate nel tempo, rendendo palesi i cambiamenti avvenuti nel modo di giocare nella Lega.

NB: Se non si è interessati alla metodologia di preparazione e analisi dei dati, passare direttamente al paragrafo 4, “Risultati”.

1. PREPARAZIONE DEI DATI

I dati che abbiamo utilizzato sono stati presi da Basketball Reference, e sono divisi in due sezioni: giocatori NBA dal 1981 al 1990 e giocatori NBA dal 2011 al 2020. Abbiamo usato le singole voci di boxscore come variabili distinte: punti, assist, rimbalzi difensivi e offensivi, palle rubate, palle perse, falli e stoppate. Tutte queste statistiche sono tarate su 100 possessi (abbiamo scelto di usare i dati su 100 possessi per avere un confronto più preciso possibile, in quanto i dati per partita o per minuti di gioco interferirebbero col modello, visto che negli ultimi anni il ritmo del gioco è molto aumentato).

Abbiamo considerato, poi, anche qualche statistica legata alle percentuali di tiro: percentuale di tiri dal campo, da tre punti, da due punti e ai liberi.

Per filtrare le statistiche abbiamo anche usato delle statistiche non comprese nel boxscore, come partite e minuti giocati. Ci siamo assicurati, infine, di avere nome del giocatore e posizione occupata nella stagione, così da poter individuare singoli punti nei grafici.

Prima di cominciare l’analisi abbiamo dovuto puntualizzare il dataset e prepararlo per il modello. Abbiamo per prima cosa fatto in modo che ogni giocatore fosse identificabile per ogni stagione disputata (ad esempio LeBron James compare 10 volte diverse nel grafico relativo alla decade 2010-20). Poi abbiamo controllato se ci fossero eventuali dati mancanti, scoprendo che non ce n’erano. In ultima analisi abbiamo standardizzato i dati in modo tale che nessuna statistica influenzasse eccessivamente il modello, cosa fondamentale per il tipo di analisi multidimensionale che abbiamo costruito, ritenendolo il miglior approccio per rispondere al nostro quesito iniziale.

2. ANALISI DEI DATI

Con un primo sguardo ai dati abbiamo visto come negli anni ’10 c’erano più valori disponibili per la variabile della posizione occupata rispetto agli anni ’80. Questo era già un primo indicatore del fatto che la nostra analisi stesse andando nella direzione corretta, cioè che negli ultimi anni si sta abbandonando l’idea di un basket a 5 posizioni fisse.

In ogni caso abbiamo dovuto assegnare i giocatori con una posizione ibrida o senza posizione a una delle categorie tradizionali, così da avere una costanza di opzioni in termini di posizione occupata. Il criterio che abbiamo scelto per mantenere una comparazione precisa tra le decadi è stato quello di mantenere la posizione “minore” tra le due, ad esempio un “ala grande/centro” è stato considerato ala grande.

Basandoci sull’istogramma delle partite giocate qua sopra rappresentato, abbiamo pensato di tagliare la parte di dati relativi a giocatori con meno di 20 partite, poiché abbiamo ritenuto che non fossero sufficientemente rappresentativi.

Questi dati però hanno dato un interessante notizia sul fatto che mediamente negli anni ’80 i giocatori giocavano molte più partite durante la stagione. Il gioco è cambiato anche in questo aspetto, con il load management che ha rivoluzionato il modo in cui allenatori e staff gestiscono i propri giocatori.

L’istogramma dei minuti giocati invece ha una distribuzione simmetrica e quasi normale dagli 0 ai 40 minuti giocati per partita. Quindi la nostra idea iniziale di non considerare i giocatori con meno di 20 minuti a partita avrebbe eliminato gran parte dei dati, e sarebbe potuta essere fuorviante. In ogni caso, considerando la natura del dataset, crediamo che i valori rimossi rappresentino giocatori che escono dalla panchina e non sono particolarmente rappresentativi nei termini che stiamo considerando, e quindi distorcerebbero l’analisi. Molti di questi giocatori per altro non hanno sufficienti statistiche nel boxscore per essere considerati significativi. Inoltre considerando i dati su 100 possessi e la normalizzazione dei dati per l’analisi con scaling multidimensionale, includere dati da campioni molto piccoli potrebbe erodere la robustezza dello studio.

Togliendo i giocatori con meno di 20 partite e quelli con meno di 20 minuti a gara, siamo rimasti con un dataset decisamente più ampio per la decade che comincia nel 2010, come previsto dal primo istogramma rappresentato. Nonostante le differenze entrambi i dataset sono ragionevolmente vicini a 2000 punti-dato l’uno.

3. METODO DI ANALISI

Dopo aver standardizzato e filtrato i dati raccolti come precedentemente spiegato, abbiamo cominciato la nostra analisi con la tecnica dello scaling multidimensionale. Usando le funzioni del programma statistico R siamo riusciti a calcolare la distanza euclidea tra i giocatori in base alle statistiche di boxscore scelte.

Il tipo di analisi che abbiamo usato ci consente di trasformare la matrice che contiene tutte le distanze in un grafico a punti, la cui distanza è proporzionale alla distanza euclidea calcolata. In questo modo possiamo vedere quanto sono simili o dissimili i giocatori tra di loro, e studiare come queste somiglianze nell’insieme cambiano, o non cambiano, nel tempo.

Ci sono altri metodi di analisi altrettanto validi, ma noi abbiamo scelto lo scaling multidimensionale per due principali ragioni: la prima è la sua facilità di utilizzo con lo strumento R, la seconda è che riteniamo che le distanze tra punti siano un metodo intuitivo per comprendere le differenze.

4. RISULTATI

Ora arriviamo ai risultati.

Sotto sono presentati i grafici iniziali, con ogni numero-punto a rappresentare una stagione di un giocatore. Va sottolineato che i valori sugli assi non sono significativi per lo studio e non rappresentano valori “reali”.

Chiaramente non si può estrapolare molto da quanto visto qua sopra, ma usando la funzione ggplot2 di R possiamo separare i punti per posizione, una distinzione che ci aiuta a inziare a dare un senso ai grafici.

È ancora tutto piuttosto confuso, ma se guardiamo con attenzione possiamo iniziare a riconoscere qualche informazione interessante.

Notate come negli Anni ’80 i punti dello stesso colore (e quindi giocatori della stessa posizione) tendono a stare vicini in gruppi uniformi, mentre negli ultimi 10 anni c’è una tendenza a “mischiarsi” tra i ruoli. Sembra che nel grafico a sinistra qualcuno abbia colorato stando attento a stare dentro le righe, mentre in quello a destra i colori si sono mischiati un po’ ovunque. Questo inizia ad essere un buon indizio del fatto che le somiglianze tra i punti non sono più legate alla posizione, come invece erano nel passato.

Per scavare più a fondo possiamo rappresentare un grafico che evidenzia posizioni specifiche. Prima osserviamo le posizioni teoricamente più diverse del gioco, centro e point guard:

Queste due posizioni sono l’esempio estremo: è difficile essere più diversi di così nel basket. Infatti i punti sono piuttosto nettamente divisi in entrambe le decadi.

Si può notare,però, come nel grafico a sinistra non ci sia sovrapposizione in alcun modo, mentre nel grafico sulla destra c’è qualche punto che si mischia nell’area di competenza dell’altra posizione. Una nota che si allontana un po’ dal nostro studio principale è legata al fatto che i dati relativi ai centri sono decisamente più addensati in entrambe le decadi, cosa che dimostra come le point guard siano più “versatili” in termini di statistiche di boxscore.

Abbiamo individuato due casi molto particolari nel 2020, ovvero Ben Simmons (PG) e Nikola Jokic (C), i cui punti sono messi in evidenza nel seguente grafico:

Passiamo ora, invece, a ruoli leggermente meno “distanti” rispetto a centri e point guard. E notiamo che le differenze si fanno meno marcate tra le decadi, se confrontiamo guardie e ali.

Negli Anni ’80 vediamo come ci siano diversi punti che si mischiano nella parte prevalentemente occupata dall’altra posizione, mentre nell’ultimo decennio possiamo vedere che buona parte dei dati delle due posizioni sono addirittura sovrapposti, cosa che dà chiara evidenza del fatto che le differenze tra i ruoli sono andate verso un assottigliamento:

Nel nostro caso abbiamo preso in considerazione, ad esempio, Andre Roberson (SG), Davis Bertans (PF) e Blake Griffin (PF):

Analizzando posizioni più simili (SG e SF), ovviamente, si ottengono grafici dai punti più sovrapposti. Il grafico sotto mostra la più forte transizione da un basket basato sulle posizioni a un basket positionless:

Per gli Anni ’80 i dati si sovrappongono significativamente, ma restano visibilmente distinti, mentre per gli Anni ’10 è quasi impossibile distinguere tra guardie e ali piccole.

A questo punto l’osservatore potrebbe davvero non riuscire a distinguere in che posizione giocava un certo giocatore. Qua sotto è riportato un grafico per dare risalto a due casi, Paul George (SG) e Wes Matthews (SF):

Infine, abbiamo evidenziato delle osservazioni sui giocatori selezionati per i quintetti All-NBA di ogni anno.

La selezione dei quintetti non è fatta in base ad alcun tipo di requisito di efficienza o contributo (a indicare che i giocatori migliori non necessariamente si raggruppano per statistiche di boxscore).

Ecco il grafico relativo alle due decadi in questione:

È abbastanza facile verificare tramite l’analisi visiva dei grafici quello che sta succedendo, ma abbiamo pensato che fosse più prudente verificare una chiara differenza nei box statistici tra le due decadi studiate.

Qua sotto, dunque, trovate una tabella che confronta la distanza euclidea media tra le posizioni, rappresentate nei grafici precedenti. Senza sorprese la distanza è minore negli ultimi dieci anni in tutti e quattro i confronti tra posizioni:

5. CONCLUSIONI

Il modello si è dimostrato efficiente e ha fornito prove solide per sostenere la nostra tesi iniziale.

I dati hanno mostrato una forte separazione delle statistiche relative a un ruolo rispetto agli altri negli Anni ’80, mentre negli Anni ’10 hanno mostrato una separazione meno netta. Abbiamo controllato il modello calcolando le differenze risultanti dai grafici, ottenendo una validazione matematica, e anche sfruttando le nostre conoscenze del basket durante questi due periodi. Avere una chiara idea del contesto, ovviamente, è necessario, se si vuole svolgere un’analisi di questo tipo.

Non c’è molto da raccomandare per studi successivi, vista la capacità del modello qui presentato. In ogni caso, l’utilità di questi studi potrebbe sviluppare analisi sulle prossime decadi di come si evolve il gioco, magari passando anche a un’analisi anno per anno. Questo studio, inoltre, potrebbe essere sfruttato per analisi di altre questioni, ad esempio di come un basket senza posizioni possa influire sul successo di una squadra.

Durante lo sviluppo di questo modello si sono apprese molte cose non solo sul basket, ma anche sull’analisi tramite scaling multidimensionale e sulla preparazione corretta dei dati. Per prima cosa abbiamo imparato come sfruttare la nostra comprensione dei dati per poterli correttamente inserire, filtrandoli quando necessario, nel modello. Basandoci solo sugli istogrammi non avremmo rimosso i giocatori con meno di 20 minuti giocati a partita, ma sapendo come vengono utilizzati i giocatori che escono dalla panchina nella NBA abbiamo deciso che sarebbero stati distorsivi e irrilevanti ai fini dell’analisi. Abbiamo anche capito il potenziale dell’analisi con scaling multidimensionale, che tramite l’utilizzo di colori diversi per posizione ci ha reso evidente il significato di questo tipo di analisi in un contesto reale. In fine abbiamo imparato molto sulla validazione del modello, dovendo formalizzare i risultati a cui eravamo arrivati tramite analisi grafica.

Questo studio ci ha permesso di usare quanto teoricamente appreso in aula per un tema che a entrambi sta molto a cuore, la NBA.