| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 1.23 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
This study examines whether publicly available college basketball statistics can predict early NBA career outcomes, a period both formative for players and financially crucial for franchises under rookie-scale contracts. A dataset was assembled covering all drafted college players from 2002–2019, combining season-level college performance with subsequent NBA results. Because most prospects play multiple seasons before declaring for the draft, season-level predictions were systematically aggregated to the player level to reflect the actual unit of draft-day decision-making. Five outcome labels captured increasing levels of early-career success: surviving the rookie contract, securing rotation or starter roles, and surpassing minimum impact thresholds in Win Shares and Value Over Replacement Player. An end-to-end pipeline embedded preprocessing, grouped cross-validation, and fold-safe aggregation, ensuring reproducibility and preventing information leakage. Regularized linear models served as baselines, while Random Forests and Gradient Boosted Trees benchmarked non-linear performance. The results show that college box-score data contains predictive signal, though modest in strength for most labels. Tree-based methods outperformed linear models: Random Forests were strongest for durability-oriented outcomes such as rotation roles and four-year survival, while boosting captured rarer ceiling outcomes like starters and high-impact contributors. Aggregation to the player level proved essential, with simple averaging often sufficient. Feature importance highlighted class year, games played, assists, and shooting efficiency as consistent though limited predictors. While box scores alone cannot identify future stars with high precision, they provide a systematic, reproducible baseline that helps reduce draft risk by flagging players most likely to contribute early.
Este estudo investiga se estatísticas públicas do basquetebol universitário podem prever os resultados iniciais de carreira na NBA, um período formativo para os jogadores e financeiramente crucial para as franquias devido aos contratos de rookie. Foi construído um conjunto de dados que abrange todos os jogadores universitários selecionados no draft entre 2002 e 2019, combinando desempenho por temporada na universidade com os resultados subsequentes na NBA. Como a maioria dos candidatos joga várias temporadas antes de se declarar para o draft, as previsões ao nível da temporada foram agregadas ao nível do jogador, refletindo a unidade real de decisão no dia do draft. Foram definidos cinco rótulos de sucesso inicial: sobrevivência ao contrato de rookie, papéis de rotação ou de titular, e mínimos em métricas avançadas como Win Shares e Value Over Replacement Player. Um pipeline completo incluiu pré-processamento, validação cruzada agrupada e agregação sem fuga de informação, garantindo reprodutibilidade. Modelos lineares regularizados serviram como linha de base, enquanto Random Forests e Gradient Boosted Trees representaram abordagens não lineares. Os resultados mostram que as estatísticas universitárias contêm sinal preditivo, ainda que modesto. Métodos baseados em árvores superaram os lineares: Random Forests foram mais eficazes em resultados de durabilidade, enquanto métodos de boosting captaram melhor papéis de titular e impacto elevado. A agregação ao nível do jogador revelou-se essencial, muitas vezes bastando uma média simples. Embora estatísticas de box score não identifiquem futuros astros com alta precisão, fornecem uma base sistemática que ajuda a reduzir riscos de draft, sinalizando jogadores com maior probabilidade de contribuir cedo.
Este estudo investiga se estatísticas públicas do basquetebol universitário podem prever os resultados iniciais de carreira na NBA, um período formativo para os jogadores e financeiramente crucial para as franquias devido aos contratos de rookie. Foi construído um conjunto de dados que abrange todos os jogadores universitários selecionados no draft entre 2002 e 2019, combinando desempenho por temporada na universidade com os resultados subsequentes na NBA. Como a maioria dos candidatos joga várias temporadas antes de se declarar para o draft, as previsões ao nível da temporada foram agregadas ao nível do jogador, refletindo a unidade real de decisão no dia do draft. Foram definidos cinco rótulos de sucesso inicial: sobrevivência ao contrato de rookie, papéis de rotação ou de titular, e mínimos em métricas avançadas como Win Shares e Value Over Replacement Player. Um pipeline completo incluiu pré-processamento, validação cruzada agrupada e agregação sem fuga de informação, garantindo reprodutibilidade. Modelos lineares regularizados serviram como linha de base, enquanto Random Forests e Gradient Boosted Trees representaram abordagens não lineares. Os resultados mostram que as estatísticas universitárias contêm sinal preditivo, ainda que modesto. Métodos baseados em árvores superaram os lineares: Random Forests foram mais eficazes em resultados de durabilidade, enquanto métodos de boosting captaram melhor papéis de titular e impacto elevado. A agregação ao nível do jogador revelou-se essencial, muitas vezes bastando uma média simples. Embora estatísticas de box score não identifiquem futuros astros com alta precisão, fornecem uma base sistemática que ajuda a reduzir riscos de draft, sinalizando jogadores com maior probabilidade de contribuir cedo.
Description
Keywords
Agregação de jogadores Aprendizado de máquina College basketball statistics Draft da NBA Early career prediction Estatísticas do basquetebol universitário Gradient boosted trees Machine learning NBA draft Player aggregation Previsão de carreira inicial Random forests Sports analytics
Pedagogical Context
Citation
Publisher
CC License
Without CC licence
