Bill James es escribió un artículo en su página web, billjamesonline, hablando del WAR, la estadística principal de los últimos años en el mundo de las Sabermetrics. Nunca había sido un gran defensor/creyente de esta estadística, y aquí nos cuenta sus motivos, con la comparación que se hizo entre Judge y Altuve, dos jugadores con un WAR casi idéntico, pero siendo uno más efectivo que el otro.
Judge y Altuve, por Bill James
La suposición fundamental en la que se basan todos los análisis sabermétricos es que la importancia de cada logro estadístico depende de su conexión con las victorias y las derrotas. Era una creencia de los cronistas deportivos y profesionales del béisbol, en la era preanalítica, de que las estadísticas individuales de los jugadores podían descartarse porque tenían poco que ver con las victorias y las derrotas. La conexión entre las estadísticas de los jugadores individuales y las victorias y derrotas no fue bien entendida, en 1970, por ninguno de nosotros. En 1974, los Oakland Athletics tuvieron un Averagde de sólo .247, el segundo promedio más bajo en la Liga Americana, pero el equipo ganó la Serie Mundial y fue tercero de la liga en carreras anotadas. En ese momento, era fácil usar anomalías estadísticas como esa para descartar la importancia de las estadísticas de bateo individuales. Fijaros; Aquí hay un equipo que fue casi el peor equipo de la liga, pero ganaron la Serie Mundial. Las estadísticas de bateo no significan nada.
Sin un análisis estadístico válido, se podría razonar cualquier argumento. RBI es la estadística más importante del juego. La base robada es la clave de la ofensiva moderna. Los walks son jugadas del lanzador, no jugadas que hace el bateador. El toque de sacrificio es una gran jugada. Los pitchers pueden ser evaluados por registros de victorias y derrotas. Johnny Bench no es un gran catcher de todos los tiempos porque nunca bateó .300. Un argumento era tan bueno como otro.
Análisis moderno, sabermetrics, como quieran llamarlo. Superamos ese tipo de pensamiento al hacer dos suposiciones críticas: que cada logro estadístico adquiere su significado por su conexión con victorias y derrotas, y que cada estadística debe ser vista en el contexto de sus influencias externas. La suposición más crítica fue la primera, que cada estadística adquiere su importancia por su conexión con Victorias y Derrotas. Cuando nos estábamos mudando de la suposición primordial, ese fue el primer paso y el más crítico.

Llegamos, entonces, al momento presente, en el cual algunos de mis amigos y colegas desean argumentar que Aaron Judge está básicamente a la par con José Altuve, y que razonablemente podría haber sido el Jugador Más Valioso. No tiene sentido. Aaron Judge no fue tan valioso como José Altuve. ¿Por qué? Porque no hizo tanto para ganar partidos para su equipo como lo hizo Altuve para el suyo. NO está cerca. La creencia de que está cerca está alimentada por un mal análisis estadístico, no tan malo como el análisis estadístico de 1974, lo reconozco, pero, no obstante, defectuoso. Se basa esencialmente en una estadística engañosa, que es el WAR. Baseball-Reference WAR muestra que el pequeño tuvo 8.3, y el grande un 8.1. Pero en realidad, no está nada cerca de eso. No estoy diciendo que WAR sea una mala estadística o una estadística inútil, pero no es una estadística perfecta, y en este caso en particular es completamente errónea. Está totalmente equivocado porque los creadores de esa estadística han cortado la conexión entre las estadísticas de rendimiento y las victorias, lo que socava su análisis.
Mirad, hay una relación general entre carreras y victorias, una relación normal, y hay una relación específica, basada en este jugador específico y este equipo específico. Si evalúas a Altuve y a Judge por la relación general y normal de carreras y victorias, entonces parece que Judge está casi igualado con Altuve. Pero si los evalúa por la relación específica entre las carreras de Altuve y los Astros, y las carreras de Judge con los Yankees ganan, entonces Altuve se mueve hacia arriba y Judge se mueve hacia abajo, y se abre una brecha significativa –de hecho, Judge cae fuera del lugar # 2, cayendo detrás de Eric Hosmer de Kansas City.
La primera indicación de que hay un problema con la aplicación de la relación normal y general es esta: Los Yankees, por la relación normal y general, deberían haber ganado 102 juegos, cuando de hecho solo ganaron 91. Esa es una GRAN diferencia. Los Yankees jugaron mal en juegos de una carrera (18-26) y en otros juegos cerrados, por lo que no alcanzaron sus victorias esperadas. Me estoy adelantando a mi argumento al hacer esta declaración ahora, pero no está bien dar crédito a los jugadores de los Yankees por ganar 102 juegos cuando de hecho sólo ganaron 91 juegos. Dar a los jugadores de los Yankees crédito por ganar 102 juegos cuando de hecho solo ganaron 91 juegos es lo que llamaríamos un “error”. No es una “opción”. Es un error
Cuando expresas las carreras de Aaron Judge. . . sus contribuciones a las carreras. . . cuando expresas sus carreras como un número de victorias, debes ajustar el hecho de que solo hay 91 victorias, cuando debería haber 102. (Los Astros deberían haber ganado 101 juegos, y si ganaron 101 juegos, entonces este no es un problema que vaya con Jose Altuve.) Pero volviendo a los Yankees, una forma de hacerlo es decir que las contribuciones de los Yankees para ganar, en lugar de tener permitido sumar 102, deben sumar 91. Esa es una buena manera de hacerlo, y, por supuesto, si lo hace, reduce la contribución de victoria de Judge en un 11% usando el WAR, reduce su contribución ganadora en MÁS DEL 11%, porque el nivel de reemplazo permanece igual mientras disminuye su contribución a las victorias, por lo que las victorias ABOVE THE REPLACEMENT LEVEL se reducen en un 16%. Judge desciende su WAR de 8.1 a 6.8.
El problema potencial con este enfoque es que, da a cada uno de los jugadores de los Yankees una parte de responsabilidad en la escasez de victorias esperadas, según la proporción de carreras creadas. Podría ser que no fuera Judge el responsable de este déficit, sino Jacoby Ellsbury o Gary Sanchez o Chase Headley.
Pero cuando nos fijamos en los datos situacionales de Aaron Judge, rápidamente se hace evidente que Judge no solo es responsable proporcional del bajo rendimiento de los Yankees en juegos cerrados, sino que es más que proporcionalmente responsable. Él es desproporcionadamente responsable del bajo rendimiento de los Yankees en partidos cerrados. Y, aunque las estadísticas situacionales de Judge varían de pobres a terribles, las de Altuve varían de sólidas a sensacionales:
Con corredores en posición de anotación, Judge bateó .262, 22 puntos menos que su promedio general.
Judge golpeó ligeramente mejor con las bases vacías que con los corredores en la base, su OPS fue 90 puntos más alto con las bases vacías. El OPS de Altuve fue 1 punto más alto con los jugadores embasados que con las bases vacías.
En las últimas entradas de juegos cerrados (100 apariciones en el plato), Judge bateó .216 con .780 OPS. Pero cuando los Yankees tenían 4 o más carreras por delante o 4 o más carreras por detrás (112 apariciones en el plato), bateó .382 con un OPS de 1.500.

En las últimas entradas de juegos cerrados, José Altuve bateó .441 con 1.190 OPS. Cuando los Astros tenían 4 o más carreras por delante o 4 o más carreras por detrás, Altuve bateó .313 con .942 OPS.
En lo que Baseball Reference identifica como situaciones de “alto apalancamiento (High Leverage)”, Judge bateó .219 con .861 OPS. En situaciones de apalancamiento medio, mejoró a .297 con 1.058 OPS, y en situaciones de bajo apalancamiento alcanzó .299 con un OPS de 1.115. Altuve bateó .337-.377-.329 en esas tres situaciones.
Por lo tanto, no hay ninguna duda de que Judge fue más que proporcionalmente responsable en los resultados de los Yankees en partidos cerrados. Al descontar su rendimiento en solo un 11%, un 16% en relación con el nivel de reemplazo, en realidad todavía lo estamos sobrevalorando.
Llegamos, entonces, a la pregunta clave en este debate: ¿es apropiado, el asignar el crédito individual para las victorias, hacerlo en base a la relación habitual y normal de carreras a victorias, o en función de la relación real y específica para este jugador y este equipo?
He guardado silencio sobre este tema durante más de 20 años, y permítanme explicar por qué. En la década de 1990 desarrollé Win Shares, mientras que los analistas más jóvenes desarrollaron WAR. En ese momento, era mi política no discutir con analistas más jóvenes. Era mucho más conocido, en ese momento, que ellos, y esa es una calle de sentido único. Cuando estás en la cima de una profesión, no hablas mal de los que vienen detrás de ti. Es mezquino, y simplemente no debe hacerse. Algunas de esas personas me “dispararon” y otras no, pero bueno, es una calle de sentido único. Tengo el mío; no están subiendo la escalera detrás de mí.
Pero eso fue hace mucho tiempo. Ya no estamos allí. WAR no es una estadística advenediza; es la estadística dominante. Podemos debatir sus méritos de igual a igual.
La lógica para aplicar la relación normal y habitual es que las desviaciones de la relación normal y habitual se deben atribuir a la suerte. No existe la “capacidad” de golpear mejor cuando el juego se está jugando, dice el argumento; es solo suerte. No es una habilidad real.
Pero, he mantenido la paz en esto durante 20 años. El argumento está completamente equivocado. Hay cuatro razones por las cuales está mal.
Primero, de hecho, no “sabemos” si existe o no la capacidad de golpear mejor o peor en una situación clave. Sabemos que la mayoría de las desviaciones del rendimiento normal en situaciones de “clutch” son el resultado de la suerte, en lugar de la capacidad, y no podemos probar que esas desviaciones no se deban al azar al 100%, pero no podemos probar que se deban el 100%. al azar. Los datos se verían muy parecidos a como lo hace si esas desviaciones fueran al 100% por casualidad o si fueran al 70% por casualidad. De hecho, no sabemos cuál es.
Reconozco que, en los años setenta y ochenta, la sabermetrics llegó a un consenso sobre este tema, y reconozco que formé parte de ese consenso. Pero estábamos equivocados. Deberíamos haber permanecido agnósticos sobre el tema hasta que se hubiera realizado un análisis más convincente.
Segundo, no importa si es suerte o habilidad. Tom Tango ofrece esta analogía: supongamos que compras un número de lotería de $ 2 para tener la oportunidad de ganar $ 3 millones. Después de que se ha sorteado la lotería, el boleto de lotería ya no vale $ 2. Vale $ 3 millones, o no vale nada.
Las personas que usan WAR de esta manera, en esencia, fingen que el boleto de $ 3 millones y el boleto de $ 2 tienen el mismo valor, aunque la lotería se ha sorteado. Hay un elemento de “lotería” en el béisbol, sí, un elemento de suerte, pero no podemos ignorar eso. Es parte del juego.
En tercer lugar, hay elementos de “suerte” en todas las estadísticas. No puedes ajustarlos fuera de la realidad; es imposible. Un jugador batea .270 un año y .330 al siguiente, y él es el mismo bateador un año y el otro, es sólo suerte. ¿Vas a ajustar esa diferencia fuera de sus valores, porque sabes que es sólo suerte? Un jugador golpea 32 Home Runs un año, 25 al siguiente; es sólo suerte ¿Vas a ajustar eso fuera de la realidad, porque no puedes probar que no es sólo suerte?
Un jugador consigue 60 Walks un año; el próximo año, debido a que su equipo se enfrenta a más lanzadores que tienen un control deficiente y tiene diferentes árbitros detrás del plato, consigue 90 bases por bolas. Es sólo suerte. ¿Vas a ajustar las estadísticas para eliminar esa suerte?
Eso es poca suerte, pero ¿qué hay de la GRAN suerte? Un jugador es un pasajero en un automóvil durante el Sprint Training, tiene un accidente automovilístico y se pierde la primera mitad de la temporada, o tal vez el resto de su carrera. Es sólo suerte ¿Vas a ajustar esa suerte a la realidad?
La realidad es la línea de base para el análisis estadístico; no lo que debería haber sido la realidad, sino lo que realmente es. No hay otra manera de hacer que el análisis estadístico funcione. No tiene sentido ignorar selectivamente este elemento de suerte, después de haber aceptado todos los demás elementos.
Y, en cuarto y último lugar, la conexión entre triunfos y otros logros estadísticos es la base del análisis estadístico. Cuando se corta la conexión entre victorias y estadísticas, ya no se está haciendo un análisis estadístico. Lo que estás haciendo entonces es lo mismo que hizo Maury Allen cuando dijo que Johnny Bench no era uno de los mejores jugadores de la historia, porque nunca bateó .300. Está seleccionando y eligiendo a qué estadísticas prestará atención y las que ignorará, basándose no en su conexión con victorias y derrotas, sino en función de sus propios prejuicios. Cuando lo haces, ya no es un análisis estadístico válido.
Lo curioso es que estos analistas son fieles al principio de que el valor de cada logro estadístico se basa en su relación con los triunfos a lo largo de su proceso, sólo para dejarlo caer cuando llegan a la línea de meta. Si retrocede en la lógica de su sistema, puede verse que basan el valor de un doble o un Walk o una base robada en su relación con los triunfos. Hacen ajustes según el estadio, por ejemplo, que son exactamente de la misma naturaleza; son variaciones en la relación carreras-triunfos. Si un jugador crea 110 carreras, pero en un Estadio de Bateadores y otro jugador 105 en un estadio de Pitcher, reconocen que el jugador de 105 carreras tiene más valor. ¿Por qué? Debido a que 105 carreras en el estadio de un lanzador ganarán más juegos que el de 110 carreras en el estadio de un bateador. No hay otra razón para hacer ese ajuste.
Un equipo anota 700 carreras en 1965 y otro equipo anota 720 carreras en 1975, estarán de acuerdo en que el equipo que anota 700 carreras en 1965 tiene la mejor ofensiva. ¿Por qué? Porque 700 carreras en 1965 tienen más impacto en el número de victorias que 720 carreras en 1975.
Pero si un equipo realmente gana 80 juegos cuando podrían haber ganado 90… Bueno, queríamos que ganaran 90. No tiene sentido.
Hay un argumento más que tenemos que tratar aquí. Supongamos, por el bien del argumento, que esta “desviación en el número de carreras” se debe primordial o totalmente a la suerte, y en particular veamos la comparación entre Eric Hosmer y Aaron Judge. Judge creó más carreras que Hosmer, con menos outs, pero Hosmer tuvo más impacto en los triunfos porque su equipo fue más eficiente en cuanto a las victorias en función de las carreras que anotaron y permitieron. Supongamos que es sólo suerte. ¿Preferirías tener a Aaron Judge el próximo año o Eric Hosmer?
Preferirías tener a Aaron Judge, obviamente, y de hecho lo haría; Prefiero tener Aaron Judge el próximo año que Eric Hosmer. Es perfectamente razonable crear estimaciones del valor proyectado en las temporadas futuras, que se basan en la relación habitual y normal entre carreras y victorias.
Pero supongamos que tienes un jugador de 21 años que estuvo en la Liga Internacional este año, Triple-A, y supongamos que en la Liga Internacional publicó este récord de bateo:
G AB R H 2B 3B HR RBI BB SO HBP GDP AVG OBP SLG
142 529 273 340 31 1 182 423 108 50 7 2 .643 .702 1.737
Lo que es curioso son las estadísticas de bateo de Harmon Killebrew en los 142 mejores juegos de la carrera de Killebrew. . .no 142 juegos consecutivos, obviamente, pero los mejores juegos de su larga carrera. Pero supongamos que tienes un jugador en AAA que hizo eso.
Ese jugador, mirando hacia adelante, sería la propiedad más valiosa en el béisbol, ¿no es así? Él superaría incluso al gran Shohei Otani, en eso creo que estarás de acuerdo.
Él sería la propiedad más valiosa en el béisbol en el futuro, pero ¿eso lo convertiría en el Jugador Más Valioso de la Liga Americana este año?
Bueno, por supuesto que no. Lo que razonablemente se espera que haga un jugador en el futuro no tiene nada que ver con su valor en una temporada que ya está en el pasado. Lo que crea valor para un jugador de béisbol es ganar juegos. No puedes descartar ese principio y tener un análisis válido.
El artículo original de Bill James