Datos MLB

B

Buzjss

Invitado
Hola a todos,

Este es mi primer mensaje en el foro, al que he llegado por casualidad buscando Pitagoras y la MLB, que es el título del post que he colocado en mi blog. No sabia que hubiese un foro en español relacionado con sabermetrics... de lo cual me alegro infinito :D

Para comenzar diré que soy bastante nuevo en temas de la MLB pero llevo ya un par de años intentando establecer un sistema de predicción de resultados. El problema principal que tengo es la recopilación y tratamiento de los datos. Hasta ahora utilizo las printsheets que ponen los de cover en sus páginas y me gustaría saber si sabeis alguna página que tenga algo parecido a esto:



Es un listado de partidos con las variables de los pitchers y equipos antes del partido y el resultado final del mismo. Ahora me lo hago yo semi-automáticamente en excel, pero si hay algo que se le pueda asemejar ya hecho me sería de gran ayuda.

Un saludo y gracias por adelantado a todos.
 
B

Buzjss

Invitado
RoRRo dijo:
hola, ni idea lo que necesitas, porque no se puede ver la imagen. sin embargo, te recomiendo que le des un vistazo a retrosheet.org
Hola RoRRo, ya tenía la página, pero lo que busco es algo más parecido a esto:

http://espndeportes.espn.go.com/mlb/deportes/probables

Pero que tenga un histórico, con los resultados de los partidos. En esta página solo tienen datos de partidos por disputar, no he encontrado lo mismo con partidos ya acabados.
 

datobinario

Administrador
Buzz, si pudieras explicar mejor el Objetivo de tu ejercicio, yo siempre estoy interesado en estas cosas y se un poco de programación, también se donde se puede conseguir información descargable como Calendarios y Estadísticas y También soy usuario casi-avanzado de Ecxel... y también hablo esperanto, Frances, Ingles... no, no, ese es el RoRRo que es Poliglota.
Hablando en Serio, quisiera saber cual es tu Objetivo para saber si puedo Ayudarte, y también sera bueno que publiques en este Hilo la Dirección de tu Blog.
 
B

Buzjss

Invitado
Hola Datobinario, gracias por tu respuesta. La idea es obtener un conjunto de variables o parámetros pre-partido que nos permitan establecer una estrategia de predicción de resultados. Aquí os dejo la idea inicial:

http://buzjss.blogspot.com/2008/07/reto-mlb.html

Comencé con redes neuronales y después he ido modificando un poco el sistema utilizando técnicas estadisticas multivariantes, el resultado del reto es este:

http://retosbuzjss.blogspot.com/2009/09 ... -2009.html

El año pasado no lo hice por falta de tiempo, porque me resulta muy complicado la recopilación y el análisis de datos dia a dia, por eso necesitaría alguna página que me permitiese recopilar datos pre-partido pasados.

No quiero extenderme mucho más, pero si quieres más info solo tienes que pedirla.
 

alberto silva

Administrador
Miembro del equipo
Usuario más activo del mes
Buzjss dijo:
Hola Datobinario, gracias por tu respuesta. La idea es obtener un conjunto de variables o parámetros pre-partido que nos permitan establecer una estrategia de predicción de resultados. ... Comencé con redes neuronales y después he ido modificando un poco el sistema utilizando técnicas estadisticas multivariantes ....El año pasado no lo hice por falta de tiempo, porque me resulta muy complicado la recopilación y el análisis de datos dia a dia, por eso necesitaría alguna página que me permitiese recopilar datos pre-partido pasados.
Buzjss:

Me parece interesante la idea y es algo que no hemos trabajado en este foro. Sin embargo, veo que los resultados iniciales no fueron tan buenos y además te da mucho trabajo. Supongo que debes tratar de simplificar el método y mejorar la eficacia, lo que pueden ser objetivos contrapuestos. No queremos que reveles todos los detalles de tu método, pero sería interesante por lo menos ver las variables que estás tomando en cuenta
 

alberto silva

Administrador
Miembro del equipo
Usuario más activo del mes
Entre las principales variables que supongo pueden tomarse en cuenta para predecir el resultado de un juego están:

• Resultados previos generales de los encuentros entre ambos equipos
• Resultados previos de encuentros entre ambos equipos en los que se dieron los mismos roles de visitante/ home club
• Resultados previos de los equipos utilizando los mismos pitchers
• Porcentaje general de juegos ganados de cada equipo
• Porcentaje general de juegos ganados de cada pitcher
• Porcentaje de juegos ganados de cada equipo en los últimos 10 juegos

Un principio general de sabermetrics es que se debe confiar más en las muestras de mayor tamaño. De las variables anteriores, la muestra de mayor tamaño es el porcentaje general de juegos ganados de cada equipo. Supongamos, para simplificar, que tomamos en cuenta sólo esa variable y tratamos de predecir los resultados de un día determinado, digamos el domingo pasado (19 de junio de 2011). Veamos como se hubiese comportado esa predicción:

Pittsburgh- Cleveland. Predicción: Cleveland. Ganador: Cleveland
Angels- Mets. Predicción: Empate. Resultado: Angels
Milwaukee- Boston. Predicción: Boston. Ganador: Boston
Toronto- Cincinatti. Predicción: Cincinatti. Ganador: Cincinatti
Florida- Tampa. Predicción: Tampa. Ganador: Tampa
Baltimore- Washington. Predicción: Washington. Ganador: Baltimore
San Diego- Minnesota. Predicción: Minnesota. Ganador: Minnesota
Texas- Atlanta. Predicción: Atlanta. Ganador: Atlanta
San Francisco- Oakland. Predicción: San Francisco. Ganador: Oakland
Kansas City- San Luis. Predicción: San Luis. Ganador: San Luis
Philadelphia- Seattle. Predicción: Philadelphia. Ganador: Seattle
Detroit- Colorado. Predicción: Detroit. Ganador: Detroit
Medias Blancas- Arizona. Predicción: Arizona. Ganador: Medias Blancas
Yankees- Cachorros. Predicción: Yankees. Ganador: Yankees
Houston- Dodgers. Predicción: Dodgers. Ganador: Dodgers

El porcentaje de acierto utilizando el criterio propuesto fue de 71 %. Un porcentaje altísimo, sobre todo si se considera que se trataba de juegos inter-ligas. Por supuesto, habría que repetir este ejercicio muchas veces más para llegar a una conclusión más sólida, pero parece que se puede proponer que el resultado de un partido está determinado en gran medida por el porcentaje de juegos ganados que tenga cada equipo
 

RoRRo

Administrador
Miembro del equipo
Buzjss dijo:
Comencé con redes neuronales y después he ido modificando un poco el sistema utilizando técnicas estadisticas multivariantes
Me parece que te resultaría interesante conversar con Julio Rojas, un (poco activo) miembro de este foro que ha hecho ya varias cosas en línea con esto que tú estás trabajando (de hecho, la tesis de su doctorado tiene matices de este tema)

Aparte de su cuenta @jcredberry y de esta página, no tengo ahorita como contactarle, pero escríbele por twitter a ver si conversan
 
B

Buzjss

Invitado
alberto silva dijo:
los resultados iniciales no fueron tan buenos y además te da mucho trabajo. Supongo que debes tratar de simplificar el método y mejorar la eficacia, lo que pueden ser objetivos contrapuestos. No queremos que reveles todos los detalles de tu método, pero sería interesante por lo menos ver las variables que estás tomando en cuenta
Hola Alberto, gracias por contestar. Como bien dices los resultados iniciales no eran demasiado alentadores, pero con la modificación del sistema pudimos acabar el reto en positivo, además si tomamos solo los datos del nuevo sistema los resultados fueron espectaculares, con porcentajes de aciertos bastante elevados y unos Yield de escándalo.

Las variables que utilizo en el sistema son las que aparecen en las prinsheets de covers. Es decir, ratios de partidos ganados / perdidos de toda la temporada, últimos 5 partidos y en mismas condiciones (por pitcher), Eras, WHIP, y Cuotas del partido.

Tome estas básicamente porque era la información mejor y más fácil de procesar que había encontrado. Es probable que hayan otros factores que mejoren los resultados, pero me resultaban más dificiles de tratar / conseguir. Este es el punto por el cual inicié el post, tratar de conseguir información histórica de partidos para poder analizar estrategias, aunque también es interesante debatir sobre que factores se podrían incluir en ella o cuales son los que creemos que pueden tener una mayor importancia.

Intentaré localizar a Julio para ver si también puede dejarnos alguna impresión suya sobre el tema.

De nuevo gracias a todos por el interes.
 

alberto silva

Administrador
Miembro del equipo
Usuario más activo del mes
Buzjss dijo:
Las variables que utilizo en el sistema son las que aparecen en las prinsheets de covers. Es decir, ratios de partidos ganados / perdidos de toda la temporada, últimos 5 partidos y en mismas condiciones (por pitcher), Eras, WHIP, y Cuotas del partido. Tome estas básicamente porque era la información mejor y más fácil de procesar que había encontrado. Es probable que hayan otros factores que mejoren los resultados, pero me resultaban más dificiles de tratar / conseguir. Este es el punto por el cual inicié el post, tratar de conseguir información histórica de partidos para poder analizar estrategias, aunque también es interesante debatir sobre que factores se podrían incluir en ella o cuales son los que creemos que pueden tener una mayor importancia.
Buzjss:

Por el ejercicio que hice, a pesar de sus limitaciones, creo que la variable más importante es el porcentaje total de juegos ganados de cada equipo en la temporada. Si unimos el resultado del ejercicio (71 % de acierto en los resultados de un día utilizando sólo esa variable) con el conocimiento empírico que tenemos de que ningún equipo gana o pierde más de 2/3 de sus juegos en una temporada, me atrevería a formular las siguientes hipótesis:

(1) "En un juego determinado, la probabilidad de ganar el juego es de 2 a 1 a favor del equipo que tenga un mejor porcentaje de juegos ganados en la temporada"
(2) "En una serie de tres juegos entre dos equipos, lo más probable es que termine 2-1 a favor del equipo con mejor porcentaje de juegos ganados en la temporada"

Por supuesto, estas hipótesis deben ser sometidas a un análisis más completo para probar su validez. Por otra parte, no excluyen la conveniencia de considerar otras variables en un modelo más completo, como las que tú has utilizado. Manténnos informado de tus avances en el tema, que es muy interesante
 

jcredberry

Novato
Bueno, bueno. Un tema interesante surge por acá. La verdad es que no confío en los métodos predictivos pues son poco robustos. Mucho más para las apuestas. Les recomiendo leer "Fooled by Randomness" de Nassim Nicholas Taleb, un excelente libro que trata de como vemos patrones en la más pura aleatoriedad, y como la suerte nos lleva a confiar en extremo en esos patrones, llevándonos al fracaso total.

Dicho esto, ya le he escrito a buzjss y esperaré a ver que me dice antes de decidir si continuar la conversa en público o en privado.

A ver si con esto me reincorporo de una buena vez al foro!!! DIOX!!!

Un abrazo a todos.
 
Inició el hilo Hilos similares Foro Respuestas Fecha
A Sabermetrics 5
FrankPereiro Sabermetrics 0
FrankPereiro Sabermetrics 1

Hilos similares

Béisbol por Alberto Silva

Donar a Planeta Béisbol

Por favor, dona el equivalente a una taza de café a través de PayPal

Ayuda a Daniel a caminar de nuevo

Arriba