El sesgo de selección se refiere a la práctica de elegir datos de manera selectiva, consciente o inconscientemente, de una manera que conduce a una conclusión engañosa o efímera.
¿Cómo vemos el sesgo de selección?
A menudo, vemos los datos disponibles y tratamos de discernir patrones. Pero, ¿los patrones son reales? ¿O son solo el producto de la indagación de datos, es decir, una búsqueda exhaustiva a través de los datos hasta que surge algo interesante?.
La diferencia entre un fenómeno que verifica cuando pruebamos una hipótesis usando un experimento y un fenómeno que descubrimos al leer detenidamente los datos disponibles puede iluminarse con el siguiente experimento mental: Imaginemos que alguien nos dice que podemos lanzar una moneda y hacer que caiga cara en los próximos 10 lanzamientos. Los desafíamos (el equivalente a un experimento), y ellos proceden a lanzar la moneda 10 veces, y todos los lanzamientos caen en cara. Claramente, le atribuimos algún talento especial a esta persona: la probabilidad de que 10 lanzamientos de moneda caigan en cara con solo la probabilidad es de 1 en 1,000.
Ahora imaginemos que un locutor en un estadio deportivo le pide a las 20,000 personas presentes que lancen una moneda 10 veces y que informen si obtienen 10 caras seguidas. La probabilidad de que alguien en el estadio obtenga 10 caras es extremadamente alta (más del 99%, es 1 menos la probabilidad de que nadie obtenga 10 caras). Claramente, seleccionar a posteriori a la persona (o personas) que obtienen 10 caras en el estadio no indica que tengan ningún talento especial, lo más probable es que sea suerte.
Dado que la revisión repetida de grandes conjuntos de datos es una propuesta de valor clave en la ciencia de datos, el sesgo de selección es algo de lo que debemos preocuparnos. Una forma de sesgo de selección que preocupa particularmente a los científicos de datos es lo que John Elder, llama el efecto de «búsqueda amplia». Si ejecutamos repetidamente diferentes modelos y tienen resultados diferentes con un gran conjunto de datos, seguramente encontraremos algo interesante. Pero, ¿el resultado que encontramos es realmente algo interesante, o es un caso atípico? Podemos protegernos contra el sesgo mediante el uso de un conjunto reservado y, a veces, más de un conjunto reservado, contra el cual validar el rendimiento. Elder también aboga por el uso de lo que él llama barajar objetivos (una prueba de permutación, en esencia) para probar la validez de la predicción.
asociaciones que sugiere un modelo de minería de datos.
Las formas típicas de sesgo de selección en la estadística, además del amplio efecto de búsqueda, incluyen el muestreo no aleatorio (aquí hablamos al respecto), datos de selección selectiva, selección de intervalos de tiempo que acentúan un efecto estadístico particular y detener un experimento cuando los resultados parecen «interesantes».
Regresión a la media
La regresión a la media se refiere a un fenómeno que involucra mediciones sucesivas de una variable dada: las observaciones extremas tienden a ser seguidas por otras más centrales. Darle un enfoque y significado especial al valor extremo puede conducir a una forma de sesgo de selección.
Los fanáticos de los deportes están familiarizados con el fenómeno del «novato del año, mala racha de segundo año». Entre los atletas que comienzan su carrera en una temporada determinada (la clase de novatos), siempre hay uno que se desempeña mejor que todos los demás. En general, este «novato del año» no le va tan bien en su segundo año. ¿Por que no?
En casi todos los deportes principales, al menos en los que se juegan con pelota, hay dos elementos que juegan un papel en el rendimiento general: Habilidad y suerte.
La regresión a la media es consecuencia de una forma particular de sesgo de selección. Cuando seleccionamos al novato con el mejor desempeño, la habilidad y la buena suerte probablemente estén contribuyendo. En su próxima temporada la habilidad seguirá estando ahí pero muy a menudo la suerte no estará por lo que su desempeño decaerá, retrocederá. El fenómeno fue identificado por primera vez por Francis Galton en 1886, quien escribió sobre él en relación con las tendencias genéticas. Por ejemplo, los hijos de hombres extremadamente altos tienden a no ser tan altos como su padre.
La regresión a la media, que significa «retroceder», es distinta del método de modelado estadístico de regresión lineal, donde estima la relación entre las variables predictoras y un resultado variable.
Comentarios finales
La regresión a la media describe la característica de que los resultados «extremos» tienden a ser seguidos por otros más «normales». Es un concepto estadístico que es fácil de entender y fácil de olvidar. Cuando somos testigos de eventos «extremos», como éxitos o fracasos improbables, olvidamos cuán raros son esos eventos. Cuando estos eventos son seguidos por eventos más «normales», tratamos de explicar por qué ocurrieron estos eventos «normales», olvidamos que estos eventos «normales» son normales y que deberíamos esperar que sucedan. Esto a menudo nos lleva a atribuir poderes causales a personas, eventos e intervenciones que pueden no haber desempeñado ningún papel en provocar ese evento «normal».
Para evitar cometer errores, primero debemos darnos cuenta cuando estamos tratando de explicar algún evento o resultado (ya sea positivo o negativo). Entonces, debemos hacernos las siguientes preguntas:
- ¿Hay algo «anormal» en este resultado o es esto lo que debo esperar, estadísticamente hablando?
- ¿Fue este evento precedido por algún resultado «extremo» que hace que el «normal» parezca «extraño» en comparación?
- ¿Habría sucedido el evento «normal» de todos modos, incluso si eliminamos los eventos anteriores?
Por ejemplo, ¿el pie de atleta se habría sentido mejor incluso si no lo remojara en agua con ajo?.
La pregunta 1 nos obliga a considerar la probabilidad de que suceda el evento normal. La pregunta 2 nos anima a pensar en los resultados en relación unos con otros, no como observaciones aisladas. La pregunta 3 nos empuja a involucrarnos en un pensamiento contrafactual, imaginando un mundo donde la entidad que creemos que causó el evento «normal» ha sido eliminada. Al hacernos estas tres preguntas, es menos probable que atribuyamos poderes injustificados a eventos, personas, sistemas e intervenciones.