El muestreo aleatorio y sesgo en la muestra son los factores más importantes que determina la precisión del resultado de un análisis. Si algo sale mal con la muestra, se reflejará directamente en el resultado final. Existen muchas técnicas que nos ayudan a recolectar muestras según la necesidad y la situación. Pero en este escrito veremos la relación de la muestra con el sesgo que podría tener, así como sus consecuencias.
El muestreo aleatorio y sesgo en la muestra son los factores más importantes que determina la precisión del resultado de un análisis. Si algo sale mal con la muestra, se reflejará directamente en el resultado final. Existen muchas técnicas que nos ayudan a recolectar muestras según la necesidad y la situación. Pero en este escrito veremos la relación de la muestra con el sesgo que podría tener, así como sus consecuencias.
El concepto de muestreo aleatorio y sesgo en la muestra
Una muestra es un subconjunto de un conjunto de datos más grande comúnmente llamado población.
El muestreo aleatorio es un proceso en el que cada miembro disponible de la población que se muestrea tiene la misma posibilidad de ser elegido para la muestra en cada sorteo. La muestra que resulta se llama muestra aleatoria simple. El muestreo se puede hacer con reemplazo, en el que las observaciones se vuelven a colocar en la población después de cada sorteo para una posible reselección futura. O puede hacerse sin reemplazo, en cuyo caso las observaciones, una vez seleccionadas, no estarán disponibles para futuros sorteos.
La calidad de los datos suele ser más importante que la cantidad de datos cuando se realiza una estimación o un modelo basado en una muestra. La calidad de los datos en la ciencia de datos implica la integridad, la consistencia del formato, la limpieza y la precisión de los puntos de datos individuales. La estadística añade la noción de representatividad.
Si podemos sacar conclusiones precisas sobre una población a partir de una muestra, hablamos de representatividad. En un sentido más estricto, una muestra es representativa si todos los elementos de una población tienen la misma oportunidad de formar parte de la muestra.
Sin embargo, la representatividad por sí sola no es una característica de calidad suficiente de una estadística. A los efectos de un análisis exhaustivo, también se debe prestar atención al margen de error, así como al nivel de confianza, etc. Los estadísticos pueden mejorar aumentando el tamaño de una muestra.
Generalmente, el término representatividad se usa para indicar que una muestra refleja una población, reflejando todas las propiedades esenciales de la población de manera correcta. En un sentido más estricto, dado que esto nunca se puede verificar por completo, el uso de la palabra representatividad no es cierto, y es mejor tratar de no usarlo en estadística.
Un ejemplo de sesgo
Ocurrió en 1936, en los primeros días de las encuestas de opinión la revista American Literary Digest recopiló más de dos millones de encuestas postales y predijo que el candidato republicano a las elecciones presidenciales de EUA, Alf Landon vencería al presidente en ejercicio Franklin Roosevelt por un amplio margen. El resultado fue exactamente lo contrario, la encuesta Literary Digest representó una muestra recopilada de lectores de la revista complementada con registros de propietarios de automóviles registrados y usuarios de teléfonos. Esta muestra incluía una representación excesiva de personas adineradas y que tenían más probabilidades de votar por el candidato republicano. En contraste, una encuesta de solo 50 mil ciudadanos seleccionados por la organización de George Gallup predijo con éxito el resultado, lo que llevó a la popularidad de la encuesta de Gallup.
Sesgo estadístico
El sesgo estadístico se refiere a errores de medición o muestreo que son sistemáticos y/o producidos por el proceso de medición o muestreo.
El sesgo de selección es el fenómeno de seleccionar individuos, grupos o datos para el análisis de tal manera que no logramos la aleatorización adecuada, lo que finalmente resulta una muestra que no es representativa de la población.
El sesgo se presenta en diferentes formas y puede ser observable o invisible. Cuando un resultado sugiere sesgo a menudo es un indicador de que un modelo estadístico o de aprendizaje automático se ha especificado incorrectamente, o un importante variable omitida. El muestreo aleatorio no siempre es fácil ya que la definición adecuada de una población accesible es clave.
Por ejemplo, si queremos generar un perfil representativo de clientes y necesitamos realizar una encuesta piloto de clientes, la encuesta debe ser representativa, pero requiere mucha mano de obra.
Primero, necesitamos definir quién es un cliente. Podríamos seleccionar todos los registros de clientes donde el monto de la compra sea mayor que 0. ¿Incluimos todos los clientes anteriores?, ¿Incluimos reembolsos?, ¿Compras internas?, ¿Revendedores? ¿Tanto el agente de facturación como el cliente?.
A continuación, necesitamos especificar un procedimiento de muestreo. Podría ser «seleccionar 100 clientes al azar». Cuando se trata de una muestra de un flujo ( transacciones de clientes en tiempo real o visitantes web), las consideraciones de tiempo pueden ser importantes (un visitante web en10 a. m. en un día laborable puede ser diferente de un visitante web a las 10 p. m. en un fin de semana).
En el muestreo estratificado, la población se divide en estratos y se toman muestras aleatorias de cada estrato. Los encuestadores políticos podrían tratar de conocer las preferencias electorales de los blancos, negros e hispanos. Una muestra aleatoria simple tomada de la población arrojaría muy pocos negros e hispanos, por lo que esos estratos podrían sobreponderarse en el muestreo estratificado para producir tamaños de muestra equivalentes.
Tamaño vs calidad: ¿cuándo importa el tamaño?
En nuestra era de los grandes datos, a veces sorprende que cuanto más pequeño mejor. El tiempo y el esfuerzo dedicados al muestreo aleatorio no solo reducen el sesgo, sino que también permiten una mayor atención a la exploración y la calidad de los datos. Por ejemplo, los datos faltantes y los valores atípicos pueden contener información útil. Puede ser prohibitivamente costoso rastrear valores faltantes o evaluar valores atípicos en millones de registros, pero hacerlo en una muestra de varios miles de registros puede ser factible. La inspección manual es inconcebible si hay demasiados datos.
Entonces, ¿cuándo se necesitan grandes cantidades de datos? El escenario clásico para el valor de los grandes datos es cuando los datos no solo son grandes sino escaso también. Por ejemplo, las consultas de búsqueda recibidas por Google, donde las columnas son términos, las filas son consultas de búsqueda individuales y los valores de celda son 0 o 1, dependiendo de si una consulta contiene un término. El objetivo es determinar el mejor destino de búsqueda previsto para una consulta determinada. Hay más de 150.000 palabras en inglés y Google procesa más de un billón de consultas al año. Esto produce una matriz enorme, la gran mayoría de cuyas entradas son «0».
Este es un verdadero problema de big data: solo cuando se acumulan cantidades tan enormes de datos se pueden obtener resultados de búsqueda efectivos para la mayoría de las consultas. Y cuantos más datos se acumulen, mejores serán los resultados. Para los términos de búsqueda populares, esto no es un problema: se pueden encontrar datos efectivos con bastante rapidez para el puñado de temas extremadamente populares que son tendencia en un momento determinado. El valor real de la tecnología de búsqueda moderna radica en la capacidad de devolver resultados detallados y útiles para una gran variedad de consultas de búsqueda, incluidas aquellas que ocurren con una frecuencia, digamos, de solo una en un millón.
Media muestral vs media poblacional
El símbolo $\bar{x}$ se usa para representar la media de una muestra de una población, mientras que $\mu$ se usa para representar la media de una población. ¿Por qué hacer la distinción? Se observa información sobre muestras, y la información sobre grandes poblaciones a menudo se infiere a partir de muestras más pequeñas. A los estadísticos les gusta mantener las dos cosas separadas en la simbología.
Incluso en la era de los grandes datos, el muestreo aleatorio sigue siendo un concepto importante del científico de datos. El sesgo ocurre cuando las mediciones u observaciones son sistemáticamente erróneas porque no son representativas de la población total. La calidad de los datos suele ser más importante que la cantidad de datos, y el muestreo aleatorio puede reducir el sesgo y facilitar la mejora de la calidad que de otro modo sería prohibitivamente costosa.
Regresión a la media
La regresión a la media se refiere a un fenómeno que involucra mediciones sucesivas de una variable dada: las observaciones extremas tienden a ser seguidas por otras más centrales.
Darle un enfoque y significado especial al valor extremo puede conducir a una forma de sesgo de selección. Los fanáticos de los deportes están familiarizados con el fenómeno del “novato del año, mala racha de segundo año”.
Entre los atletas que comienzan su carrera en una temporada determinada (la clase de novatos), siempre hay uno que se desempeña mejor que todos los demás. Generalmente, este “novato del año” no lo hace tan bien en su segundo año. ¿Por qué no? En casi todos los deportes principales, al menos en los que se juegan con pelota o disco, hay dos elementos que juegan un papel en el rendimiento general: Habilidad y suerte.
La regresión a la media es consecuencia de una forma particular de sesgo de selección. Cuando seleccionamos al novato con el mejor desempeño, la habilidad y la buena suerte probablemente estén contribuyendo.
El concepto de muestreo aleatorio y sesgo en la muestra
Una muestra es un subconjunto de un conjunto de datos más grande comúnmente llamado población.
El muestreo aleatorio es un proceso en el que cada miembro disponible de la población que se muestrea tiene la misma posibilidad de ser elegido para la muestra en cada sorteo. La muestra que resulta se llama muestra aleatoria simple. El muestreo se puede hacer con reemplazo, en el que las observaciones se vuelven a colocar en la población después de cada sorteo para una posible reselección futura. O puede hacerse sin reemplazo, en cuyo caso las observaciones, una vez seleccionadas, no estarán disponibles para futuros sorteos.
La calidad de los datos suele ser más importante que la cantidad de datos cuando se realiza una estimación o un modelo basado en una muestra. La calidad de los datos en la ciencia de datos implica la integridad, la consistencia del formato, la limpieza y la precisión de los puntos de datos individuales. La estadística añade la noción de representatividad.
Si podemos sacar conclusiones precisas sobre una población a partir de una muestra, hablamos de representatividad. En un sentido más estricto, una muestra es representativa si todos los elementos de una población tienen la misma oportunidad de formar parte de la muestra.
Sin embargo, la representatividad por sí sola no es una característica de calidad suficiente de una estadística. A los efectos de un análisis exhaustivo, también se debe prestar atención al margen de error, así como al nivel de confianza, etc. Los estadísticos pueden mejorar aumentando el tamaño de una muestra.
Generalmente, el término representatividad se usa para indicar que una muestra refleja una población, reflejando todas las propiedades esenciales de la población de manera correcta. En un sentido más estricto, dado que esto nunca se puede verificar por completo, el uso de la palabra representatividad no es cierto, y es mejor tratar de no usarlo en estadística.
Un ejemplo de sesgo
Ocurrió en 1936, en los primeros días de las encuestas de opinión la revista American Literary Digest recopiló más de dos millones de encuestas postales y predijo que el candidato republicano a las elecciones presidenciales de EUA, Alf Landon vencería al presidente en ejercicio Franklin Roosevelt por un amplio margen. El resultado fue exactamente lo contrario, la encuesta Literary Digest representó una muestra recopilada de lectores de la revista complementada con registros de propietarios de automóviles registrados y usuarios de teléfonos. Esta muestra incluía una representación excesiva de personas adineradas y que tenían más probabilidades de votar por el candidato republicano. En contraste, una encuesta de solo 50 mil ciudadanos seleccionados por la organización de George Gallup predijo con éxito el resultado, lo que llevó a la popularidad de la encuesta de Gallup.
Sesgo estadístico
El sesgo estadístico se refiere a errores de medición o muestreo que son sistemáticos y/o producidos por el proceso de medición o muestreo.
El sesgo de selección es el fenómeno de seleccionar individuos, grupos o datos para el análisis de tal manera que no logramos la aleatorización adecuada, lo que finalmente resulta una muestra que no es representativa de la población.
El sesgo se presenta en diferentes formas y puede ser observable o invisible. Cuando un resultado sugiere sesgo a menudo es un indicador de que un modelo estadístico o de aprendizaje automático se ha especificado incorrectamente, o un importante variable omitida. El muestreo aleatorio no siempre es fácil ya que la definición adecuada de una población accesible es clave.
Por ejemplo, si queremos generar un perfil representativo de clientes y necesitamos realizar una encuesta piloto de clientes, la encuesta debe ser representativa, pero requiere mucha mano de obra.
Primero, necesitamos definir quién es un cliente. Podríamos seleccionar todos los registros de clientes donde el monto de la compra sea mayor que 0. ¿Incluimos todos los clientes anteriores?, ¿Incluimos reembolsos?, ¿Compras internas?, ¿Revendedores? ¿Tanto el agente de facturación como el cliente?.
A continuación, necesitamos especificar un procedimiento de muestreo. Podría ser «seleccionar 100 clientes al azar». Cuando se trata de una muestra de un flujo ( transacciones de clientes en tiempo real o visitantes web), las consideraciones de tiempo pueden ser importantes (un visitante web en10 a. m. en un día laborable puede ser diferente de un visitante web a las 10 p. m. en un fin de semana).
En el muestreo estratificado, la población se divide en estratos y se toman muestras aleatorias de cada estrato. Los encuestadores políticos podrían tratar de conocer las preferencias electorales de los blancos, negros e hispanos. Una muestra aleatoria simple tomada de la población arrojaría muy pocos negros e hispanos, por lo que esos estratos podrían sobreponderarse en el muestreo estratificado para producir tamaños de muestra equivalentes.
Tamaño vs calidad: ¿cuándo importa el tamaño?
En nuestra era de los grandes datos, a veces sorprende que cuanto más pequeño mejor. El tiempo y el esfuerzo dedicados al muestreo aleatorio no solo reducen el sesgo, sino que también permiten una mayor atención a la exploración y la calidad de los datos. Por ejemplo, los datos faltantes y los valores atípicos pueden contener información útil. Puede ser prohibitivamente costoso rastrear valores faltantes o evaluar valores atípicos en millones de registros, pero hacerlo en una muestra de varios miles de registros puede ser factible. La inspección manual es inconcebible si hay demasiados datos.
Entonces, ¿cuándo se necesitan grandes cantidades de datos? El escenario clásico para el valor de los grandes datos es cuando los datos no solo son grandes sino escaso también. Por ejemplo, las consultas de búsqueda recibidas por Google, donde las columnas son términos, las filas son consultas de búsqueda individuales y los valores de celda son 0 o 1, dependiendo de si una consulta contiene un término. El objetivo es determinar el mejor destino de búsqueda previsto para una consulta determinada. Hay más de 150.000 palabras en inglés y Google procesa más de un billón de consultas al año. Esto produce una matriz enorme, la gran mayoría de cuyas entradas son «0».
Este es un verdadero problema de big data: solo cuando se acumulan cantidades tan enormes de datos se pueden obtener resultados de búsqueda efectivos para la mayoría de las consultas. Y cuantos más datos se acumulen, mejores serán los resultados. Para los términos de búsqueda populares, esto no es un problema: se pueden encontrar datos efectivos con bastante rapidez para el puñado de temas extremadamente populares que son tendencia en un momento determinado. El valor real de la tecnología de búsqueda moderna radica en la capacidad de devolver resultados detallados y útiles para una gran variedad de consultas de búsqueda, incluidas aquellas que ocurren con una frecuencia, digamos, de solo una en un millón.
Media muestral vs media poblacional
El símbolo $\bar{x}$ se usa para representar la media de una muestra de una población, mientras que $\mu$ se usa para representar la media de una población. ¿Por qué hacer la distinción? Se observa información sobre muestras, y la información sobre grandes poblaciones a menudo se infiere a partir de muestras más pequeñas. A los estadísticos les gusta mantener las dos cosas separadas en la simbología.
Incluso en la era de los grandes datos, el muestreo aleatorio sigue siendo un concepto importante del científico de datos. El sesgo ocurre cuando las mediciones u observaciones son sistemáticamente erróneas porque no son representativas de la población total. La calidad de los datos suele ser más importante que la cantidad de datos, y el muestreo aleatorio puede reducir el sesgo y facilitar la mejora de la calidad que de otro modo sería prohibitivamente costosa.
Regresión a la media
La regresión a la media se refiere a un fenómeno que involucra mediciones sucesivas de una variable dada: las observaciones extremas tienden a ser seguidas por otras más centrales.
Darle un enfoque y significado especial al valor extremo puede conducir a una forma de sesgo de selección. Los fanáticos de los deportes están familiarizados con el fenómeno del “novato del año, mala racha de segundo año”.
Entre los atletas que comienzan su carrera en una temporada determinada (la clase de novatos), siempre hay uno que se desempeña mejor que todos los demás. Generalmente, este “novato del año” no lo hace tan bien en su segundo año. ¿Por qué no? En casi todos los deportes principales, al menos en los que se juegan con pelota o disco, hay dos elementos que juegan un papel en el rendimiento general: Habilidad y suerte.
La regresión a la media es consecuencia de una forma particular de sesgo de selección. Cuando seleccionamos al novato con el mejor desempeño, la habilidad y la buena suerte probablemente estén contribuyendo.
Pingback: Sesgo de selección -Yizinet
Pingback: Una mirada a la prueba A-B -Yizinet
Pingback: 5 tipos de preguntas en ciencia de datos -Yizinet