Un estimador es un estadístico (esto es, una función de la muestra) usado para estimar un parámetro desconocido de la población. Por ejemplo, una visualización básica, como un gráfico de barras, nos puede brindar información de alto nivel, pero usando estadística (a través de estimadores básicos) nos permite operar con los datos de una manera mucho más dirigida y basada en la información. Enseguida veremos estimadores básicos fundamentales de estadística para la exploración de datos.

Estimadores básicos de posición

Si tenemos un conjunto de números reales $x_1, x_2, \dots, x_n$ vamos a definir lo siguiente:

Media

Es la suma de todos los valores dividido por el número de valores: $$\bar{x} = \frac{\sum_{i=1}^{n}x_i}{n}.$$

La media es quizás el estimador básico más importante en los datos porque forma la base para realizar y comprender etimadores más complejos. Por ejemplo, aporta algo de cada encuestado y sugiere el término medio o la respuesta generalmente aceptable. Los análisis de regresión, la varianza, etc.

Una variación de la media es una media recortada, que se calcula dejando un número fijo de valores ordenados en cada extremo y luego tomando un promedio de los valores restantes. Si representamos los valores ordenados por $x_{(1)}, x_{(2)}, \dots, x_{(n)}$, donde $x_{(1)}$ es el valor más pequeño y $x_{(n)}$ el más grande, la fórmula para calcular la media recortada con los valores $p$ más pequeños y $p$ más grandes omitidos es: $$\bar{x}_r = \frac{\sum_{i=p+1}^{n-p}x_{(i)}}{n-2p}.$$

  • El uso de una media recortada ayuda a eliminar la influencia de valores atípicos o datos extremos (también llamados outliers) que pueden afectar injustamente a la media tradicional.
  • La media recortada se utiliza al informar datos económicos para suavizar los resultados y tener una imagen más realista.
  • La media recortada, junto con otras medidas, proporciona una base de comparación.

Otro tipo de media es una media ponderada, que se calcula multiplicando cada valor de datos $x_i$ por un peso $w_i$ especificado por el usuario y dividiendo su suma por la suma de los pesos. La fórmula para una media ponderada es: $$\bar{x}_w = \frac{\sum_{i=1}^{n}w_ix_{i}}{\sum_{i=1}^{n}w_i}$$

Hay dos motivaciones principales para usar una media ponderada:

  • Algunos valores son intrínsecamente más variables que otros. Por ejemplo, si estamos tomando el promedio de múltiples sensores y uno de los sensores es menos preciso, entonces podríamos reducir el peso de los datos de ese sensor.
  • Los datos recogidos no representan por igual a los diferentes parámetros que estamos interesado en medir. Por ejemplo, por la forma en que un experimento con varios grupos de usuarios se llevó a cabo, es posible que no tengamos un conjunto de datos que refleje con precisión todos los grupos en la base de usuarios. Para corregir eso, podemos dar un mayor peso a los valores de los grupos que estaban subrepresentados.

Mediana

La mediana es un estimador básico que se define como el número de en medio en una lista ordenada de datos. Si hay un número par de valores de datos, el valor medio es uno que no está realmente en el conjunto de datos, sino el promedio de los dos valores que dividen los datos ordenados en mitades superior e inferior. En comparación con la media, que usa todas las observaciones, la mediana depende solo de los valores en el centro de los datos ordenados. Si bien esto puede parecer una desventaja, dado que la media es mucho más sensible a los datos, hay muchos casos en los que la mediana es una mejor métrica para la ubicación.

La mediana no es la única estimación robusta de posición. De hecho, una media recortada se usa ampliamente para evitar la influencia de los valores atípicos. Por ejemplo, recortar el 10% inferior y superior (una opción común) de los datos brindará protección contra valores atípicos en todos los conjuntos de datos, excepto en los más pequeños. La media recortada se puede considerar como una combinación entre la mediana y la media: es resistente a los valores extremos de los datos, pero utiliza más datos para calcular la estimación de posición.

Los Outliers

La mediana se conoce como un estimador robusto de posición, ya que no está influenciada por valores atípicos o outliers que pueden alterar los resultados. Un valor outlier es cualquier valor que está muy distante de los otros valores en un conjunto de datos. La definición exacta de un valor outlier es un tanto subjetiva, aunque se usan ciertas convenciones en varios resúmenes de datos y gráficos. Ser un valor outlier en sí mismo no hace que un valor de datos sea inválido o erróneo.

Aun así, los valores outliers suelen ser el resultado de errores de datos, como mezclar datos de diferentes unidades (kilómetros frente a metros) o malas lecturas de un sensor. Cuando los valores outliers son el resultado de datos incorrectos, la media dará como resultado una estimación deficiente de posición, mientras que la mediana seguirá siendo válida. En cualquier caso, los valores outliers deben identificarse y, por lo general, merecen una mayor investigación.

Estimadores básicos de variabilidad

En las estimaciones básicas de posición solamente estamos viendo una dimensión al resumir una característica. Una segunda dimensión, la variabilidad, también conocida como dispersión, mide si los valores de los datos están muy agrupados o dispersos. En el fundamento de la estadística se encuentra la variabilidad: medirla, reducirla, distinguir la variabilidad aleatoria de la real, identificar las diversas fuentes de variabilidad real y tomar decisiones en presencia de ella conlleva a definir otros estimadores:

Desviación estándar

Las estimaciones de variación más utilizadas se basan en las diferencias, o desviaciones, entre la estimación de posición y los datos observados. Para un conjunto de datos {1, 4, 4}, la media es 3 y la mediana es 4. Las desviaciones de la media son las diferencias: 1 – 3 = –2, 4 – 3 = 1, 4 – 3 = 1 Estas desviaciones nos dicen qué tan dispersos están los datos alrededor del estimador de la media.

Una forma de medir la variabilidad es estimar un valor para estas desviaciones. Promediar las desviaciones en sí mismas no nos diría mucho: las desviaciones negativas compensan las positivas. De hecho, la suma de las desviaciones de la media es precisamente cero. En cambio, un enfoque simple es tomar el promedio de los valores absolutos de las desviaciones de la media. En el ejemplo anterior, el valor absoluto de las desviaciones es {2 1 1}, y su promedio es (2 + 1 + 1) / 3 = 1.33. Esto se conoce como la desviación absoluta media y se calcula con la fórmula: $$D_m = \frac{\sum_{i=1}^{n}|x_i-\bar{x}|}{n}.$$

Donde $\bar{x}$ es la media.

Las estimaciones de variabilidad más conocidas son la varianza y la desviación estándar, que se basan en desviaciones al cuadrado. La varianza es un promedio de las desviaciones al cuadrado y la desviación estándar ($s$) es la raíz cuadrada de la varianza ($s^2$). $$s^2= \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}. $$ $$s=\sqrt{ \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}. $$

En los libros de estadística, siempre hay alguna discusión sobre por qué tenemos $n – 1$ en el denominador en la fórmula de la varianza, en lugar de $n$, lo que lleva al concepto de grados de libertad. Esta distinción no es importante ya que $n$ generalmente es lo suficientemente grande como para que no haya mucha diferencia si dividimos entre $n$ o $n – 1$.

Pero hay una explicación al respecto. Se basa en la premisa de que deseamos realizar estimaciones sobre una población, en función de una muestra. Si usamos el denominador $n$ en la fórmula de la varianza, subestimará el verdadero valor de la varianza y la desviación estándar en la población. Esto se conoce como una estimación sesgada. Sin embargo, si dividimos por $n – 1$ en lugar de $n$, la varianza se convierte en una estimación imparcial.

Para explicar completamente el por qué del uso de $n$ conduce a una estimación sesgada que implica la noción de grados de libertad, que tiene en cuenta el número de restricciones al calcular una estimación. En este caso, hay $n – 1$ grados de libertad ya que hay una restricción: la desviación estándar depende del cálculo de la media muestral. Para la mayoría de los problemas, no necesitamos preocuparnos por los grados de libertad.

La varianza y la desviación estándar son especialmente sensibles a los valores atípicos, ya que se basan en las desviaciones al cuadrado. Una estimación robusta de la variabilidad es la desviación absoluta mediana de la mediana o MAD: $$MAD = \textrm{Mediana}(|x_1-m|, |x_2-m|, \dots, |x_n-m|).$$Donde $m$ es la es la mediana. Al igual que la mediana, la MAD no está influenciada por valores extremos. También es posible calcular una desviación estándar recortada análoga a la media recortada.

Estimación basado en percentiles

Un enfoque diferente para estimar la dispersión se basa en observar la dispersión de los datos ordenados. Las estadísticas basadas en datos ordenados (clasificados) se denominan estadísticos de orden. La medida más básica es el rango: la diferencia entre los números más grandes y más pequeños. Es útil conocer los valores mínimo y máximo y son útiles para identificar valores atípicos, pero el rango es extremadamente sensible a los valores atípicos y no es muy útil como medida general de dispersión en los datos.

Para evitar la sensibilidad a los valores atípicos, podemos observar el rango de los datos después de descartar los valores de cada extremo. Formalmente, este tipo de estimaciones se basan en diferencias entre percentiles. En un conjunto de datos, el percentil Pth es un valor tal que al menos el P por ciento de los valores toman este valor o menos y al menos el (100 – $P$) por ciento de los valores toman este valor o más.

Por ejemplo, para encontrar el percentil 80, ordene los datos. Luego, comenzando con el valor más pequeño, avance el 80 por ciento del camino hasta el valor más grande valor. Notemos que la mediana es lo mismo que el percentil 50. El percentil es esencialmente lo mismo que un cuantil, con cuantiles indexados por fracciones (por lo que el cuantil .8 es lo mismo que el percentil 80).

Si tenemos un número par de datos ($n$ es par), entonces el percentil es ambiguo según la definición anterior. De hecho, podríamos tomar cualquier valor entre las estadísticas de orden $x_j$ y $x_{j + 1}$ donde $j$ satisface: $$100*\frac{j}{n}\leq<100*\frac{j+1}{n}$$

Formalmente, el percentil es el promedio ponderado: $$\textrm{Percentil}(P) = (1-w)x_{(j)}+wx_{(j+1)}$$Donde $0\leq w \leq 1$.

1 comentario en “5 estimadores básicos para exploración de datos”

  1. Pingback: La paradoja de Simpson en ciencia de datos -Yizinet

Deja un comentario

Tu dirección de correo electrónico no será publicada.