La formulación de preguntas en ciencia de datos son esenciales para tomar un rumbo en el modelado, es útil considerar cuáles son los diferentes tipos de preguntas. Gran parte de la discusión que sigue proviene de este artículo.
Si comprendemos el tipo de pregunta que estamos haciendo estamos avanzando a un paso fundamental para asegurar de que nuestra interpretación de los resultados sea correcta. Enlistamos 6 grandes tipos de preguntas de ciencia de datos:
Preguntas en ciencia de datos descriptivas
Las preguntas en ciencia de datos descriptivas buscan resumir una característica de un conjunto de datos. Los ejemplos incluyen determinar la proporción de hombres, la cantidad media de porciones de frutas y verduras frescas por día o la frecuencia de enfermedades virales en un conjunto de datos recopilados de un grupo de personas. No hay interpretación del resultado en sí mismo, ya que el resultado es un hecho, un atributo del conjunto de datos con el que estamos trabajando.
Ejemplos de preguntas de esta índole serían: “¿Cuánto?”, “¿Con qué frecuencia?”, “¿Qué porcentaje?”, “¿A qué hora?”, “¿Cuánto es?.
Preguntas en ciencia de datos exploratorias
Las preguntas en ciencia de datos exploratorias son aquellas en la que analizan los datos para ver si hay patrones, tendencias o relaciones entre las variables. Estos tipos de análisis también se denominan análisis de “generación de hipótesis” porque, en lugar de probar una hipótesis como se haría con una pregunta inferencial, causal o mecanicista, se buscan patrones que apoyen la propuesta de una hipótesis. Si teníamos una idea general de que la dieta estaba relacionada de alguna manera con las enfermedades virales, podríamos explorar esta idea examinando las relaciones entre una variedad de factores dietéticos y enfermedades virales.
Por ejemplo, encuentramos en el análisis exploratorio que las personas que comieron una dieta alta en ciertos alimentos tenían menos enfermedades virales que aquellos cuya dieta no estaba enriquecida con estos alimentos, por lo que proponemos la hipótesis de que entre los adultos, comer al menos 5 porciones al día de fruta fresca y las verduras se asocia con menos enfermedades virales por año.
Ejemplo de estas preguntas serían: «¿Sientes que tienes una buena o mala relación con la comida?» «¿Cuál es el efecto de las redes sociales en la capacidad de atención de los adolescentes?».
Preguntas en ciencia de datos inferenciales
Las preguntas en ciencia de datos inferenciales serían una reafirmación de nuestra hipótesis propuesta como una pregunta y se respondería analizando un conjunto diferente de datos, que en este ejemplo es una muestra representativa de adultos en México. Al analizar este conjunto diferente de datos, estamos determinando si la asociación que observamos en nuestro análisis exploratorio se mantiene en una muestra diferente y si se mantiene en una muestra que es representativa de la población adulta de México, lo que sugeriría que la asociación es aplicable a todos los adultos en México.
En otras palabras, podremos inferir que nuestra hipótesis es cierta, en promedio, para la población adulta en los México, a partir del análisis que realice en la muestra representativa.
Ejemplo de estas preguntas serían: «¿Cómo llegaste a esa conclusión?» y «¿Por qué la sal hace que el hielo no se derrita?».
Preguntas en ciencia de datos predictivas
Las preguntas en ciencia de datos predictivas se proponen para predecir automáticamente las mejores opciones de respuesta posibles según el contexto de la pregunta. Las preguntas predictivas se pueden usar ampliamente en la fase de diseño del modelo. Las preguntas predictivas se utilizan más ampliamente en los estudios de investigación cuantitativa para una empresa.
Preguntas de este tipo serían: «¿Cuáles son los beneficios comerciales?», «¿Qué conocimientos técnicos necesito?», «¿Qué tan claros serán los resultados?», «¿Qué pasa con las preguntas de seguimiento?», «¿Y qué pasa con los usuarios comerciales?» , «¿Qué tan precisas, completas y consistentes son las técnicas analíticas?», «¿Podemos realizar un análisis incremental?», «¿Qué tan efectivo es el manejo de datos?», «¿Se puede integrar el sistema analítico con nuestros sistemas existentes?», » ¿Qué soporte estará disponible?»
Preguntas en ciencia de datos causales
Aunque una pregunta inferencial podría decirnos que las personas que comen cierto tipo de alimentos tienden a tener menos enfermedades virales, la respuesta a esta pregunta no nos dice si comer estos alimentos provoca una reducción en el número de enfermedades virales, que sería el caso de una pregunta causal.
Las preguntas de ciencia de datos causales plantean hipótesis de que si cambiar un factor cambiará otro factor en una población. A veces, el diseño subyacente de la recopilación de datos permite que la pregunta que hace sea causal. Un ejemplo de esto serían los datos recopilados en el contexto de un ensayo aleatorio, en el que se asignó aleatoriamente a las personas a comer una dieta alta en frutas y verduras frescas o una dieta baja en frutas y verduras frescas. En otros casos, incluso si nuestros datos no provienen de un ensayo aleatorio, podemos adoptar un enfoque analítico diseñado para responder una pregunta causal.
Preguntas se este tipo serían: «¿Cuál es el efecto del ejercicio en la frecuencia cardíaca?», «¿Cuál es el efecto de la fatiga de la mano en el tiempo de reacción?», «¿Cuáles son los vectores más potentes para la transmisión de enfermedades?», «¿Cómo afecta el ejercicio la tasa de producción de dióxido de carbono? «, «¿Cómo influye la temperatura en la difusión del ambientador?», «¿Cómo afecta la concentración de nitrato de plata a la formación de cristales de plata?»
Preguntas en ciencia de datos mecanicistas
Finalmente, ninguna de las preguntas en ciencia de datos descritas hasta ahora conducirá a una respuesta que nos diga, si la dieta realmente causa una reducción en el número de enfermedades virales, cómo la dieta conduce a una reducción en el número de enfermedades virales. Una pregunta que indague cómo una dieta alta en frutas y verduras frescas conduce a una reducción en el número de enfermedades virales sería una pregunta mecanicista.
Las preguntas en ciencia de datos mecanicistas son más del tipo de describir el cómo en cada paso del proceso.
Algo adicional
Hay un par de puntos adicionales sobre los tipos de preguntas que son importantes. Primero, muchos análisis de datos responden a múltiples tipos de preguntas. Por ejemplo, si un análisis tiene como objetivo responder una pregunta inferencial, las preguntas descriptivas y exploratorias también deben responderse durante el proceso de respuesta a la pregunta inferencial.
Para continuar con nuestro ejemplo de dieta y enfermedades virales, nos saltaríanis directamente a un modelo estadístico de la relación entre una dieta rica en frutas y verduras frescas y el número de enfermedades virales sin haber determinado la frecuencia de este tipo de dieta y enfermedades virales. y su relación entre sí en esta muestra.
Un segundo punto es que el tipo de pregunta que hacemos está determinado en parte por los datos disponibles (a menos que planeenis realizar un estudio y recopilar los datos necesarios para realizar el análisis). Por ejemplo, es posible que hagamos una pregunta causal sobre la dieta y las enfermedades virales para saber si una dieta rica en frutas y verduras frescas provoca una disminución en la cantidad de enfermedades virales, y el mejor tipo de datos para responder a esta pregunta causal es uno en el que la dieta de las personas cambia de una rica en frutas y verduras frescas a otra que no lo es, o viceversa.
Si este tipo de conjunto de datos no existe, entonces lo mejor que podemos hacer es aplicar métodos de análisis causal a los datos de observación o responder una pregunta inferencial sobre la dieta y las enfermedades virales.