En proyectos de ciencia de datos, es importante la formulación del problema, incluso antes de que pueda comenzar la recopilación de datos. Se debe aclarar el propósito por el cual se realiza la recopilación de datos. No podemos dejar pasar la importancia de la formulación del problema: es el primer paso en cualquier proyecto de investigación, y para un proyecto de ciencia de datos es parte de esto.
Además, incluso las pequeñas desviaciones de la ruta prevista al comienzo de la trayectoria de un proyecto pueden conducir a un destino muy diferente al previsto. Dicho esto, la formulación del problema a menudo puede ser un tema difícil de resolver. Por lo que intentaremos describir los pasos generales previos a la descripción del problema.
Reflexiones iniciales de la formulación del problema
Estas son reflexiones cotidianas en la vida de personas enfocados a negocio y están lejos de ser inusuales. Dependiendo de la identificación del problema, las estrategias de recopilación de datos, los recursos y los enfoques serán diferentes. La dificultad de poder identificar fácilmente cualquier causa o una combinación de causas como un problema específico resaltan los problemas que surgen en la formulación del problema. Existen cuatro puntos importantes:
- La realidad es desordenada. A diferencia de los ejemplos de problemas de los libros de texto, en los que la información irrelevante se filtra a priori y solo se retiene la que se requiere para resolver exactamente «el problema» identificado, la vida rara vez simplifica los problemas de una manera tan clara.
- Tomando prestada una analogía médica, hay síntomas (manifestaciones observables de un problema o dolencia subyacente) y luego está la causa o dolencia en sí. Los síntomas pueden ser fiebre o un resfriado y las causas pueden ser agentes bacterianos o virales. Sin embargo, curar los síntomas puede no curar la dolencia. De manera similar, vemos síntomas (por ejemplo, las ventas están cayendo) e hipotetizamos la existencia de uno o más problemas o causas subyacentes.
- Tengamos en cuenta el patrón de conexiones entre los síntomas y las posibles causas. Se supone que un síntoma (caída de las ventas) proviene de una o más causas potenciales (línea de productos, compensación de la fuerza de ventas, economía débil, competidores, etc.).
- ¿Cómo podemos diagnosticar un problema (o causa)? Una estrategia sería reducir el campo de las «dolencias» al descartar las que no podrían causar un problema, de la manera más rápida y económica posible.
Hacia un marco de formulación del problema
Consideremos el siguiente problema en donde algún analítico tomará deciciones:
Las ventas se quedaron cortas el año pasado. Pero las ventas se habrían acercado al objetivo excepto en 6 territorios en 2 regiones donde los resultados fueron deficientes. Por supuesto, implementamos un aumento de precios generalizado el año pasado, por lo que nuestros objetivos de margen de ganancias se cumplieron, a pesar de que los ingresos por ventas no fueron suficientes. Sin embargo, 2 de nuestros competidores registraron aumentos de ventas por encima de la tendencia el año pasado.
Aún así, otro competidor parece estar luchando, y se dice en la calle que han estado recortando los precios para cerrar tratos. Por supuesto, la economía fue bastante desigual en nuestras geografías el año pasado y las 2 regiones en cuestión, débiles de todos modos, lo fueron particularmente el año pasado. Luego estaba ese lío con la nueva política de compensación de la fuerza de ventas que entró en vigor el año pasado. 1 de las 2 regiones débiles experimentó mucha rotación de personal de ventas el año pasado.
Con fines ilustrativos, consideremos una lista de tres causas probables de una confusa realidad de un problema:
- la línea de productos es obsoleta
- la conexión con el cliente es ineficaz
- el precio del producto no es competitivo (digamos)
Entonces, a partir de esta realidad desordenada podemos formular problemas de decisión (PD) que correspondan a las tres causas probables identificadas:
- “¿Deberían introducirse nuevos productos?”
- “¿Debería cambiarse la campaña publicitaria?”
- “¿Deberían cambiarse los precios de los productos?”
Tengamos en cuenta lo que estamos haciendo en términos matemáticos: si la realidad desordenada es un gran objeto multidimensional, entonces estos PD son subconjuntos de pequeña dimensión de esa realidad. Esto «reduce» un objeto desordenado de grandes dimensiones a uno relativamente más manejable de pequeñas dimensiones.
El PD a pesar de que es de pequeña dimensión, puede no contener suficientes detalles para mapear directamente en las herramientas. Por lo tanto, puede ser necesario otro nivel de refinamiento llamado objetivo de investigación (OI). Mientras que el PD es un objeto de pequeñas dimensiones, el OI es un objeto unidimensional. Es posible que se necesiten varias OI para «cubrir» por completo o abordar una sola PD.
Además, debido a que cada OI es unidimensional, se asigna fácil y directamente a una o más herramientas específicas en la caja de herramientas de análisis. Es mejor que un componente de formulación de problemas unidimensional esté bien definido. El OI consta de tres partes esenciales que juntas dan la necesaria claridad a su definición.
Los OI’s se componen de (a) un verbo de acción y (b) un objeto procesable, y normalmente caben dentro de una línea escrita a mano (para imponer la brevedad). Por ejemplo, la declaración de voz activa “Identifique las brechas reales y percibidas en nuestra línea de productos frente a la de nuestros principales competidores” es una OI porque se satisfacen sus componentes verbo de acción (“identificar”), objeto procesable (“brechas reales y percibidas”) y brevedad.
En la figura anterior mostramos el marco de formulación de problemas que acabamos de describir. Está claro a partir de la figura que a medida que imponemos una estructura preliminar, reducimos efectivamente la dimensionalidad del problema de grande (realidad desordenada) a algo pequeño (PD) a lo conciso y preciso (OI).
Claridad del problema y tipo de investigación
Una cita atribuida al exsecretario de defensa estadounidense Donald Rumsfeld en el periodo previo a la guerra de Irak dice lo siguiente: “Hay conocidos-conocidos. Estas son cosas que sabemos que sabemos. Hay conocidos-desconocidos. Es decir, hay cosas que sabemos que no sabemos. Pero también hay incógnitas desconocidas. Hay cosas no sabemos que no sabemos.” Esta declaración es útil porque ayuda a discernir los diferentes grados de conciencia de nuestra ignorancia sobre el verdadero estado de las cosas. Para comprender por qué la declaración anterior puede ser relevante para la formulación de problemas, considere que, en general, existen tres tipos de investigación que corresponden a tres niveles de claridad en la definición de problemas.
La primera es la investigación exploratoria en la que el problema es, en el mejor de los casos, ambiguo. Por ejemplo, “Nuestras ventas están cayendo. . . . ¿Por qué?» o “Nuestra campaña publicitaria no está funcionando. No sé por qué. Cuando identificar el problema es en sí mismo un problema, debido a desconocidos-desconocidos, adoptamos un enfoque exploratorio para rastrear y enumerar las posibles fuentes de problemas y luego definir cuáles pueden ser los problemas.
El segundo tipo es la investigación descriptiva en la que la identidad del problema es algo clara. Por ejemplo, «¿Qué tipo de personas compran nuestros productos?» o «¿Quién es percibido como competencia para nosotros?» Estos son ejemplos de incógnitas conocidas.
El tercer tipo es la investigación causal en la que el problema está claramente definido. Por ejemplo, «¿Cambiar esta campaña promocional en particular aumentará las ventas?» es un conocido-desconocido claramente identificado. La investigación causal (la causa en causal proviene de la causa en porque) trata de descubrir el “por qué” detrás de los fenómenos de interés y su herramienta más poderosa y práctica es el método de experimentación. No es difícil ver que el nivel de claridad en la definición del problema afecta enormemente las opciones disponibles en términos de recopilación de datos y análisis posterior.