Vamos a describir una breve taxonomía de los tipos de datos, describiendo terminologías usadas en las ciencia de datos.
tipos de datos estructurados vs datos no estructurados
Ciertos tipos de datos están bien estructurados, como las tablas en una base de datos o un programa de hoja de cálculo. Otros registran información sobre el estado del mundo, pero de forma más heterogénea. Tal vez sea un gran corpus de texto con imágenes y enlaces como Wikipedia, o la complicada combinación de notas y resultados de pruebas que aparecen en los registros médicos personales.
Los datos a menudo se representan mediante una matriz, donde las filas de la matriz representan elementos o registros distintos, y las columnas representan propiedades distintas de estos elementos. Por ejemplo, un conjunto de datos sobre ciudades de México puede contener una fila para cada ciudad, con columnas que representan características como el estado, la población y el área.
Cuando nos enfrentamos a una fuente de datos no estructurada, como una colección de tweets de Twitter, nuestro primer paso generalmente es construir una matriz para estructurarla. Un modelo o un algoritmo puede onstruir una matriz con una fila para cada tweet y una columna para cada palabra de vocabulario de uso frecuente. Entrada de matriz $M_{ij}$ luego denota la cantidad de veces que el tweet $i$ contiene la palabra $j$.
Tipo de datos cuantitativos vs categóricos
Los datos cuantitativos consisten en valores numéricos, como la altura y el peso. Dichos datos pueden incorporarse directamente en fórmulas algebraicas y modelos matemáticos, o mostrarse en gráficos y cuadros convencionales.
Por el contrario, los datos categóricos consisten en etiquetas que describen las propiedades de los objetos que se investigan, como el género, el color del cabello y la ocupación. Esta información descriptiva puede ser tan precisa y significativa como los datos numéricos, pero no se puede trabajar con las mismas técnicas.
Los datos categóricos generalmente se pueden codificar numéricamente. Por ejemplo, el género puede representarse como masculino = 0 o femenino = 1. Pero las cosas se complican más cuando hay más de dos caracteres por característica, especialmente cuando no hay un orden implícito entre ellos. Es posible que podamos codificar los colores de cabello como números asignando a cada tono un valor distinto, como canas = 0, cabello rojo = 1 y cabello rubio = 2. Sin embargo, no podemos tratar estos valores como números, para nada más que simple pruebas de identidad ¿Tiene algún sentido hablar de color de pelo máximo o mínimo? Cuál es la interpretación de mi color de cabello menos el color de tu cabello?.
Big data vs little data
La ciencia de datos se ha convertido en el ojo público con big data, el análisis de conjuntos de datos masivos resultantes de registros de computadora y dispositivos de sensores. En principio, tener más datos siempre es mejor que tener menos, porque siempre puede desechar algunos mediante muestreo para obtener un conjunto más pequeño si es necesario.
Big data es un fenómeno emocionante. Pero en la práctica, existen dificultades para trabajar con grandes conjuntos de datos, ya que las cosas se vuelven más difíciles una vez que el volumen es demasiado grande. Los desafíos de los grandes datos incluyen:
- El tiempo del ciclo de análisis se ralentiza a medida que crece el tamaño de los datos: las operaciones computacionales en conjuntos de datos tardan más a medida que aumenta su volumen. Las hojas de cálculo pequeñas brindan una respuesta instantánea, lo que le permite experimentar y jugar ¿y si? Pero las hojas de cálculo grandes pueden ser lentas y complicadas para trabajar, y los conjuntos de datos lo suficientemente grandes pueden tardar horas o días en obtener respuestas. Los algoritmos inteligentes pueden permitir que se hagan cosas asombrosas con big data, pero mantenerse pequeño generalmente conduce a un análisis y una exploración más rápidos.
- Los grandes conjuntos de datos son complejos de visualizar: los gráficos con millones de puntos son imposibles de mostrar en pantallas de computadora o imágenes impresas, y mucho menos comprender conceptualmente. ¿Cómo podemos esperar entender realmente algo que no podemos ver?
- Los modelos simples no requieren datos masivos para entrenar o evaluar: una tarea típica de ciencia de datos podría ser tomar una decisión (por ejemplo, si debo ofrecer un seguro de vida a un cliente) en función de una pequeña cantidad de variables: digamos edad, sexo , altura, peso y la presencia o ausencia de condiciones médicas existentes. Si tengo los datos sobre 1 millón de personas con sus resultados de vida asociados, debería poder construir un buen modelo general de riesgo de cobertura. Probablemente no me ayudaría a construir un modelo sustancialmente mejor si tuviera estos datos de cientos de millones de personas. Los criterios de decisión sobre solo unas pocas variables (como la edad y el estado civil) no pueden ser demasiado complejos y deben ser sólidos para una gran cantidad de solicitantes. Cualquier observación que sea tan sutil que requiera datos masivos para desentrañar resultará irrelevante para una gran empresa que se basa en el volumen, y en la automatización del flujo puede consumir demasiados recursos.
El big data a veces se denominan tipos de datos incorrectos. A menudo se recopilan como el subproducto de un sistema o procedimiento determinado, en lugar de recopilarse a propósito para responder a su pregunta en cuestión. El resultado es que quizás tengamos que hacer esfuerzos heroicos para darle sentido a algo simplemente porque lo tenemos.
Consideremos el problema de obtener un pulso sobre las preferencias de los votantes entre los candidatos presidenciales. El enfoque de big data podría analizar feeds masivos de Twitter o Facebook, interpretando pistas de sus opiniones en el texto. El enfoque de datos pequeños podría consistir en realizar una encuesta, haciéndoles a unos cientos de personas esta pregunta específica y tabulando los resultados. ¿Qué procedimiento crees que resultará más preciso? El conjunto de datos correcto es el más directamente relevante para las tareas en cuestión, no necesariamente el más grande.