El desarrollo del tratamiento de la información y la minería de datos

En las últimas décadas el mundo ha sido testigo de un incremento sin precedentes en la cantidad y variedad de información sistematizada. Esta información es almacenada en distintos tipos de bases de datos, generando con el transcurrir del tiempo registros históricos que permiten explicar el pasado, entender el presente y estimar comportamientos a futuro. Puesto que la gran mayoría de las decisiones de una empresa, organización o institución se fundamentan en el análisis de información de experiencias pasadas, las citadas bases de datos y su contenido se convierten un insumo valiosísimo.

En situaciones diversas la manera tradicional de convertir los datos en conocimiento implica realizar un análisis e interpretación de forma manual. Sin embargo, esta manera de proceder tiene varias desventajas como: el tiempo empleado, el costo incurrido, además de tener un alto grado de subjetividad. Más aún, cuando la cantidad de datos es grande, la capacidad humana de comprensión es desbordada si no se cuenta con las herramientas adecuadas. En tal sentido, en varias ocasiones las decisiones se tienen que tomar sin considerar el análisis de los datos disponibles, sino siguiendo solo la intuición de las personas. Es en este contexto que surge la minería de datos, como una disciplina que permite resolver problemas analizando los datos que constan en las bases de datos.

Si se piensa por ejemplo en la ampliación de una cadena de locales de lavado de ropa, se debe analizar la información disponible de los clientes actuales para establecer el perfil de los mismos y determinar los lugares más convenientes para la instalación de nuevos locales. Un aspecto relevante para el citado fin, es analizar los datos para identificar un patrón que define las características de los clientes más leales, lo que posteriormente se emplea para determinar el número de futuros buenos clientes en cada zona.

Hasta hace algunos años, lo más común era encarar el análisis de una base de datos a partir de consultas en lenguajes como SQL, lo que se producía sobre una base de datos operacional. Sin embargo, esa forma de proceder solo permitía generar información resumida con criterios previamente establecidos, es decir con un nivel mínimo de flexibilidad y de manera poco escalable a volúmenes grandes de datos. En respuesta a las citadas limitaciones, la tecnología de bases de datos ha respondido con nuevas arquitecturas como los almacenes de datos (data warehouse en inglés).

¿Qué es un data warehouse?

Es un repositorio de fuentes heterogéneas de datos, integrados y organizados bajo un esquema unificado para facilitar su análisis y dar soporte a la toma de decisiones, lo que incluye operaciones de procesamiento analítico en línea (On-Line Analytical Processing, OLAP).

¿Qué es la tecnología OLAP – On-Line Analytical Processing?

Son técnicas de análisis que incluyen el resumen, la consolidación o agregación, así como la posibilidad de ver la información desde distintas perspectivas.

No obstante, a pesar de que las herramientas OLAP permiten realizar determinados análisis descriptivos y de sumarización, transformando datos en otros agregados o cruzados de manera sofisticada, no generan reglas o patrones que puedan ser aplicados a otros datos.

Puesto que, en varios contextos, lo que realmente se requiere es generar conocimiento a partir de los datos y la capacidad de utilizar este conocimiento, se han desarrollado otras herramientas analíticas cuyo alcance va más allá de la tecnología OLAP. Surge así la minería de datos, cuyo origen está en la estadística, como una disciplina integradora que busca generar herramientas y técnicas para respaldar la extracción de conocimiento útil a partir de la información disponible.

La minería de datos se distingue de otras aproximaciones al permitir obtener información intensional (es decir conocimiento) y no solo extensional (datos). De esta manera, el resultado de la minería de datos es un conjunto de reglas, ecuaciones, árboles de decisión, etc.  que pueden utilizarse para responder distintas interrogantes de interés.