El desarrollo del tratamiento de
la información y la minería de datos
En las últimas décadas el mundo ha sido testigo de un incremento sin
precedentes en la cantidad y variedad de información sistematizada. Esta
información es almacenada en distintos tipos de bases de datos, generando con
el transcurrir del tiempo registros históricos que permiten explicar el pasado,
entender el presente y estimar comportamientos a futuro. Puesto que la gran
mayoría de las decisiones de una empresa, organización o institución se fundamentan
en el análisis de información de experiencias pasadas, las citadas bases de
datos y su contenido se convierten un insumo valiosísimo.
En situaciones diversas la manera tradicional de convertir los datos en
conocimiento implica realizar un análisis e interpretación de forma manual. Sin
embargo, esta manera de proceder tiene varias desventajas como: el tiempo
empleado, el costo incurrido, además de tener un alto grado de subjetividad. Más
aún, cuando la cantidad de datos es grande, la capacidad humana de comprensión
es desbordada si no se cuenta con las herramientas adecuadas. En tal sentido,
en varias ocasiones las decisiones se tienen que tomar sin considerar el
análisis de los datos disponibles, sino siguiendo solo la intuición de las
personas. Es en este contexto que surge la minería de datos, como una disciplina
que permite resolver problemas analizando los datos que constan en las bases de
datos.
Si se piensa por ejemplo en la ampliación de una cadena de locales de
lavado de ropa, se debe analizar la información disponible de los clientes
actuales para establecer el perfil de los mismos y determinar los lugares más
convenientes para la instalación de nuevos locales. Un aspecto relevante para
el citado fin, es analizar los datos para identificar un patrón que define las
características de los clientes más leales, lo que posteriormente se emplea
para determinar el número de futuros buenos clientes en cada zona.
Hasta hace algunos años, lo más común era encarar el análisis de una
base de datos a partir de consultas en lenguajes como SQL, lo que se producía
sobre una base de datos operacional. Sin embargo, esa forma de proceder solo
permitía generar información resumida con criterios previamente establecidos,
es decir con un nivel mínimo de flexibilidad y de manera poco escalable a
volúmenes grandes de datos. En respuesta a las citadas limitaciones, la
tecnología de bases de datos ha respondido con nuevas arquitecturas como los
almacenes de datos (data warehouse en
inglés).
¿Qué es un data warehouse?
Es un repositorio de fuentes heterogéneas de datos, integrados y
organizados bajo un esquema unificado para facilitar su análisis y dar soporte
a la toma de decisiones, lo que incluye operaciones de procesamiento analítico
en línea (On-Line Analytical Processing,
OLAP).
¿Qué es la tecnología OLAP –
On-Line Analytical Processing?
Son técnicas de análisis que incluyen el resumen, la consolidación o
agregación, así como la posibilidad de ver la información desde distintas
perspectivas.
No obstante, a pesar de que las herramientas OLAP permiten realizar
determinados análisis descriptivos y de sumarización, transformando datos en
otros agregados o cruzados de manera sofisticada, no generan reglas o patrones
que puedan ser aplicados a otros datos.
Puesto que, en varios contextos, lo que realmente se requiere es generar
conocimiento a partir de los datos y la capacidad de utilizar este
conocimiento, se han desarrollado otras herramientas analíticas cuyo alcance va
más allá de la tecnología OLAP. Surge así la minería de datos, cuyo origen está
en la estadística, como una disciplina integradora que busca generar
herramientas y técnicas para respaldar la extracción de conocimiento útil a
partir de la información disponible.
La minería de datos se distingue de otras aproximaciones al permitir
obtener información intensional (es decir conocimiento) y no solo extensional
(datos). De esta manera, el resultado de la minería de datos es un conjunto de
reglas, ecuaciones, árboles de decisión, etc.
que pueden utilizarse para responder distintas interrogantes de interés.
Publicar un comentario
Publicar un comentario