Minería de datos
De Freepedia, la enciclopedia libre.
Minería de Datos o Data mining, también conocido como KDD (Knowledge Discovery in Databases) se puede definir como "extracción no trivial de información implícita, desconocida previamente, y potencialmente útil desde los datos", y consiste en el conjunto de técnicas avanzadas para la extracción de información escondida en grandes bases de datos.
Las bases de datos actuales han acumulado una gran variedad y cantidad de datos, estadísticas, índices, etc. en los cuales la información útil no es fácil de encontrar o inferir a simple vista. Muchas empresas o entidades están interesadas en rescatar esa información y con la utilización de estas herramientas se pueden generar nuevas oportunidades de negocio. Algunas posibilidades que ofrecen estas herramientas son:
- mejorar el funcionamiento de la organización.
- Optimizar el manejo de sus bases de datos.
- Predicción automatizada de tendencias y comportamientos.
- obtener ventajas comerciales.
- mejorar calidad de productos.
- Descubrimiento automatizado de modelos desconocidos.
- Descubrimiento de anomalías y acciones fraudulentas por parte de clientes.
Las técnicas de Data mining son utilizadas habitualmente para el análisis y explotación de datos de un Data warehouse. El uso del Data mining puede ser provechoso por ejemplo en el caso de poseer un Data warehouse que contenga datos sobre sus procesos productivos, datos de seguimiento de clientes, datos externos de mercado, datos sobre la actividad de competidores, etc.
Ultimamente, una de las herramientas que se utilizan con éxito en Data Mining son las Redes Neuronales Artificiales, que ayudan a encontrar patrones y clasificar o categorizar datos.
Ejemplos prácticos
La Minería de Datos encuentra su mejor utilización en empresas de distribución, fabricantes de productos de gran consumo o de servicios. Su objetivo es encontrar relaciones en sus bases de datos que no resultan evidentes a simple vista. Ello, les habilitará para diseñar estrategias o realizar acciones comerciales o publicitarias sobre sus clientes con un mayor índice de efectividad.
Un ejemplo claro es el de la entidad financiera que analizando los datos obtenidos a través de diferentes canales (teléfono, internet, cajero automático) detecta algunos patrones de comportamiento de aquéllos clientes que pretenden cancelar una cuenta. Ello les permite anticiparse y evitar este desenlace enviando una carta promocional al usuario o realizando una acción comercial directa.
Otro ejemplo clásico es el del supermercado que detectó que un determinado día de la semana las señoras compraban cerveza junto con pañales de bebé. La razón es que en dicha fecha transmitían por televisión un partido de fútbol americano que visionaban sus maridos. Ellas bajaban al supermercado a comprarles cerveza y, al tratarse de matrimonios jóvenes con hijos, aprovechaban para comprar pañales para los niños. La investigación permitió optimizar la colocación de producto dentro de la tienda para potenciar sus ventas.
Se dice que los resultados que arroja la minería de datos, son en su mayoría conocidos o despreciables pero que existe una pequeña porción que se pueden considerar "perlas". Son éstas las que conducen a la identificación de nichos de mercado para la compañía que se pueden atender mediante acciones específicas.
Minería de datos
Las técnicas de minería de datos se emplean para mejorar el rendimiento de procesos de negocio o industriales en los que se manejan grandes volúmenes de información estructurada y almacenada en bases de datos.
Por ejemplo, se usan con éxito en aplicaciones de control de procesos productivos, como herramienta de ayuda a la planificación y a la decisión en marketing, finanzas, etc.
Asimismo, la minería de datos es fundamental en la investigación científica y técnica, como herramienta de análisis y descubrimiento de conocimiento a partir de datos de observación o de resultados de experimentos.
- Fases de un Proyecto de Minería de Datos
Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.
El proceso de minería de datos pasa por las siguientes fases:
- Filtrado de datos
- Selección de Variables
- Extracción de Conocimiento
- Interpretación y Evaluación
- Fases de un Proyecto de Minería de Datos. Filtrado de datos
El formato de los datos contenidos en la fuente de datos nunca es el idóneo, y la mayoría de las veces no es posible utilizar ningún algoritmo de minería. Mediante el preprocesado, se filtran los datos (se eliminan valores incorrectos, no válidos, desconocidos... ), se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).
- Fases de un Proyecto de Minería de Datos. Selección de variables
Aún después de haber sido preprocesados, se sigue teniendo una cantidad ingente de datos. La selección de características reduce el tamaño de los datos, eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son dos: - Los basados en la elección de los mejores atributos del problema - Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
- Fases de un Proyecto de Minería de Datos. Extracción de Conocimiento
Mediante una técnica se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos.
- Fases de un Proyecto de Minería de Datos. Interpretación y evaluación
Finalmente se procede a su validación, comprobando que las conclusiones son válidas y satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, se alterará alguno de los procesos anteriores en busca de nuevos modelos.



