Data mining big data

Data mining big data

Data mining big data

Identifique un aspecto de los grandes datos y la minería de datos que le resulte interesante

La minería de datos es un proceso de extracción y descubrimiento de patrones en grandes conjuntos de datos que implica métodos en la intersección del aprendizaje automático, la estadística y los sistemas de bases de datos[1]. La minería de datos es un subcampo interdisciplinario de la informática y la estadística con el objetivo general de extraer información (con métodos inteligentes) de un conjunto de datos y transformar la información en una estructura comprensible para su uso posterior[1][2][3][4]. [1][2][3][4] La minería de datos es la etapa de análisis del proceso de «descubrimiento de conocimiento en bases de datos», o KDD (Knowledge Discovery in Database)[5] Además de la etapa de análisis en bruto, también implica aspectos de gestión de bases de datos y datos, preprocesamiento de datos, consideraciones de modelo e inferencia, métricas de interés, consideraciones de complejidad, posprocesamiento de estructuras descubiertas, visualización y actualización en línea[1].

El término «minería de datos» es un término erróneo, ya que el objetivo es la extracción de patrones y conocimientos a partir de grandes cantidades de datos, no la extracción (minería) de los datos en sí[6]. También es una palabra de moda[7] y se aplica con frecuencia a cualquier forma de procesamiento de datos o información a gran escala (recopilación, extracción, almacenamiento, análisis y estadística), así como a cualquier aplicación de sistema informático de apoyo a la toma de decisiones, incluida la inteligencia artificial (por ejemplo, el aprendizaje automático) y la inteligencia empresarial. El libro Data mining: Practical machine learning tools and techniques with Java[8] (que cubre principalmente material de aprendizaje automático) iba a llamarse originalmente sólo Practical machine learning, y el término minería de datos sólo se añadió por razones de marketing[9] A menudo los términos más generales (a gran escala) análisis de datos y analítica -o, cuando se refiere a los métodos reales, inteligencia artificial y aprendizaje automático- son más apropiados.

Análisis de grandes datos

La tecnología digital facilita más que nunca la recopilación de datos sobre las personas y sus comportamientos. Cuando las personas se inscriben en programas de fidelización de clientes en las tiendas de comestibles, por ejemplo, se benefician ahorrando dinero. Pero las tiendas también se benefician: Cada vez que los clientes hacen una compra y pasan sus tarjetas de fidelidad, las tiendas registran digitalmente los productos que compran. Las tiendas también pueden ver qué productos les interesan a los clientes mediante el seguimiento de los enlaces en los que hacen clic en los correos electrónicos del programa de fidelización. De este modo, las tiendas pueden orientar el marketing futuro en consecuencia. Si un cliente compra siempre un determinado detergente para la ropa, por ejemplo, la tienda puede enviar una alerta por correo electrónico cuando ese producto esté en oferta. Si tiene éxito, la campaña dirigida atraerá al cliente a la tienda. Una vez allí, es probable que el cliente haga más compras, aumentando los beneficios de la tienda.

Aunque parezca sencillo, este proceso se basa en grandes cantidades de datos y complicados algoritmos para tener éxito. Hay que recopilar enormes volúmenes de información de cientos de miles de clientes, almacenarlos de forma segura y analizarlos posteriormente en busca de patrones dignos de mención. Para determinar que un cliente tiende a comprar una determinada marca de detergente hay que hacer un gran esfuerzo. La forma de procesar esta información requiere una comprensión de la minería de datos frente a los big data: las dos frases están entrelazadas, pero no son lo mismo.    Este artículo explica exactamente qué significan estos dos términos y examina cómo están influyendo cada vez más en el mundo moderno.

La minería de datos

Hoy en día, las empresas recopilan datos a un ritmo sorprendente. Las fuentes de este enorme flujo de datos son variadas. Pueden provenir de transacciones de tarjetas de crédito, datos de clientes disponibles públicamente, datos de bancos e instituciones financieras, así como los datos que los usuarios tienen que proporcionar sólo para utilizar y descargar una aplicación en sus ordenadores portátiles, teléfonos móviles, tabletas y ordenadores de sobremesa.

No es fácil almacenar cantidades tan masivas de datos. Por ello, se construyen continuamente muchos servidores de bases de datos relacionales con este fin. También se están desarrollando sistemas de protocolo transaccional en línea u OLTP para almacenar todo eso en diferentes servidores de bases de datos. Los sistemas OLTP desempeñan un papel fundamental en el buen funcionamiento de las empresas.

Son estos sistemas los que se encargan de almacenar en la base de datos los datos que salen de las transacciones más pequeñas. Así, los datos relacionados con la venta, la compra, la gestión del capital humano y otras transacciones son almacenados en servidores de bases de datos por los sistemas OLTP.

Ahora, los altos ejecutivos necesitan tener acceso a los datos para basar sus decisiones. Aquí es donde entran en escena los sistemas de procesamiento analítico en línea u OLAP. Los almacenes de datos y otros sistemas OLAP se construyen cada vez más debido a esta misma necesidad de los altos ejecutivos. No sólo necesitamos datos, sino también la analítica asociada a ellos para tomar decisiones mejores y más rentables. Los sistemas OLTP y OLAP trabajan en tándem.

Big data y negocios i…

Resultados del aprendizaje:  El objetivo del curso es proporcionar una introducción básica pero completa a la minería de datos. Al final del curso los estudiantes serán capaces de:Lo que NO aprenderás en este curso: Este curso trata de los métodos y algoritmos para encontrar información en los datos. No le proporcionará conocimientos avanzados de codificación y visualización de datos, ni formación sobre el manejo de datos y la gestión de bases de datos. Para aprender a codificar, considere asistir a DNDS 6288 Scientific Python. Para aprender a visualizar datos, considere asistir a DNDS 6002 Data and Network Visualization.

Acerca del autor

admin

Ver todos los artículos