Algoritmos big data

Algoritmos big data

Algoritmos big data

Algoritmos de aprendizaje automático para el análisis de big data

El error verdadero errorD (h) de la hipótesis h con respecto a la función objetivo c y la distribución probabilística D es la probabilidad de que la hipótesis h clasifique erróneamente una instancia seleccionada al azar según D (errorD(h) ≡ Prx∈ D [c(x) ≠ h(x)])

Consideremos una clase conceptual C definida sobre un conjunto de instancias X de longitud n (n es el tamaño de las instancias, es decir, el tamaño de su representación) y un aprendiz L que utiliza el espacio de hipótesis H. C es PAC-aprendible por L usando H si para todo c ∈ C, distribución D sobre X, ε tal que 0 < ε <(\frac{1}{2}\), δ tal que 0 < δ <, el aprendiz L, con probabilidad de al menos 1 – δ (confianza), emitirá una hipótesis h ∈ H tal que el errorD (h)≤ ε, en un tiempo que es polinomial en \(\frac{1}{epsilon}\), \(\frac{1}{delta}), n.

m es la cantidad de datos necesarios para asegurar que cualquier hipótesis consistente será probablemente (con probabilidad (1-δ)) aproximadamente (dentro del error ε) correcta. Observamos que m crece linealmente en 1/ε y logarítmicamente en 1/δ y H. Lo que significa que a medida que ε se hace más pequeño (es decir, a medida que queremos una hipótesis más precisa), necesitamos más y más datos. Como hay más hipótesis en nuestro espacio de hipótesis, también necesitamos ver más datos. Del mismo modo, a medida que crece la probabilidad de un aprendiz aproximadamente correcto. Más claramente, a medida que consideramos más clasificadores posibles, o deseamos un menor error o una mayor probabilidad de corrección, necesitamos absolutamente más datos. Sin embargo, cabe destacar que sólo hay una dependencia logarítmica de 1/δ, lo que significa que podemos aprender con una probabilidad de error exponencialmente pequeña utilizando sólo un número polinomial de datos de entrenamiento. También hay una dependencia logarítmica del número de hipótesis H, lo que significa que incluso si hay un número exponencial de hipótesis en nuestro espacio de hipótesis, todavía podemos hacer el aprendizaje con una cantidad polinómica de datos.El papel teórico y la influencia de los datos en el proceso de aprendizaje enfatizado antes, han sido apoyados por un gran número de estudios empíricos [41,42,43] que basados en observaciones y experiencias prácticas han confirmado la premisa de «usar más datos de entrenamiento es necesario para mejorar el rendimiento». La figura 4 es un ejemplo de curva de aprendizaje de algunos de estos trabajos.

Aprendizaje automático

Este sitio web contiene material de investigación del SCI2S sobre algoritmos de preprocesamiento de datos, inteligencia computacional y clasificación con conjuntos de datos desequilibrados en el escenario del Big Data. Toda la información que se muestra aquí está relacionada con los siguientes artículos de la revista SCI2S y los algoritmos desarrollados:

A lo largo de este sitio web, también hemos incluido el código fuente de los algoritmos asociados a los anteriores artículos, así como nuevos enfoques que están en desarrollo. Los lectores pueden encontrar las implementaciones en los correspondientes enlaces de Github y Spark Packages colocados en las secciones dedicadas a describir cada marco. Ambos están marcados con el logotipo correspondiente:

La estructura heterogénea, la diversa dimensionalidad y la variedad de la representación de los datos, también tiene importancia en este tema. Basta pensar en las antiguas aplicaciones que llevan a cabo el registro de datos: diferentes implementaciones de software darán lugar a diferentes esquemas y protocolos (T. Schlieski y B.D. Johnson.  Entertainment in the age of big data.  Proceedings of the IEEE, 100(Centennial-Issue):1404-1408, 2012).

Algoritmos de minería de datos

Hay un fervor en el aire cuando se trata de los temas de big data y analítica avanzada. Las principales empresas de análisis han escrito ampliamente sobre lo que las iniciativas en torno a estos conceptos pueden hacer para revolucionar las empresas en la era digital. Las empresas de la lista Fortune 500 de todo el mundo están invirtiendo fuertemente en big data y analítica avanzada y están viendo beneficios directos en los resultados de sus empresas. El problema es que muchas empresas también quieren conseguir resultados increíbles pero no saben exactamente por dónde empezar.

La analítica avanzada suele comenzar con un único caso de uso. Esto incluye la aplicación de nuevos métodos de transformación y análisis de datos para descubrir tendencias y patrones previamente desconocidos dentro de sus datos. Cuando esta nueva información se aplica luego a los procesos empresariales y a las normas de funcionamiento, tiene el potencial de transformar su negocio.

La regresión lineal es uno de los algoritmos más básicos de la analítica avanzada. Esto también hace que sea uno de los más utilizados. La gente puede visualizar fácilmente cómo funciona y cómo se relacionan los datos de entrada con los de salida.

Algoritmos de análisis de big data

El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. «Hay pocas dudas de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos»[4].

El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión para las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].

Acerca del autor

admin

Ver todos los artículos