Learning spark: lightning-fast big data analysis

Learning spark: lightning-fast big data analysis

Learning spark: lightning-fast big data analysis

aprendiendo spark – análisis de big data rápido como un rayo pdf github

Le damos la bienvenida a la segunda edición de Learning Spark. Han pasado cinco años desde que se publicó la primera edición en 2015, originalmente escrita por Holden Karau, Andy Konwinski, Patrick Wendell y Matei Zaharia. Esta nueva edición se ha actualizado para reflejar la evolución de Apache Spark a través de Spark 2.x y Spark 3.0, incluyendo su ecosistema ampliado de fuentes de datos incorporadas y externas, el aprendizaje automático y las tecnologías de streaming con las que Spark está estrechamente integrado.A lo largo de los años desde su primera versión 1.x, Spark se ha convertido en el motor de procesamiento unificado de big data de facto. A lo largo del camino, ha ampliado su alcance para incluir el soporte de varias cargas de trabajo analíticas. Nuestra intención es capturar y curar esta evolución para los lectores, mostrando no sólo cómo se puede utilizar Spark, sino cómo encaja en la nueva era de los grandes datos y el aprendizaje automático. Por lo tanto, hemos diseñado cada capítulo para construir progresivamente sobre las bases establecidas por los capítulos anteriores, asegurando que el contenido es adecuado para nuestro público objetivo.

aprendiendo spark 2ª edición

abstract = {Este libro presenta Apache Spark, el sistema de computación en cluster de código abierto que hace que el análisis de datos sea rápido de escribir y rápido de ejecutar. Aprenderá a expresar trabajos paralelos con sólo unas pocas líneas de código, y cubrirá aplicaciones desde simples trabajos por lotes hasta el procesamiento de flujos y el aprendizaje automático,}

%X Este libro presenta Apache Spark, el sistema de computación en cluster de código abierto que hace que el análisis de datos sea rápido de escribir y rápido de ejecutar. Aprenderá a expresar trabajos paralelos con sólo unas pocas líneas de código, y cubrirá aplicaciones desde simples trabajos por lotes hasta el procesamiento de flujos y el aprendizaje automático.

aprendizaje de spark 2ª edición github

Los datos en todos los ámbitos son cada vez más grandes. ¿Cómo se puede trabajar con ellos de forma eficiente? Recientemente actualizado para Spark 1.3, este libro presenta Apache Spark, el sistema de computación en cluster de código abierto que hace que el análisis de datos sea rápido de escribir y rápido de ejecutar. Con Spark, puede abordar rápidamente grandes conjuntos de datos mediante sencillas API en Python, Java y Scala. Esta edición incluye nueva información

Los datos en todos los ámbitos son cada vez más grandes. ¿Cómo se puede trabajar con ellos de forma eficiente? Recientemente actualizado para Spark 1.3, este libro presenta Apache Spark, el sistema de computación en clúster de código abierto que hace que el análisis de datos sea rápido de escribir y rápido de ejecutar. Con Spark, puede abordar rápidamente grandes conjuntos de datos mediante sencillas API en Python, Java y Scala. Esta edición incluye nueva información sobre Spark SQL, Spark Streaming, configuración y coordenadas de Maven.

Escrito por los desarrolladores de Spark, este libro hará que los científicos e ingenieros de datos se pongan en marcha en poco tiempo. Aprenderá a expresar trabajos paralelos con sólo unas pocas líneas de código, y cubrirá aplicaciones desde simples trabajos por lotes hasta procesamiento de flujos y aprendizaje automático.

libro de aprendizaje de spark pdf

Hoy en día, Spark se ha convertido en uno de los proyectos más activos del ecosistema Hadoop, con muchas organizaciones que adoptan Spark junto a Hadoop para procesar big data. En 2017, Spark contaba con 365.000 miembros en meetup, lo que representa un crecimiento de 5 veces en dos años. Ha recibido la contribución de más de 1.000 desarrolladores de más de 200 organizaciones desde 2009.

Hadoop MapReduce es un modelo de programación para procesar conjuntos de big data con un algoritmo paralelo y distribuido. Los desarrolladores pueden escribir operadores masivamente paralelos, sin tener que preocuparse por la distribución del trabajo y la tolerancia a fallos. Sin embargo, un reto de MapReduce es el proceso secuencial de varios pasos que se necesita para ejecutar un trabajo. En cada paso, MapReduce lee datos del clúster, realiza operaciones y escribe los resultados en HDFS. Dado que cada paso requiere una lectura y escritura en el disco, los trabajos de MapReduce son más lentos debido a la latencia de la E/S del disco.

Spark se creó para hacer frente a las limitaciones de MapReduce, realizando el procesamiento en memoria, reduciendo el número de pasos en un trabajo y reutilizando los datos en múltiples operaciones paralelas. Con Spark, sólo se necesita un paso en el que se leen los datos en la memoria, se realizan las operaciones y se escriben los resultados, lo que da lugar a una ejecución mucho más rápida. Spark también reutiliza los datos utilizando una caché en memoria para acelerar en gran medida los algoritmos de aprendizaje automático que llaman repetidamente a una función sobre el mismo conjunto de datos. La reutilización de los datos se consigue mediante la creación de DataFrames, una abstracción sobre Resilient Distributed Dataset (RDD), que es una colección de objetos que se almacena en la memoria y se reutiliza en múltiples operaciones de Spark. Esto reduce drásticamente la latencia, haciendo que Spark sea varias veces más rápido que MapReduce, especialmente cuando se realiza aprendizaje automático y análisis interactivo.

Acerca del autor

admin

Ver todos los artículos