Scala for big data

Programación práctica en scala…

La cosa más difícil para los desarrolladores de big data hoy en día es la elección de un lenguaje de programación para aplicaciones de big data.Python y R de programación, son los lenguajes de elección entre los científicos de datos para la construcción de modelos de aprendizaje de máquinas, mientras que Java sigue siendo el go-to lenguaje de programación para el desarrollo de aplicaciones hadoop. Con la llegada de varios marcos de big data como Apache Kafka y Apache Spark, el lenguaje de programación Scala ha ganado importancia entre los desarrolladores de big data.

Una encuesta reciente de Typesafe sobre el ecosistema Spark reveló que el 88% utilizaba Scala para Apache Spark, el 22% utilizaba Python y el 44% utilizaba Java. (*Las preguntas de la encuesta permitían más de una respuesta, por lo que los porcentajes totales eran superiores a 100).

La programación en Scala mostró un crecimiento del 74% en 2014 (del 2,2% en 2013 al 3,9% de crecimiento en 2014) según una encuesta de KDnuggets sobre «el lenguaje de programación con mayor crecimiento para la ciencia de datos y el análisis de datos».

Según Dice Insights en «Boston’s 10 Most In-Demand Software Skills» por Ben Hicks -el lenguaje de programación Scala se situó entre las 10 principales habilidades de software- prediciendo que será la habilidad con mayor demanda.

Mongodb

A medida que los expertos en big data continúan dándose cuenta de los beneficios de Scala para Spark y Python para Spark sobre las JVM estándar – ha habido un gran debate últimamente sobre «Scala vs. Python- ¿Cuál es un mejor lenguaje de programación para Apache Spark?». Las críticas de los científicos de datos sobre la elección de Scala Spark o Python Spark se centran en el rendimiento, la complejidad del lenguaje, la integración con las bibliotecas existentes y la mejor utilización de las capacidades básicas de Apache Spark.

Apache Spark es un marco analítico de código abierto utilizado para el procesamiento de datos a gran escala. Spark proporciona una interfaz para programar clusters enteros de servidores. Spark fue desarrollado por el AMPLab de la Universidad de Berkeley en 2009, tras lo cual se hizo de código abierto en 2010. Spark está ganando popularidad en el campo de la ciencia de los datos debido a su capacidad para procesar grandes cantidades de datos muy rápidamente. Spark se basa en el concepto de procesamiento de datos en memoria. Los datos en Apache Spark se almacenan en forma de RDD (Resilient Distributed Datasets). Apache Spark tiene los siguientes componentes:

Aprendizaje de scala: f…

Para encender un fuego, ¿se utiliza una cerilla, un mechero o una antorcha? Depende del tamaño del fuego, al igual que las decisiones que le llevan a uno a utilizar Python, R o Scala. Enciende tu interés en seleccionar las herramientas que necesitas para abordar el Big Data con facilidad, que no se apaguen sin más.

Los científicos de datos tienden a favorecer uno de los tres lenguajes de programación, Python, R o Scala. ¿Cuál elegir? Aprende Scala si eres un aspirante o un experimentado científico de datos (o ingeniero de datos) que está planeando trabajar con Apache Spark para abordar Big Data con facilidad. Esta ruta de aprendizaje ha sido desarrollada por Lightbend (anteriormente Typesafe), la autoridad indiscutible en todo lo relacionado con Scala. Acompáñanos y comienza tu viaje para recibir las siguientes insignias: Programación Scala para la Ciencia de Datos – Nivel 1 y Programación Scala para la Ciencia de Datos – Nivel 2.

El currículo de Typesafe Scala 101 para la Ciencia de Datos está diseñado para dar a los desarrolladores de datos experimentados y a la Ciencia de Datos el conocimiento para comenzar con confianza a programar en Scala para tareas de ciencia de datos. El curso asegura que tendrán una sólida comprensión de los fundamentos del lenguaje, las herramientas y el proceso de desarrollo, así como una buena apreciación de las características más avanzadas. Si los estudiantes ya tienen experiencia en la programación en Scala, este curso podría ser un repaso útil, aunque no se asume ningún conocimiento previo de Scala.

Apache hadoop

Irfan Elahi es un consultor senior en Deloitte Australia especializado en big data y machine learning. Su enfoque principal es el uso de big data y aprendizaje automático para apoyar el crecimiento de los negocios con múltiples y fuertes vínculos con las industrias de telecomunicaciones, energía, comercio minorista y medios de comunicación. Ha trabajado en varios proyectos en Australia para diseñar, crear prototipos, desarrollar y desplegar soluciones de big data de grado de producción en Amazon Web Services (AWS) y Azure para apoyar una serie de casos de uso que van desde el almacenamiento de datos de la empresa, la descarga de ETL, el análisis, el procesamiento por lotes y el procesamiento de flujo, mientras que el empleo de soluciones comerciales líderes Hadoop como Cloudera y Hortonworks. Ha trabajado estrechamente con los equipos de ingeniería de sistemas y software de los clientes utilizando DevOps para mejorar los procesos de integración continua y despliegue continuo (CICD) y gestionar las operaciones y la seguridad de un clúster Hadoop. Además de sus competencias tecnológicas, Irfan ha presentado recientemente en la Cumbre de DataWorks en Sídney sobre el tema de las tecnologías de big data en memoria y en una serie de reuniones en todo el mundo. También sigue impartiendo sesiones de transferencia de conocimientos, formación y talleres sobre big data y aprendizaje automático, tanto dentro de su empresa como en clientes. También ha puesto en marcha cursos Udemy sobre Apache Spark para el análisis de big data y la programación en R para la ciencia de los datos, con más de 18.000 estudiantes de 145 países inscritos.