Python big data
Apache hadoop
R y Python son lenguajes de programación de código abierto con una gran comunidad. Continuamente se añaden nuevas bibliotecas o herramientas a sus respectivos catálogos. R se utiliza principalmente para el análisis estadístico, mientras que Python ofrece un enfoque más general de la ciencia de datos.
R y Python son lo más avanzado en cuanto a lenguaje de programación orientado a la ciencia de datos. Aprender ambos es, por supuesto, la solución ideal. R y Python requieren una inversión de tiempo, y ese lujo no está al alcance de todos. Python es un lenguaje de propósito general con una sintaxis legible. R, sin embargo, está construido por estadísticos y engloba su lenguaje específico.
Académicos y estadísticos han desarrollado R a lo largo de dos décadas. En la actualidad, R cuenta con uno de los ecosistemas más ricos para realizar análisis de datos. Hay alrededor de 12000 paquetes disponibles en CRAN (repositorio de código abierto). Es posible encontrar una biblioteca para cualquier análisis que se quiera realizar. La rica variedad de bibliotecas hace que R sea la primera opción para el análisis estadístico, especialmente para el trabajo analítico especializado.
Introducción a la ciencia de los datos: un…
Bernard MarrBernard Marr es un futurista de renombre mundial, influenciador y líder de pensamiento en los campos de los negocios y la tecnología, con una pasión por el uso de la tecnología para el bien de la humanidad. Es un autor de 20 libros de gran éxito, escribe una columna periódica para Forbes y asesora y entrena a muchas de las organizaciones más conocidas del mundo. Tiene más de 2 millones de seguidores en las redes sociales, 1 millón de suscriptores al boletín de noticias y ha sido clasificado por LinkedIn como uno de los 5 principales influenciadores empresariales del mundo y el número 1 en el Reino Unido.
Github
Este tutorial demuestra el uso de Visual Studio Code y la extensión Microsoft Python con bibliotecas comunes de ciencia de datos para explorar un escenario básico de ciencia de datos. En concreto, utilizando los datos de los pasajeros del Titanic, aprenderás a configurar un entorno de ciencia de datos, importar y limpiar los datos, crear un modelo de aprendizaje automático para predecir la supervivencia en el Titanic y evaluar la precisión del modelo generado.
Visual Studio Code y la extensión de Python proporcionan un gran editor para escenarios de ciencia de datos. Con el soporte nativo para los cuadernos Jupyter combinado con Anaconda, es fácil empezar. En esta sección, crearás un espacio de trabajo para el tutorial, crearás un entorno Anaconda con los módulos de ciencia de datos necesarios para el tutorial, y crearás un cuaderno Jupyter que utilizarás para crear un modelo de aprendizaje automático.
Este tutorial utiliza el conjunto de datos Titanic disponible en OpenML.org, que se obtiene del Departamento de Bioestadística de la Universidad de Vanderbilt en https://hbiostat.org/data. Los datos del Titanic proporcionan información sobre la supervivencia de los pasajeros del Titanic, así como características de los pasajeros como la edad y la clase de billete. Utilizando estos datos, el tutorial establecerá un modelo para predecir si un determinado pasajero habría sobrevivido al hundimiento del Titanic. Esta sección muestra cómo cargar y manipular los datos en tu cuaderno Jupyter.
Ejemplo de big data en python
Si has estado leyendo nuestras publicaciones en el blog, verás que la mayoría de nuestros ejemplos de análisis de big data y ciencia de datos están escritos con código Python. ¿Por qué? ¿Por qué la mayoría de los científicos de datos parecen preferir Python?
El código Python puede ejecutarse en el shell interactivo de Python o enviarse al intérprete de Python como un trabajo por lotes. La ventaja añadida del shell interactivo es que cuando se escriben partes de un programa más grande se pueden escribir secciones individuales en el shell de la línea de comandos y éste las ejecutará. Entonces, cuando consigas que esa pequeña parte de la lógica funcione, la pegas en el programa más grande. Así que también es un bloc de notas para construir algo más grande.
Pero esta simplicidad no significa que Python esté limitado. Soporta estructuras de datos modernas, como conjuntos y mapas, así como tipos primitivos como enteros e incluso números complejos. Pero, como vemos a continuación, Python incluye Numpy, que es la principal API utilizada para lo que se llama «ecosistema de computación científica». No te preocupes. No necesitarás mucha ciencia aquí, salvo entender las matrices y el álgebra lineal, que es lo que utilizan la gran mayoría de los algoritmos de ML, incluso las redes neuronales. Numpy maneja el álgebra lineal y las matemáticas matriciales a gran escala. La mayoría de los algoritmos de aprendizaje automático operan sobre estas matrices n-dimensionales. Aparte de eso, las matemáticas no son muy complicadas. Las redes neuronales, de hecho, pasan gran parte de su tiempo adivinando soluciones, probando eso, y luego adivinando de nuevo. Así que no es muy elegante en lo que respecta a las matemáticas más avanzadas.