All Projects → manuparra → taller_SparkR

manuparra / taller_SparkR

Licence: other
Taller SparkR para las Jornadas de Usuarios de R

Programming Languages

HTML
75241 projects
Jupyter Notebook
11667 projects

Projects that are alternatives of or similar to taller SparkR

genie
Genie: A Fast and Robust Hierarchical Clustering Algorithm (this R package has now been superseded by genieclust)
Stars: ✭ 21 (+75%)
Mutual labels:  data-mining, machine-learning-algorithms, data-analysis
leaflet heatmap
简单的可视化湖州通话数据 假设数据量很大,没法用浏览器直接绘制热力图,把绘制热力图这一步骤放到线下计算分析。使用Apache Spark并行计算数据之后,再使用Apache Spark绘制热力图,然后用leafletjs加载OpenStreetMap图层和热力图图层,以达到良好的交互效果。现在使用Apache Spark实现绘制,可能是Apache Spark不擅长这方面的计算或者是我没有设计好算法,并行计算的速度比不上单机计算。Apache Spark绘制热力图和计算代码在这 https://github.com/yuanzhaokang/ParallelizeHeatmap.git .
Stars: ✭ 13 (+8.33%)
Mutual labels:  bigdata, hdfs, data-analysis
Model Describer
model-describer : Making machine learning interpretable to humans
Stars: ✭ 22 (+83.33%)
Mutual labels:  data-mining, machine-learning-algorithms, data-analysis
Nmflibrary
MATLAB library for non-negative matrix factorization (NMF): Version 1.8.1
Stars: ✭ 153 (+1175%)
Mutual labels:  machine-learning-algorithms, bigdata, data-analysis
genieclust
Genie++ Fast and Robust Hierarchical Clustering with Noise Point Detection - for Python and R
Stars: ✭ 34 (+183.33%)
Mutual labels:  data-mining, machine-learning-algorithms, data-analysis
Spring2017 proffosterprovost
Introduction to Data Science
Stars: ✭ 18 (+50%)
Mutual labels:  data-mining, machine-learning-algorithms, data-analysis
Tipdm
TipDM建模平台,开源的数据挖掘工具。
Stars: ✭ 130 (+983.33%)
Mutual labels:  data-mining, bigdata, data-analysis
Amazing Feature Engineering
Feature engineering is the process of using domain knowledge to extract features from raw data via data mining techniques. These features can be used to improve the performance of machine learning algorithms. Feature engineering can be considered as applied machine learning itself.
Stars: ✭ 218 (+1716.67%)
Mutual labels:  data-mining, data-analysis
Deepgraph
Analyze Data with Pandas-based Networks. Documentation:
Stars: ✭ 232 (+1833.33%)
Mutual labels:  data-mining, data-analysis
Suod
(MLSys' 21) An Acceleration System for Large-scare Unsupervised Heterogeneous Outlier Detection (Anomaly Detection)
Stars: ✭ 245 (+1941.67%)
Mutual labels:  data-mining, machine-learning-algorithms
bigdata-doc
大数据学习笔记,学习路线,技术案例整理。
Stars: ✭ 37 (+208.33%)
Mutual labels:  bigdata, hdfs
Pyss3
A Python package implementing a new machine learning model for text classification with visualization tools for Explainable AI
Stars: ✭ 191 (+1491.67%)
Mutual labels:  data-mining, machine-learning-algorithms
Python practice of data analysis and mining
《Python数据分析与挖掘实战》随书源码与数据
Stars: ✭ 172 (+1333.33%)
Mutual labels:  data-mining, data-analysis
Datascience
Curated list of Python resources for data science.
Stars: ✭ 3,051 (+25325%)
Mutual labels:  data-mining, data-analysis
Data Science Resources
👨🏽‍🏫You can learn about what data science is and why it's important in today's modern world. Are you interested in data science?🔋
Stars: ✭ 171 (+1325%)
Mutual labels:  data-mining, data-analysis
Heart disease prediction
Heart Disease prediction using 5 algorithms
Stars: ✭ 43 (+258.33%)
Mutual labels:  data-mining, machine-learning-algorithms
Pipeline
the `pipeline` shell command
Stars: ✭ 168 (+1300%)
Mutual labels:  data-mining, data-analysis
PaperWeeklyAI
📚「@MaiweiAI」Studying papers in the fields of computer vision, NLP, and machine learning algorithms every week.
Stars: ✭ 50 (+316.67%)
Mutual labels:  data-mining, machine-learning-algorithms
greycat
GreyCat - Data Analytics, Temporal data, What-if, Live machine learning
Stars: ✭ 104 (+766.67%)
Mutual labels:  machine-learning-algorithms, bigdata
heidi
heidi : tidy data in Haskell
Stars: ✭ 24 (+100%)
Mutual labels:  data-mining, data-analysis

Taller de "Procesamiento masivo de datos con SparkR"

================

Spark+R

VIII Jornadas Usuarios de R, Albacete (España) el 17-18 de noviembre de 2016

Jornadas_R_Albacete

Imparte el taller:

Manuel Jesús Parra Royón [email protected]

PhD student. BigData time series data mining.

Departamento de Ciencias de la Computación e Inteligencia Artificial.

Distributed Computational Intelligence and Time Series Laboratory

Universidad de Granada

Objetivos

Los objetivos del taller de SparkR son los siguientes:

  • Conocer la problemática del procesamiento masivo de datos.
  • Fijar concepto y práctica sobre uso R sobre Spark para el procesado masivo de datos.
  • Instalar y configurar el sistema completo para poder trabajar con R y Spark.
  • Trabajar con datos masivos (filtrado, agregado, transformaciones), procesar datasets masivos son SparkSQL, etc..
  • Analizar datasets con las librerías de Machine Learning de los paquetes SparkR y sparklry
  • Utilizar herramientas para visualizar los datos de datasets masivos.

Contenido

En el taller de procesamiento masivo de datos con SparkR veremos lo siguiente:

1.- Introducción al procesamiento de datos masivos. Breve introducción al procesamiento de datos, el problema de trabajar con grandes conjuntos de datos, Hadoop,Motivación de Spark, características, etc...

2.- Notas sobre R, Spark y SparkR
Introducción a R, motivación de R para datos 'pequeños' y datos 'grandes', Spark y sus características, biblioteca de SparkR para análisis de datos masivos con R.

3.- Instalación de las herramientas necesarias para el taller
Veremos todas las herramientas necesarias para poder trabajar con el entorno de SparkR, así como la instalación y puesta en marcha de toda la infraestructura necesaria para el taller. Inicio del entorno de trabajo habitual para trabajar en el taller.

4.- Entorno de trabajo del taller
Detalles del manejo del entorno de trabajo con JupyterNotebooks y Spark + R

5.- Inicio del entorno de trabajo
Flujo de trabajo con Spark + R

6.- Primeros pasos con SparkR
Trabajo con ejemplos de uso de Spark + R

7.- Lectura y Escritura de datos con SparkR
Trabajo con fuentes de datos, y tipos de conjuntos de datos, CSV, JSON, Parquet, ... Lectura y Escritura. Esquemas, y breve trabajo con SparkSQL.

8.- Operaciones y procesado de SparkDataFrames
Trabajamos y procesamos conjuntos de datos masivos con SparkSQL y funciones de agregación, filtrado, selección, etc. Usamos flujos de trabajo con magrittr. Revisamos la funcionalidad completa de la biblioteca de SparkR.

9.- Minería de datos con la biblioteca de SparkR
Aplicamos las técnicas de minería de datos y Machine Learning que proporciona SparkR: GLM, KMeans, NaiveBayes y AFT.

10.- Minería de datos con la biblioteca sparklyr
Utilizamos la funcionalidad de la biblioteca sparklyr para procesar conjuntos de datos. Aplicamos los métodos de minería de datos y otras operaciones.

11.- Visualización de datos
Visualización de datos masivos con la herramienta Zeppelin (beta) y spark.ggplot2.

Material del taller

Descarga de la Máquina Virtual VirtualBox: All-in-one

La máquina virtual para el Taller completo contiene todas las herramientas necesitas para el desarrollo del trabajo, por lo tanto es la opción más sencilla para poder empezar y ponerse manos a la obra con el taller.

Descargar la máquina virtual del taller: https://drive.google.com/file/d/0ByPBMv-S_GMEakRCVVRTejZKVm8/view?usp=sharing (aprox: 4 GB)

Los datos de acceso a la Máquina Virtual son:

usuario: root
clave: sparkR

Requisitos necesarios para trabajar con la Máquina Virtual:

  • Tener instalado VIRTUALBOX, disponible en: https://www.virtualbox.org/wiki/Downloads
  • Disponer de al menos 2GB de RAM para la Máquina Virtual
  • El PC debe ser de 64bits y contar con al menos 4GB de RAM (2GB para la MVirtual y otros 2GB para el PC)
  • Compatible con Windows, Mac OSX y Linux

Inicio del entorno de trabajo en la Máquina Virtual

Dentro de la Máquina Virtual es necesario ejecutar los siguientes comandos antes de trabajar en el taller:

1 Arrancamos el entorno de Spark:

	/usr/local/spark/sbin/start-all.sh

2 Arrancamos JupyterNotebook:

	jupyter notebook --notebook-dir=/root/TallerSparkR --no-browser --port=8888 --ip=0.0.0.0

Entornos de trabajo disponibles :

Hay 2 entornos de trabajo disponibles para trabajar con la Máquina Virtual en SparkR.

Jupyter

Para usar SparkR desde Jupyter Notebooks, accede desde tu navegador a:

  http://localhost:25980

JupyterNotebook

RStudio

Para usar SparkR desde RStudio, accede desde tu navegador a:

  http://localhost:8787

El usuario por defecto es: test y la clave: test

RStudio

Para trabajar con SparkR desde RStudio, es necesario indicar al principio de los scripts en R:

# Biblioteca y ruta absoluta a SparkR
.libPaths(c(file.path("/usr/local/spark/","R/lib/"),.libPaths()))
library(SparkR)

Taller práctico.

Puedes empezar el taller práctico (PARTE 2) tanto desde Jupyter como RStudio, siguiendo los siguientes enlaces a la documentación:

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].