All Projects → a4tunado → lectures-hse-spark

a4tunado / lectures-hse-spark

Licence: other
Масштабируемое машинное обучение и анализ больших данных с Apache Spark

Programming Languages

Jupyter Notebook
11667 projects
shell
77523 projects
python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to lectures-hse-spark

Bigdata Notes
大数据入门指南 ⭐
Stars: ✭ 10,991 (+54855%)
Mutual labels:  bigdata, mapreduce
bigdata-doc
大数据学习笔记,学习路线,技术案例整理。
Stars: ✭ 37 (+85%)
Mutual labels:  bigdata, mapreduce
qs-hadoop
大数据生态圈学习
Stars: ✭ 18 (-10%)
Mutual labels:  bigdata, mapreduce
Bigslice
A serverless cluster computing system for the Go programming language
Stars: ✭ 469 (+2245%)
Mutual labels:  bigdata, mapreduce
Bigdata Interview
🎯 🌟[大数据面试题]分享自己在网络上收集的大数据相关的面试题以及自己的答案总结.目前包含Hadoop/Hive/Spark/Flink/Hbase/Kafka/Zookeeper框架的面试题知识总结
Stars: ✭ 857 (+4185%)
Mutual labels:  bigdata, mapreduce
Mobius
C# and F# language binding and extensions to Apache Spark
Stars: ✭ 929 (+4545%)
Mutual labels:  bigdata, mapreduce
big data
A collection of tutorials on Hadoop, MapReduce, Spark, Docker
Stars: ✭ 34 (+70%)
Mutual labels:  bigdata, mapreduce
Big Data Engineering Coursera Yandex
Big Data for Data Engineers Coursera Specialization from Yandex
Stars: ✭ 71 (+255%)
Mutual labels:  bigdata, mapreduce
Dpark
Python clone of Spark, a MapReduce alike framework in Python
Stars: ✭ 2,668 (+13240%)
Mutual labels:  bigdata, mapreduce
optimus
🚚 Agile Data Preparation Workflows made easy with Pandas, Dask, cuDF, Dask-cuDF, Vaex and PySpark
Stars: ✭ 1,351 (+6655%)
Mutual labels:  bigdata
bigquery-data-lineage
Reference implementation for real-time Data Lineage tracking for BigQuery using Audit Logs, ZetaSQL and Dataflow.
Stars: ✭ 112 (+460%)
Mutual labels:  bigdata
workflUX
An open-source, cloud-ready web application for simplified deployment of big data workflows.
Stars: ✭ 26 (+30%)
Mutual labels:  bigdata
Spark-MLlib-Tutorial
大数据框架 Spark MLlib 机器学习库基础算法全面讲解,附带齐全的测试文件
Stars: ✭ 32 (+60%)
Mutual labels:  bigdata
PersonNotes
个人笔记集中营,快糙猛的形式记录技术性Notes .. 📚☕️⌨️🎧
Stars: ✭ 61 (+205%)
Mutual labels:  bigdata
codefoundry
Examples for gauravbytes.com
Stars: ✭ 57 (+185%)
Mutual labels:  bigdata
awesome-coder-resources
编程路上加油站!------【持续更新中...欢迎star,欢迎常回来看看......】【内容:编程/学习/阅读资源,开源项目,面试题,网站,书,博客,教程等等】
Stars: ✭ 54 (+170%)
Mutual labels:  bigdata
bigdatatutorial
bigdatatutorial
Stars: ✭ 34 (+70%)
Mutual labels:  bigdata
Index
Metarhia educational program index 📖
Stars: ✭ 2,045 (+10125%)
Mutual labels:  lectures
study-snap
📓📲 Flutter app for managing study materials in form of photos.
Stars: ✭ 34 (+70%)
Mutual labels:  lectures
mit-6.824-distributed-systems
Template repository to work on the labs from MIT 6.824 Distributed Systems course.
Stars: ✭ 48 (+140%)
Mutual labels:  mapreduce

Масштабируемое машинное обучение и анализ больших данных с Apache Spark

Инструкция по установке Docker

Образ с предустановленным Apache Spark

Инструкция по установке Apache Spark

Инструкция по установке Docker

  1. Установите Docker Engine на вашу локальную машину: https://docs.docker.com, для windows
  2. Вы можете скачать и станровить готовый образ (i), либо собрать докер-образ самостоятельно (ii).
    1. Скачайте собранный образ по ссылке и установите его выполнив команду docker load -i <путь к скачанному файлу/spark-doker.tar>
    2. Для сборки докер-образа склонируйте репозиторий и выполните команду: docker build --no-cache --rm --tag spark - < ./docker/Dockerfile
  3. После завершения установки образа в списке докер-образов должен появится образ с именем spark:latest. Для получения списка образов выполните команду docker images
  4. Запустите контейнер, выполнив команду docker run -p 8888:8888 -it spark
  5. В случае успешного выполнения операций в браузере по адресу http://127.0.0.1:8888 должен быть доступен ноутбук с примерами к занятиям

Инструкция по установке Apache Spark

  1. Для работы с Apache Spark необходимо наличие следующих пакетов
  1. Скачать дистрибутив Apache Spark с официального сайта
  2. Распаковать скаченный дистрибутив в директорию /opt/spark-2.1.0-bin-hadoop2.7
  3. В файл ~/.bashrc добавить следующие строки
export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
  1. Проверить корректность установки можно с помощью следующего кода
from pyspark import SparkContext
sc = SparkContext('local', 'test app')
a = range(10)
a = sc.parallelize(a)
print(a.reduce(lambda x, y: x + y))
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].