Cheap and reliable Node.js hosting starts at $3/month, and $1/month static HTML hosting

Created with love in Canada, visit hostnodejs.com today

Feel like to post an Ad? Learn Details

All Projects → a4tunado → lectures-hse-spark

a4tunado / lectures-hse-spark

Licence: other

Масштабируемое машинное обучение и анализ больших данных с Apache Spark

Programming Languages

Jupyter Notebook

11667 projects

77523 projects

139335 projects - #7 most used programming language

Labels

machine-learning lectures spark bigdata mapreduce

Projects that are alternatives of or similar to lectures-hse-spark

大数据入门指南 ⭐

Stars: ✭ 10,991 (+54855%)

Mutual labels: bigdata, mapreduce

大数据学习笔记，学习路线，技术案例整理。

Stars: ✭ 37 (+85%)

Mutual labels: bigdata, mapreduce

大数据生态圈学习

Stars: ✭ 18 (-10%)

Mutual labels: bigdata, mapreduce

A serverless cluster computing system for the Go programming language

Stars: ✭ 469 (+2245%)

Mutual labels: bigdata, mapreduce

Bigdata Interview

🎯 🌟[大数据面试题]分享自己在网络上收集的大数据相关的面试题以及自己的答案总结.目前包含Hadoop/Hive/Spark/Flink/Hbase/Kafka/Zookeeper框架的面试题知识总结

Stars: ✭ 857 (+4185%)

Mutual labels: bigdata, mapreduce

C# and F# language binding and extensions to Apache Spark

Stars: ✭ 929 (+4545%)

Mutual labels: bigdata, mapreduce

A collection of tutorials on Hadoop, MapReduce, Spark, Docker

Stars: ✭ 34 (+70%)

Mutual labels: bigdata, mapreduce

Big Data Engineering Coursera Yandex

Big Data for Data Engineers Coursera Specialization from Yandex

Stars: ✭ 71 (+255%)

Mutual labels: bigdata, mapreduce

Python clone of Spark, a MapReduce alike framework in Python

Stars: ✭ 2,668 (+13240%)

Mutual labels: bigdata, mapreduce

🚚 Agile Data Preparation Workflows made easy with Pandas, Dask, cuDF, Dask-cuDF, Vaex and PySpark

Stars: ✭ 1,351 (+6655%)

Mutual labels: bigdata

bigquery-data-lineage

Reference implementation for real-time Data Lineage tracking for BigQuery using Audit Logs, ZetaSQL and Dataflow.

Stars: ✭ 112 (+460%)

Mutual labels: bigdata

An open-source, cloud-ready web application for simplified deployment of big data workflows.

Stars: ✭ 26 (+30%)

Mutual labels: bigdata

Spark-MLlib-Tutorial

大数据框架 Spark MLlib 机器学习库基础算法全面讲解,附带齐全的测试文件

Stars: ✭ 32 (+60%)

Mutual labels: bigdata

个人笔记集中营，快糙猛的形式记录技术性Notes .. 📚☕️⌨️🎧

Stars: ✭ 61 (+205%)

Mutual labels: bigdata

Examples for gauravbytes.com

Stars: ✭ 57 (+185%)

Mutual labels: bigdata

awesome-coder-resources

编程路上加油站！------【持续更新中...欢迎star,欢迎常回来看看......】【内容：编程/学习/阅读资源，开源项目,面试题,网站,书,博客,教程等等】

Stars: ✭ 54 (+170%)

Mutual labels: bigdata

bigdatatutorial

bigdatatutorial

Stars: ✭ 34 (+70%)

Mutual labels: bigdata

Metarhia educational program index 📖

Stars: ✭ 2,045 (+10125%)

Mutual labels: lectures

📓📲 Flutter app for managing study materials in form of photos.

Stars: ✭ 34 (+70%)

Mutual labels: lectures

mit-6.824-distributed-systems

Template repository to work on the labs from MIT 6.824 Distributed Systems course.

Stars: ✭ 48 (+140%)

Mutual labels: mapreduce

View All Similar Projects ➔

Масштабируемое машинное обучение и анализ больших данных с Apache Spark

Инструкция по установке Docker

Образ с предустановленным Apache Spark

Инструкция по установке Apache Spark

Инструкция по установке Docker

Установите Docker Engine на вашу локальную машину: https://docs.docker.com, для windows
Вы можете скачать и станровить готовый образ (i), либо собрать докер-образ самостоятельно (ii).
1. Скачайте собранный образ по ссылке и установите его выполнив команду docker load -i <путь к скачанному файлу/spark-doker.tar>
2. Для сборки докер-образа склонируйте репозиторий и выполните команду: docker build --no-cache --rm --tag spark - < ./docker/Dockerfile
После завершения установки образа в списке докер-образов должен появится образ с именем spark:latest. Для получения списка образов выполните команду docker images
Запустите контейнер, выполнив команду docker run -p 8888:8888 -it spark
В случае успешного выполнения операций в браузере по адресу http://127.0.0.1:8888 должен быть доступен ноутбук с примерами к занятиям

Инструкция по установке Apache Spark

Для работы с Apache Spark необходимо наличие следующих пакетов

Java SE Development Kit https://www.java.com
Scala Build Tool http://www.scala-sbt.org
Python 2.7 https://www.python.org
Jupiter Notebook http://jupyter.org

Скачать дистрибутив Apache Spark с официального сайта
Распаковать скаченный дистрибутив в директорию /opt/spark-2.1.0-bin-hadoop2.7
В файл ~/.bashrc добавить следующие строки

export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH

Проверить корректность установки можно с помощью следующего кода

from pyspark import SparkContext
sc = SparkContext('local', 'test app')
a = range(10)
a = sc.parallelize(a)
print(a.reduce(lambda x, y: x + y))

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].

Stars: ✭ 20

Visit Git Page 🔗Visit User Page 🔗Visit Issues Page (0) 🔗