WASP is a framework to build complex real time big data applications. It relies on a kind of Kappa/Lambda architecture mainly leveraging Kafka and Spark. If you need to ingest huge amount of heterogeneous data and analyze them through complex pipelines, this is the framework for you.

Stars: ✭ 19 (-5%)

Mutual labels: yarn, hadoop, hdfs

Dockerfiles

50+ DockerHub public images for Docker & Kubernetes - Hadoop, Kafka, ZooKeeper, HBase, Cassandra, Solr, SolrCloud, Presto, Apache Drill, Nifi, Spark, Consul, Riak, TeamCity and DevOps tools built on the major Linux distros: Alpine, CentOS, Debian, Fedora, Ubuntu

Stars: ✭ 847 (+4135%)

Mutual labels: spark, cassandra, hadoop

Learning Spark

零基础学习spark，大数据学习

Stars: ✭ 37 (+85%)

Mutual labels: spark, hadoop, hdfs

Szt Bigdata

深圳地铁大数据客流分析系统🚇🚄🌟

Stars: ✭ 826 (+4030%)

Mutual labels: spark, hadoop, flink

leaflet heatmap

简单的可视化湖州通话数据假设数据量很大，没法用浏览器直接绘制热力图，把绘制热力图这一步骤放到线下计算分析。使用Apache Spark并行计算数据之后，再使用Apache Spark绘制热力图，然后用leafletjs加载OpenStreetMap图层和热力图图层，以达到良好的交互效果。现在使用Apache Spark实现绘制，可能是Apache Spark不擅长这方面的计算或者是我没有设计好算法，并行计算的速度比不上单机计算。Apache Spark绘制热力图和计算代码在这 https://github.com/yuanzhaokang/ParallelizeHeatmap.git .

Stars: ✭ 13 (-35%)

Mutual labels: spark, hadoop, hdfs

bigdata-doc

大数据学习笔记，学习路线，技术案例整理。

Stars: ✭ 37 (+85%)

Mutual labels: hadoop, hdfs, flink

dockerfiles

Multi docker container images for main Big Data Tools. (Hadoop, Spark, Kafka, HBase, Cassandra, Zookeeper, Zeppelin, Drill, Flink, Hive, Hue, Mesos, ... )

Stars: ✭ 29 (+45%)

Mutual labels: cassandra, hadoop, flink

Devops Python Tools

80+ DevOps & Data CLI Tools - AWS, GCP, GCF Python Cloud Function, Log Anonymizer, Spark, Hadoop, HBase, Hive, Impala, Linux, Docker, Spark Data Converters & Validators (Avro/Parquet/JSON/CSV/INI/XML/YAML), Travis CI, AWS CloudFormation, Elasticsearch, Solr etc.

Stars: ✭ 406 (+1930%)

Mutual labels: spark, hadoop, hdfs

Dataspherestudio

DataSphereStudio is a one stop data application development& management portal, covering scenarios including data exchange, desensitization/cleansing, analysis/mining, quality measurement, visualization, and task scheduling.

Stars: ✭ 1,195 (+5875%)

Mutual labels: spark, hadoop, flink

Bigdata Notebook

Stars: ✭ 100 (+400%)

Mutual labels: spark, hadoop, flink

df data service

DataFibers Data Service

Stars: ✭ 31 (+55%)

Mutual labels: hadoop, flink

Teddy

Spark Streaming监控平台，支持任务部署与告警、自启动

Stars: ✭ 120 (+500%)

Mutual labels: spark, yarn

Elassandra

Elassandra = Elasticsearch + Apache Cassandra

Stars: ✭ 1,610 (+7950%)

Mutual labels: spark, cassandra

Gaffer

A large-scale entity and relation database supporting aggregation of properties

Stars: ✭ 1,642 (+8110%)

Mutual labels: spark, hadoop

Airflow Pipeline

An Airflow docker image preconfigured to work well with Spark and Hadoop/EMR

Stars: ✭ 128 (+540%)

Mutual labels: spark, hadoop

litemall-dw

基于开源Litemall电商项目的大数据项目，包含前端埋点(openresty+lua)、后端埋点；数据仓库(五层)、实时计算和用户画像。大数据平台采用CDH6.3.2(已使用vagrant+ansible脚本化)，同时也包含了Azkaban的workflow。

Stars: ✭ 36 (+80%)

Mutual labels: vagrant, flink

Quicksql

A Flexible, Fast, Federated(3F) SQL Analysis Middleware for Multiple Data Sources

Stars: ✭ 1,821 (+9005%)

Mutual labels: spark, flink

Aliyun Emapreduce Datasources

Extended datasource support for Spark/Hadoop on Aliyun E-MapReduce.

Stars: ✭ 132 (+560%)

Mutual labels: spark, hadoop

jumbo

🐘 A local Hadoop cluster bootstrapper using Vagrant, Ansible, and Ambari.

Stars: ✭ 17 (-15%)

Mutual labels: vagrant, hadoop

Xlearning Xdml

extremely distributed machine learning

Stars: ✭ 113 (+465%)

Mutual labels: spark, hadoop

Iot Traffic Monitor

Stars: ✭ 131 (+555%)

Mutual labels: spark, cassandra

Ecommercerecommendsystem

商品大数据实时推荐系统。前端：Vue + TypeScript + ElementUI，后端 Spring + Spark

Stars: ✭ 139 (+595%)

Mutual labels: spark, flink

Spark Cassandra Connector

DataStax Spark Cassandra Connector

Stars: ✭ 1,816 (+8980%)

Mutual labels: spark, cassandra

Spark Structured Streaming Examples

Spark Structured Streaming / Kafka / Cassandra / Elastic

Stars: ✭ 168 (+740%)

Mutual labels: spark, cassandra

Deeplearning4j

Suite of tools for deploying and training deep learning models using the JVM. Highlights include model import for keras, tensorflow, and onnx/pytorch, a modular and tiny c++ library for running math code and a java based math library on top of the core c++ library. Also includes samediff: a pytorch/tensorflow like library for running deep learni…

Stars: ✭ 12,277 (+61285%)

Mutual labels: spark, hadoop

Javaorbigdata Interview

Java开发者或者大数据开发者面试知识点整理

Stars: ✭ 203 (+915%)

Mutual labels: spark, hadoop

Sparkstreaming

💥 🚀 封装sparkstreaming动态调节batch time(有数据就执行计算)；🚀 支持运行过程中增删topic；🚀 封装sparkstreaming 1.6 - kafka 010 用以支持 SSL。

Stars: ✭ 179 (+795%)

Mutual labels: spark, flink

Sparkrdma

RDMA accelerated, high-performance, scalable and efficient ShuffleManager plugin for Apache Spark