Linkis helps easily connect to various back-end computation/storage engines(Spark, Python, TiDB...), exposes various interfaces(REST, JDBC, Java ...), with multi-tenancy, high performance, and resource control.

frovedis

Framework of vectorized and distributed data analytics

✭ 59

C++python scala assembly java c machine-learning spark scikit-learn mpi distributed-computing vectorization sx-aurora-tsubasa

Spark-PMoF

Spark Shuffle Optimization with RDMA+AEP

✭ 28

C++scala java c spark rdma shuffle aep

BigData-News

基于Spark2.2新闻网大数据实时系统项目

✭ 36

scala java shell kafka spark hive hadoop hbase flume cdh5 sturctured-streaming

leaflet heatmap

简单的可视化湖州通话数据假设数据量很大，没法用浏览器直接绘制热力图，把绘制热力图这一步骤放到线下计算分析。使用Apache Spark并行计算数据之后，再使用Apache Spark绘制热力图，然后用leafletjs加载OpenStreetMap图层和热力图图层，以达到良好的交互效果。现在使用Apache Spark实现绘制，可能是Apache Spark不擅长这方面的计算或者是我没有设计好算法，并行计算的速度比不上单机计算。Apache Spark绘制热力图和计算代码在这 https://github.com/yuanzhaokang/ParallelizeHeatmap.git .

✭ 13

visualization css d3 map big-data html5 dataviz spark apache-spark hadoop heatmap leaflet bigdata data-visualization hdfs data-analysis javscript d3js tilelayer datavisualization

kafka-compose

🎼 Docker compose files for various kafka stacks

✭ 32

python Makefile shell twitter kafka spark avro docker-compose pyspark kafka-connect

docker-spark

Apache Spark docker container image (Standalone mode)

✭ 34

shell Dockerfile docker spark docker-compose docker-image standalone

sentry-spark

Apache Spark Sentry Integration

✭ 14

scala spark monitoring crash-reporting error-monitoring sentry

Python Master Courses

人生苦短我用Python

✭ 61

python HTML javascript c course spark scrapy

spark-acid

ACID Data Source for Apache Spark based on Hive ACID

✭ 91

scala ANTLR shell big-data spark hive acid hive-acid

spark-sql-flow-plugin

Visualize column-level data lineage in Spark SQL

✭ 20

scala python shell Jupyter Notebook visualization graphviz sql spark neo4j graph data-lineage

spark-word2vec

A parallel implementation of word2vec based on Spark

✭ 24

scala machine-learning spark word2vec

spark-kubernetes

spark on kubernetes

✭ 80

shell Dockerfile docker kubernetes spark

shamash

Autoscaling for Google Cloud Dataproc

✭ 31

python shell devops spark gcp pubsub auto-scaling cloud-dataproc dataproc-clusters

Search Ads Web Service

Online search advertisement platform & Realtime Campaign Monitoring [Maybe Deprecated]

✭ 30

java python search-engine memcached crawler spark grpc ads jsoup

yuzhouwan

Code Library for My Blog

✭ 39

java javascript Jupyter Notebook CSS scala c elasticsearch algorithm spark hadoop tensorflow bigdata hbase zookeeper nio druid

spark-gradle-template

Apache Spark in your IDE with gradle

✭ 39

scala spark apache-spark gradle

spark-util

low-level helpers for Apache Spark libraries and tests

✭ 16

scala spark hadoop kryo

openverse-catalog

Identifies and collects data on cc-licensed content across web crawl data and public apis.

✭ 27

python search-engine airflow spark pytest creative-commons hacktoberfest apache-airflow openverse

data processing course

Some class materials for a data processing course using PySpark

✭ 50

python ruby shell Makefile Dockerfile HTML Jupyter Notebook course spark bigdata stream-processing pyspark apache-beam data-processing

awesome-AI-kubernetes

❄️ 🐳 Awesome tools and libs for AI, Deep Learning, Machine Learning, Computer Vision, Data Science, Data Analytics and Cognitive Computing that are baked in the oven to be Native on Kubernetes and Docker with Python, R, Scala, Java, C#, Go, Julia, C++ etc

✭ 95

docker kubernetes data-science big-data ai spark analytics ml cognitive-science pachyderm spark-ml python-ml kubeflow seldon-core kubernetes-ai kubernetes-ml kubernetes-data-science kubernetes-analytics spark-kubernetes

spark-druid-olap

Sparkline BI Accelerator provides fast ad-hoc query capability over Logical Cubes. This has been folded into our SNAP Platform(http://bit.ly/2oBJSpP) an Integrated BI platform on Apache Spark.

✭ 286

scala shell spark business-intelligence sparksql query-optimization olap-cube

ODSC India 2018

My presentation at ODSC India 2018 about Deep Learning with Apache Spark

✭ 26

Jupyter Notebook data spark datascience pyspark deeplearning optimus

swordfish

Open-source distribute workflow schedule tools, also support streaming task.

✭ 35

java python spark hive hadoop scheduler hbase

sparkar-volts

An extensive non-reactive Typescript framework that eases the development experience in Spark AR

✭ 15

typescript spark spark-ar spark-ar-studio spark-ar-creators

Spark-Ar

Resources for Spark AR

✭ 43

spark augmented-reality instagram-filters sparkar

experiments

Code examples for my blog posts

✭ 21

scala java aws spark rpc lucene parquet

fastdata-cluster

Fast Data Cluster (Apache Cassandra, Kafka, Spark, Flink, YARN and HDFS with Vagrant and VirtualBox)

✭ 20

HTML shell vagrant kafka spark cassandra yarn hadoop cluster vms hdfs flink

splink

Implementation of Fellegi-Sunter's canonical model of record linkage in Apache Spark, including EM algorithm to estimate parameters

✭ 181

Roff python spark record-linkage entity-resolution fuzzy-matching deduplication em-algorithm data-matching deduplicate-data

spark-stringmetric

Spark functions to run popular phonetic and string matching algorithms

✭ 51

scala spark jaro-winkler nysiis jaccard-similarity cosine-distance hamming-distance double-metaphone fuzzy-score refined-soundex

visualize-data-with-python

A Jupyter notebook using some standard techniques for data science and data engineering to analyze data for the 2017 flooding in Houston, TX.

✭ 60

Jupyter Notebook data-science spark notebook jupyter-notebook journey bluemix ibm dsx ibm-developer-technology-cognitive ibmcode pixiedust call-for-code

spylon-kernel

Jupyter kernel for scala and spark

✭ 160

python Makefile spark kernel metakernel jupyter-kernels team-platform

spark-druid-connector

A library for querying Druid data sources with Apache Spark

✭ 20

scala spark connector druid sparksql

ceu-cloud-class

This is the repo for the Data Engineering 3 - Cloud and Big Data Computing course delivered at the Central European University ceu.edu

✭ 15

r spark serverless cloud-computing courseware encryption-algorithms

microframeworks-showcase

A simple grocery list webapplication implemented with the Microframeworks Spark Java, Jodd, Ninja, Javalite, Pippo and Ratpack

✭ 29

java HTML groovy spark gradle intellij micro-framework ninja ng ratpack pippo demo-application sparkjava jodd javalite

pyspark-cheatsheet

PySpark Cheat Sheet - example code to help you learn PySpark and develop apps faster

✭ 115

python Jupyter Notebook big-data spark apache-spark pyspark

big data

A collection of tutorials on Hadoop, MapReduce, Spark, Docker

✭ 34

Jupyter Notebook docker big-data spark hadoop bigdata jupyter-notebook pyspark mapreduce spark-sql testdfsio mapreduce-bash

pathling

Turn your FHIR data set into a powerful API that can be used to develop analytics applications and augment data science workflow.

✭ 31

java scala SCSS typescript javascript HTML ANTLR spark analytics standards fhir terminology

spark-lucenerdd-examples

Examples of spark-lucenerdd

✭ 15

scala shell docker spark examples record-linkage lucene lucene-query entity-linking

dlsa

Distributed least squares approximation (dlsa) implemented with Apache Spark

✭ 25

python shell r Makefile spark distributed-computing pyspark spark-ml least-square-regression

flytekit

Extensible Python SDK for developing Flyte tasks and workflows. Simple to get started and learn and highly extensible.

✭ 82

python Makefile shell HTML Roff Dockerfile data-science data automation sdk spark pypi extensible workflows hacktoberfest flyte mlops flyte-tasks

machine-learning-course

Machine Learning Course @ Santa Clara University

✭ 17

machine-learning spark clustering linear-regression scikit-learn pyspark supervised-learning logistic-regression unsupervised-learning kmeans-clustering spark-ml data-algorithms santa-clara-university pyspark-algorithms-book

geotrellis-pointcloud

GeoTrellis PointCloud library to work with any pointcloud data on Spark

✭ 21

scala shell Dockerfile spark gis hacktoberfest geotrellis pointcloud pdal

zoe

Zoe: Container Analytics as a Service -- mirror of https://gitlab.eurecom.fr/zoe/main/

✭ 51

python HTML javascript perl shell CSS Dockerfile data spark jupyter analytics containers

example-health-machine-learning

This code pattern shows you how to train a machine learning model to predict type 2 diabetes using synthesized patient health records.

✭ 22

Jupyter Notebook machine-learning spark jupyter-notebook pixiedust

spark-ar-boilerplate

A boilerplate Spark AR project with Webpack

✭ 50

javascript webpack spark augmented-reality spark-ar sparkar spark-ar-studio

spark-ar-creators

List of 9500 (and counting) Spark AR Creators. Open an issue or contact me if you want to be added.❤️

data-processing-pipeline

Real-Time Data Processing Pipeline & Visualization with Docker, Spark, Kafka and Cassandra

✭ 79

HTML scala python shell visualization twitter kafka spark cassandra docker-machine twitter-streaming-api digital-ocean

yelper recommendation system

Yelper recommendation system

✭ 117

javascript CSS XSLT python HTML scala Jupyter Notebook kafka spark recommendation-system graph-analysis graphx

TitanDataOperationSystem

最好的大数据项目。《Titan数据运营系统》，本项目是一个全栈闭环系统，我们有用作数据可视化的web系统，然后用flume-kafaka-flume进行日志的读取，在hive设计数仓，编写spark代码进行数仓表之间的转化以及ads层表到mysql的迁移，使用azkaban进行定时任务的调度，使用技术：Java/Scala语言，Hadoop、Spark、Hive、Kafka、Flume、Azkaban、SpringBoot，Bootstrap， Echart等；

✭ 62

javascript HTML CSS SCSS java scala kafka spark hive hadoop flume azkaban

nats-connector-spark

A Spark Publish/Subscribe NATS Connector

✭ 24

java spark nats nats-streaming nats-messaging nats-payload nats-connector-spark

EasySparse

Sparse learning in TensorFlow using data acquired from Spark.

✭ 21

python scala spark tensorflow sparse deeplearning libsvm tfrecords

EngineeringTeam

와이빅타 엔지니어링팀의 자료를 정리해두는 곳입니다.

✭ 41

engineering sql kafka spark hive hadoop nosql crawling ybigta

361-420 of 625 spark projects

first

‹

›