All Categories → Data Processing → big-data

Top 369 big-data open source projects

OONI data processing pipeline

✭ 36

python PLpgSQL Smarty shell Makefile big-data open-data data-pipeline

The Archives Unleashed Toolkit is an open-source toolkit for analyzing web archives.

✭ 111

scala java python big-data spark apache-spark hadoop analysis pyspark digital-humanities dataframe big-data-analytics webarchives

NiFi-Rule-engine-processor

Drools processor for Apache NiFi

✭ 34

java json big-data rule-engine bigdata drools nifi apache-nifi rules-engine nifi-processors nifi-processor big-data-projects matrixbi

predictionio-template-java-ecom-recommender

PredictionIO E-Commerce Recommendation Engine Template (Java-based parallelized engine)

✭ 36

java python scala big-data predictionio

leaflet heatmap

简单的可视化湖州通话数据假设数据量很大，没法用浏览器直接绘制热力图，把绘制热力图这一步骤放到线下计算分析。使用Apache Spark并行计算数据之后，再使用Apache Spark绘制热力图，然后用leafletjs加载OpenStreetMap图层和热力图图层，以达到良好的交互效果。现在使用Apache Spark实现绘制，可能是Apache Spark不擅长这方面的计算或者是我没有设计好算法，并行计算的速度比不上单机计算。Apache Spark绘制热力图和计算代码在这 https://github.com/yuanzhaokang/ParallelizeHeatmap.git .

✭ 13

visualization css d3 map big-data html5 dataviz spark apache-spark hadoop heatmap leaflet bigdata data-visualization hdfs data-analysis javscript d3js tilelayer datavisualization

ibmpairs

open source tools for interaction with IBM PAIRS:

✭ 23

Jupyter Notebook python big-data geospatial ibm-research geospatial-analytics gis-utils big-data-analytics restful-api-wrapper ibm-pairs-geoscope

lens

Mirror of Apache Lens

✭ 57

java javascript shell python HTML TSQL big-data lens

spark-acid

ACID Data Source for Apache Spark based on Hive ACID

✭ 91

scala ANTLR shell big-data spark hive acid hive-acid

AverageShiftedHistograms.jl

⚡ Lightning fast density estimation in Julia ⚡

✭ 52

julia r big-data density-estimation online-algorithms kernel-density-estimation

predictionio-template-attribute-based-classifier

PredictionIO Classification Engine Template (Scala-based parallelized engine)

✭ 38

scala python big-data predictionio

hadoop-data-ingestion-tool

OLAP and ETL of Big Data

✭ 17

phoenix sql big-data presto hadoop engine impala apache druid olap greenplum sql-engine kylin hawq

vxquery

Mirror of Apache VXQuery

✭ 19

java XQuery python shell XSLT big-data xml vxquery

alluxio-py

Alluxio Python client - Access Any Data Source with Python

✭ 18

python shell big-data storage alluxio

awesome-AI-kubernetes

❄️ 🐳 Awesome tools and libs for AI, Deep Learning, Machine Learning, Computer Vision, Data Science, Data Analytics and Cognitive Computing that are baked in the oven to be Native on Kubernetes and Docker with Python, R, Scala, Java, C#, Go, Julia, C++ etc

✭ 95

docker kubernetes data-science big-data ai spark analytics ml cognitive-science pachyderm spark-ml python-ml kubeflow seldon-core kubernetes-ai kubernetes-ml kubernetes-data-science kubernetes-analytics spark-kubernetes

predictionio-template-similar-product

PredictionIO Similar Product Engine Template (Scala-based parallelized engine)

✭ 50

scala python big-data predictionio

hotmap

WebGL Heatmap Viewer for Big Data and Bioinformatics

✭ 13

javascript CSS HTML shell charts webgl bioinformatics big-data dataviz heatmap data-visualization pixijs data-analysis

pypar

Efficient and scalable parallelism using the message passing interface (MPI) to handle big data and highly computational problems.

✭ 66

python c big-data mpi map-reduce

egis

Egis - a handy Ruby interface for AWS Athena

✭ 38

ruby ruby-gem aws big-data aws-athena big-data-analytics

pytorch kmeans

Implementation of the k-means algorithm in PyTorch that works for large datasets

✭ 38

python big-data clustering pytorch k-means

big-sorter

Java library that sorts very large files of records by splitting into smaller sorted files and merging

✭ 49

java shell sorting big-data

pyspark-cheatsheet

PySpark Cheat Sheet - example code to help you learn PySpark and develop apps faster

✭ 115

python Jupyter Notebook big-data spark apache-spark pyspark

big data

A collection of tutorials on Hadoop, MapReduce, Spark, Docker

✭ 34

Jupyter Notebook docker big-data spark hadoop bigdata jupyter-notebook pyspark mapreduce spark-sql testdfsio mapreduce-bash

hyper-engine

Python library for Bayesian hyper-parameters optimization

✭ 80

python data-science machine-learning big-data deep-learning neural-network tensorflow model-selection hyperparameter-optimization convolutional-neural-networks gaussian-processes bayesian-optimization random-search optimization-algorithms

bftkv

A distributed key-value storage that's tolerant to Byzantine fault.

✭ 27

javascript go visualization research big-data key-value

big-data-lite

Samples to the Oracle Big Data Lite VM

✭ 41

java HTML r shell CSS javascript big-data hadoop

v6.dooring.public

可视化大屏解决方案, 提供一套可视化编辑引擎, 助力个人或企业轻松定制自己的可视化大屏应用.

✭ 323

typescript CSS Less react nodejs big-data bigdata webgl2 low-code big-data-analytics antv lowcode dooring

falcon

Mirror of Apache Falcon

✭ 95

java javascript HTML CSS shell python big-data falcon

predictionio-sdk-php

PredictionIO PHP SDK

✭ 269

PHP big-data predictionio

SparkProgrammingInScala

Apache Spark Course Material

✭ 57

scala big-data spark apache-spark bigdata data-lake datalake spark-sql spark-scala

couchdb-mango

Mirror of Apache CouchDB Mango

✭ 34

erlang python Makefile couchdb content http cloud database big-data network-server network-client

wrangler

Wrangler Transform: A DMD system for transforming Big Data

✭ 63

java ANTLR data-science big-data parsing avro data-transform data-transformation project transform-data preparation transform wrangle manipulate-data cdap cdap-plugin data-prep data-cleansing

couchdb-couch-plugins

Mirror of Apache CouchDB

✭ 14

erlang Makefile couchdb content http cloud database big-data network-server network-client

predictionio

PredictionIO, a machine learning server for developers and ML engineers.

✭ 12,510

scala shell python HTML Dockerfile java Smarty big-data predictionio

clusterdock

clusterdock is a framework for creating Docker-based container clusters

✭ 26

python Makefile docker big-data hadoop

check-engine

Data validation library for PySpark 3.0.0

✭ 29

python Dockerfile big-data data-validation pyspark data-quality

opendc

Collaborative Datacenter Simulation and Exploration for Everybody

✭ 40

kotlin javascript java simulator big-data serverless data-center cloud-computing cloud-simulation datacenter tu-delft opendc vu-amsterdam datacenter-simulation

classifai

🔥 One of the most comprehensive open-source data annotation platform.

✭ 99

java data-science machine-learning big-data deep-learning annotation data-collection labelling computervision annotation-tool data-annotation

subsemble

subsemble R package for ensemble learning on subsets of data

✭ 40

r machine-learning big-data machine-learning-algorithms cross-validation ensemble ensemble-learning

storm-ml

an online learning algorithm library for Storm

✭ 18

java shell big-data storm stream-processing

SynapseML

Simple and Distributed Machine Learning

OnlineStatsBase.jl

Base types for OnlineStats.

✭ 26

julia statistics big-data streaming-data onlinestats online-algorithm

MLBD

Materials for "Machine Learning on Big Data" course

✭ 20

Jupyter Notebook machine-learning big-data spark mapreduce distributed-machine-learning large-scale-machine-learning

ByteSlice

"Byteslice: Pushing the envelop of main memory data processing with a new storage layout" (SIGMOD'15)

✭ 24

C++CMake database big-data openmp simd-parallelism sigmod byte-slice

Big-Data-Demo

基于Vue、three.js、echarts，数据可视化展示项目，包含三维模型导入交互、三维模型标注等功能

✭ 146

Vue javascript stylus threejs big-data vue

Movies-Analytics-in-Spark-and-Scala

Data cleaning, pre-processing, and Analytics on a million movies using Spark and Scala.

✭ 47

scala shell movies big-data spark hadoop analytics movielens-data-analysis dataframes movielens-dataset rdd case-study spark-sql spark-programs spark-dataframes big-data-analytics spark-scala big-data-projects spark-rdd

talaria

TalariaDB is a distributed, highly available, and low latency time-series database for Presto

✭ 148

go python Thrift real-time database big-data time-series stream-processing column-store prestodb

meetups-archivos

Ppts, códigos y videos de las meetups, data science days, videollamadas y workshops. Data Science Research es una organización sin fines de lucro que busca difundir, descentralizar y difundir los conocimientos en Ciencia de Datos e Inteligencia Artificial en el Perú, dando oportunidades a nuevos talentos mediante MeetUps, Workshops y Semilleros …

✭ 60

Jupyter Notebook HTML python r data-science machine-learning workshops big-data deep-learning analytics bigdata artificial-intelligence meetups neuronal-network meetups-archivos

xcast

A High-Performance Data Science Toolkit for the Earth Sciences

✭ 28

python machine-learning big-data parallel-computing xarray artificial-intelligence climate-data predictive-analytics climate-science climate-forecasting multimodel-ensemble

bigquery-kafka-connect

☁️ nodejs kafka connect connector for Google BigQuery

✭ 17

javascript nodejs bigquery kafka big-data etl google-cloud connect kafka-connect

arrow-datafusion

Apache Arrow DataFusion SQL Query Engine

✭ 2,360

rust sql big-data arrow olap query-engine dataframe datafusion

LoL-Match-Prediction

Win probability predictions for League of Legends matches using neural networks

✭ 34

python CSS big-data neural-network league-of-legends video-game artificial-intelligence dropout batch-normalization match-prediction

SGDLibrary

MATLAB/Octave library for stochastic optimization algorithms: Version 1.0.20

insightedge

InsightEdge Core

✭ 22

scala java Batchfile shell kubernetes machine-learning big-data spark deep-learning analytics distributed elasticity in-memory cloud-native datagrid

cloudberry

Big Data Visualization

✭ 89

scala python HTML javascript visualization big-data analytics asterixdb twittermap cloudberry

incubator-liminal

Apache Liminals goal is to operationalise the machine learning process, allowing data scientists to quickly transition from a successful experiment to an automated pipeline of model training, validation, deployment and inference in production. Liminal provides a Domain Specific Language to build ML workflows on top of Apache Airflow.

✭ 117

python Dockerfile shell data-science machine-learning airflow big-data ai ml workflows

nebula

A distributed block-based data storage and compute engine

✭ 127

C++CMake distributed-systems real-time big-data analytics distributed-computing data-visualization data-analysis access-control

beekeeper

Service for automatically managing and cleaning up unreferenced data

✭ 43

java big-data hive s3 maintenance cleanup metastore hive-metastore oss-portal-featured

sparkucx

A high-performance, scalable and efficient ShuffleManager plugin for Apache Spark, utilizing UCX communication layer

✭ 32

scala java shell big-data spark apache-spark hadoop hpc rdma

siembol

An open-source, real-time Security Information & Event Management tool based on big data technologies, providing a scalable, advanced security analytics framework.

✭ 153

java typescript HTML SCSS powershell shell security cloud big-data siem metron gr-oss

rastercube

rastercube is a python library for big data analysis of georeferenced time series data (e.g. MODIS NDVI)

✭ 15

python shell ruby data big-data spark hadoop geospatial

241-300 of 369 big-data projects

first

‹

›