All Categories → Data Processing → parquet

Top 63 parquet open source projects

Data Preview 🈸 extension for importing 📤 viewing 🔎 slicing 🔪 dicing 🎲 charting 📊 & exporting 📥 large JSON array/config, YAML, Apache Arrow, Avro, Parquet & Excel data files

✭ 245

typescript json data vscode csv extension yaml excel config viewer array avro parquet arrow

Awkward 0.x

Manipulate arrays of complex data structures as easily as Numpy.

✭ 216

python python3 numpy big-data analysis parquet root arrow

Parquetjs

fully asynchronous, pure JavaScript implementation of the Parquet file format

✭ 200

javascript nodejs parquet

Bigdata Playground

A complete example of a big data application using : Kubernetes (kops/aws), Apache Spark SQL/Streaming/MLib, Apache Flink, Scala, Python, Apache Kafka, Apache Hbase, Apache Parquet, Apache Avro, Apache Storm, Twitter Api, MongoDB, NodeJS, Angular, GraphQL

✭ 177

python typescript scala nodejs machine-learning docker angular graphql mongodb kafka big-data hadoop apache-spark twitter-api hbase avro parquet spark-streaming

Sqlite Parquet Vtable

A SQLite vtable extension to read Parquet files

✭ 167

sqlite sqlite3 parquet

Parquetviewer

Simple windows desktop application for viewing & querying Apache Parquet files

✭ 145

big-data apache-spark dot-net parquet windows-desktop

Parquet Rs

Apache Parquet implementation in Rust

✭ 144

rust hadoop parquet

Kartothek

A consistent table management library in python

✭ 144

python parquet arrow pydata

Eel Sdk

Big Data Toolkit for the JVM

✭ 140

scala kafka big-data hadoop etl hive parquet

Gaffer

A large-scale entity and relation database supporting aggregation of properties

✭ 1,642

java javascript graph spark big-data hadoop graph-database hbase parquet accumulo aggregation

Parquet4s

Read and write Parquet in Scala. Use Scala classes as schema. No need to start a cluster.

✭ 125

scala aws hadoop akka reader streams parquet writer akka-streams

Amazon S3 Find And Forget

Amazon S3 Find and Forget is a solution to handle data erasure requests from data lakes stored on Amazon S3, for example, pursuant to the European General Data Protection Regulation (GDPR)

✭ 115

python aws privacy data big-data s3 gdpr parquet

Parquet Go

Go package to read and write parquet files. parquet is a file format to store nested data structures in a flat columnar data format. It can be used in the Hadoop ecosystem and with tools such as Presto and AWS Athena.

✭ 114

go golang hadoop parquet presto

Parquet Index

Spark SQL index for Parquet tables

✭ 109

scala sql spark statistics index parquet

Kglab

Graph-Based Data Science: an abstraction layer in Python for building knowledge graphs, integrated with popular graph libraries – atop Pandas, RDFlib, pySHACL, RAPIDS, NetworkX, iGraph, PyVis, pslpython, pyarrow, etc.

✭ 98

jupyter-notebook pandas knowledge-graph neo4j inference graph-algorithms json-ld sparql parquet

Schemer

Schema registry for CSV, TSV, JSON, AVRO and Parquet schema. Supports schema inference and GraphQL API.

✭ 97

scala json spark graphql-api avro parquet tsv

Parquet Mr

Apache Parquet

✭ 1,278

java big-data parquet

Bigdata File Viewer

A cross-platform (Windows, MAC, Linux) desktop application to view common bigdata binary format like Parquet, ORC, AVRO, etc. Support local file system, HDFS, AWS S3, Azure Blob Storage ,etc.

✭ 86

java bigdata avro hdfs parquet

Sparksql Protobuf

Read SparkSQL parquet file as RDD[Protobuf]

✭ 82

scala protobuf parquet

Petastorm

Petastorm library enables single machine or distributed training and evaluation of deep learning models from datasets in Apache Parquet format. It supports ML frameworks such as Tensorflow, Pytorch, and PySpark and can be used from pure Python code.

✭ 1,108

python deep-learning machine-learning pytorch tensorflow pyspark parquet

Rumble

⛈️ Rumble 1.11.0 "Banyan Tree"🌳 for Apache Spark | Run queries on your large-scale, messy JSON-like data (JSON, text, CSV, Parquet, ROOT, AVRO, SVM...) | No install required (just a jar to download) | Declarative Machine Learning and more

✭ 58

java machine-learning json data-science azure spark csv s3 text query scale svm avro hdfs parquet root

Gcs Tools

GCS support for avro-tools, parquet-tools and protobuf

✭ 57

java protobuf gcp avro parquet

Node Parquet

NodeJS module to access apache parquet format files

✭ 46

nodejs parquet

Quilt

Quilt is a self-organizing data hub for S3

✭ 1,007

python jupyter-notebook data serialization data-engineering parquet

Pucket

Bucketing and partitioning system for Parquet

✭ 29

scala spark thrift hdfs parquet

Parquet Generator

Parquet file generator

✭ 16

scala sql spark parquet

Parquet Format

Apache Parquet

✭ 800

java big-data parquet

Devops Python Tools

80+ DevOps & Data CLI Tools - AWS, GCP, GCF Python Cloud Function, Log Anonymizer, Spark, Hadoop, HBase, Hive, Impala, Linux, Docker, Spark Data Converters & Validators (Avro/Parquet/JSON/CSV/INI/XML/YAML), Travis CI, AWS CloudFormation, Elasticsearch, Solr etc.

✭ 406

python docker linux json aws devops elasticsearch spark travis-ci hadoop gcp cloudformation solr hbase avro pyspark hdfs parquet

Iceberg

Iceberg is a table format for large, slow-moving tabular data

✭ 393

java spark hadoop avro parquet

Skale

High performance distributed data processing engine

✭ 390

javascript nodejs machine-learning cluster aws-s3 parquet azure-storage

Choetl

ETL Framework for .NET / c# (Parser / Writer for CSV, Flat, Xml, JSON, Key-Value, Parquet, Yaml, Avro formatted files)

✭ 372

csharp json dotnet parser xml csv yaml etl reader avro parquet flat writer etl-framework

Oap

Optimized Analytics Package for Spark* Platform

✭ 343

scala spark parquet

Parquet Cpp

Apache Parquet

✭ 339

java big-data parquet

Pystore

Fast data store for Pandas time-series data

✭ 325

python database pandas timeseries dataframe parquet datastore

Elasticsearch loader

A tool for batch loading data files (json, parquet, csv, tsv) into ElasticSearch

✭ 300

python json elasticsearch csv logstash parquet

Ratatool

A tool for data sampling, data generation, and data diffing

✭ 279

scala protobuf avro bigquery parquet

Parquet Dotnet

🏐 Apache Parquet for modern .NET

✭ 276

linux windows dotnet dotnet-core big-data apache-spark parquet

Roapi

Create full-fledged APIs for static datasets without writing a single line of code.

✭ 253

rust graphql sql rest-api analytics s3 cloud-native datasets query parquet arrow

Drill

Apache Drill is a distributed MPP query layer for self describing data

✭ 1,619

java C++FreeMarker shell javascript c big-data sql hive hadoop jdbc parquet drill

dbd

dbd is a database prototyping tool that enables data analysts and engineers to quickly load and transform data in SQL databases.

✭ 30

python Jinja mysql bigquery json csv sql database etl sqlite excel postgresql xlsx xls snowflake parquet redshift elt database-schemas

HybridBackend

Efficient training of deep recommenders on cloud.

✭ 30

python C++shell Makefile deep-learning gpu parquet recommender-system hybrid-parallelism

centurion

Kotlin Bigdata Toolkit

✭ 320

kotlin java shell bigdata parquet orc

meepo

异构存储数据迁移

✭ 29

java shell mysql parquet roaringbitmap sqoop datax

experiments

Code examples for my blog posts

✭ 21

scala java aws spark rpc lucene parquet

graphique

GraphQL service for arrow tables and parquet data sets.

✭ 28

python Makefile graphql arrow parquet

parquet2

Fastest and safest Rust implementation of parquet. `unsafe` free. Integration-tested against pyarrow

✭ 157

rust python parallelism parquet safe

parquet-usql

A custom extractor designed to read parquet for Azure Data Lake Analytics

✭ 13

C#powershell azure extractor parquet datalake adla custom-extractor custom-outputter

Spark

Apache Spark is a fast, in-memory data processing engine with elegant and expressive development API's to allow data workers to efficiently execute streaming, machine learning or SQL workloads that require fast iterative access to datasets.This project will have sample programs for Spark in Scala language .

DaFlow

Apache-Spark based Data Flow(ETL) Framework which supports multiple read, write destinations of different types and also support multiple categories of transformation rules.

✭ 24

scala shell Dockerfile json csv apache-spark hive hadoop avro etl parquet transformation-rules etl-framework etl-pipeline join-data

Parquet.jl

Julia implementation of Parquet columnar file format reader

✭ 93

julia parquet columnar-storage

wasp

WASP is a framework to build complex real time big data applications. It relies on a kind of Kappa/Lambda architecture mainly leveraging Kafka and Spark. If you need to ingest huge amount of heterogeneous data and analyze them through complex pipelines, this is the framework for you.

✭ 19

scala shell java Dockerfile XSLT javascript elasticsearch kafka akka spark yarn hadoop solr jdbc hbase spark-streaming hdfs parquet

hadoop-etl-udfs

The Hadoop ETL UDFs are the main way to load data from Hadoop into EXASOL

✭ 17

java python hive hadoop parquet udf exasol hcatalog user-defined-function exasol-integration

odbc2parquet

A command line tool to query an ODBC data source and write the result into a parquet file.

✭ 95

rust Dockerfile odbc parquet

IMCtermite

Enables extraction of measurement data from binary files with extension 'raw' used by proprietary software imcFAMOS/imcSTUDIO and facilitates its storage in open source file formats

✭ 20