All Projects → luisERH → Dominando-Pandas

luisERH / Dominando-Pandas

Licence: MIT License
Este repositório está destinado ao processo de aprendizagem da biblioteca Pandas.

Programming Languages

Jupyter Notebook
11667 projects

Projects that are alternatives of or similar to Dominando-Pandas

Pandastable
Table analysis in Tkinter using pandas DataFrames.
Stars: ✭ 376 (+1609.09%)
Mutual labels:  pandas, data-analysis, dataframe
Dataframe
C++ DataFrame for statistical, Financial, and ML analysis -- in modern C++ using native types, continuous memory storage, and no pointers are involved
Stars: ✭ 828 (+3663.64%)
Mutual labels:  pandas, data-analysis, dataframe
Eland
Python Client and Toolkit for DataFrames, Big Data, Machine Learning and ETL in Elasticsearch
Stars: ✭ 235 (+968.18%)
Mutual labels:  pandas, data-analysis, dataframe
cognipy
In-memory Graph Database and Knowledge Graph with Natural Language Interface, compatible with Pandas
Stars: ✭ 31 (+40.91%)
Mutual labels:  pandas, dataframe
hamilton
A scalable general purpose micro-framework for defining dataflows. You can use it to create dataframes, numpy matrices, python objects, ML models, etc.
Stars: ✭ 612 (+2681.82%)
Mutual labels:  pandas, dataframe
pandas-workshop
An introductory workshop on pandas with notebooks and exercises for following along.
Stars: ✭ 161 (+631.82%)
Mutual labels:  pandas, data-analysis
Datscan
DatScan is an initiative to build an open-source CMS that will have the capability to solve any problem using data Analysis just with the help of various modules and a vast standardized module library
Stars: ✭ 13 (-40.91%)
Mutual labels:  pandas, data-analysis
PandasVersusExcel
Python数据分析入门,数据分析师入门
Stars: ✭ 120 (+445.45%)
Mutual labels:  pandas, data-analysis
DataProfiler
What's in your data? Extract schema, statistics and entities from datasets
Stars: ✭ 843 (+3731.82%)
Mutual labels:  pandas, data-analysis
dataquest-guided-projects-solutions
My dataquest project solutions
Stars: ✭ 35 (+59.09%)
Mutual labels:  pandas, data-analysis
datatile
A library for managing, validating, summarizing, and visualizing data.
Stars: ✭ 419 (+1804.55%)
Mutual labels:  pandas, data-analysis
Data-Science-101
Notes and tutorials on how to use python, pandas, seaborn, numpy, matplotlib, scipy for data science.
Stars: ✭ 19 (-13.64%)
Mutual labels:  pandas, data-analysis
pyjanitor
Clean APIs for data cleaning. Python implementation of R package Janitor
Stars: ✭ 970 (+4309.09%)
Mutual labels:  pandas, dataframe
saddle
SADDLE: Scala Data Library
Stars: ✭ 23 (+4.55%)
Mutual labels:  pandas, dataframe
Data-Science-Resources
A guide to getting started with Data Science and ML.
Stars: ✭ 17 (-22.73%)
Mutual labels:  pandas, data-analysis
tutorials
Short programming tutorials pertaining to data analysis.
Stars: ✭ 14 (-36.36%)
Mutual labels:  pandas, data-analysis
dflib
In-memory Java DataFrame library
Stars: ✭ 50 (+127.27%)
Mutual labels:  data-analysis, dataframe
tableau-scraping
Tableau scraper python library. R and Python scripts to scrape data from Tableau viz
Stars: ✭ 91 (+313.64%)
Mutual labels:  pandas, dataframe
Product-Categorization-NLP
Multi-Class Text Classification for products based on their description with Machine Learning algorithms and Neural Networks (MLP, CNN, Distilbert).
Stars: ✭ 30 (+36.36%)
Mutual labels:  pandas, data-analysis
tempo
API for manipulating time series on top of Apache Spark: lagged time values, rolling statistics (mean, avg, sum, count, etc), AS OF joins, downsampling, and interpolation
Stars: ✭ 212 (+863.64%)
Mutual labels:  pandas, data-analysis


🐼 Dominando Pandas

O Pandas é uma enorme biblioteca python utilizada para manipulação, leitura e visualização de dados, oferecendo alto desempenho para pequenas quantidade de dados, quanto para enormes. por padrão o pandas faz a conversão de dados para um objeto chamado Dataframe, armazenando o conteúdo na memória RAM da sua máquina para que os dados possam ser manipulados sem sofrer alteração no arquivo/variável inicial.


Pandas é robusto e de fácil adaptação, com destaque na conversão de dados, facilmente lêmos um arquivo e convertemos em um Dataframe, assim como facilmente o transformamos o Dataframe em um arquivo estático para armazenamento.

💿Como Instalar?

Utilizando Pypi:

pip install pandas

Utilizando o ambiente Anaconda:

conda install pandas 

⌨️ Iniciando com pandas:

Para iniciarmos, podemos criar nossos dataframes utilizando os tipos de variáveis que estamos habituados a utilizar, como é o caso de dicionários (representação de chave e valor similares à arquivos JSON), assim como as famosas listas.

[01]: import pandas  as pd
[02]: data = {
'Estados': ['Pará', 'Rio de Janeiro', 'São Paulo'],
'Capital': ['Belém', 'Rio de Janeiro', 'São Paulo'],
'População': [143474, 6320000,12180000]
}
[03]: df_estados = pd.DataFrame(data) # Transformará a variável "data" do tipo dict em um dataframe
      df_estados

BeTheHero

[04]:  comidas = ["maçã","banana","abacate","uva","cereja","pêra"]
[05]:  df_comidas = pd.DataFrame(comidas, columns=["Comidas"]) # Atribuindo nome de colunas com o parâmetro "columns"
       df_comidas

BeTheHero


🔎 Análise de dados com Pandas:

Em geral, quando pegamos uma base de dados nova, precisamos verificar com que tipo de dados estamos lidando, para isto, iremos analizar uma base de dados famosa sobre passageiros do Titanic extraída da plataforma Kaggle.

[06]: df = pd.read_csv("titanic_data.csv") # Certifique-se que o arquivo está no mesmo diretório que seu código
      df.head(5) # Retorna as primeiras linhas do dataframe (por padrão 5)

BeTheHero

Para começar nossa análise, usaremos o método describe que retorna dados estatísticos sobre o Dataframe

[07]: df.describe()

BeTheHero

  • Para informações básicas:
df.shape #Retorna uma tupla contendo a quantidade de linhas e colunas do DataFrame
df.index #Descrição do Index
df.columns #Colunas presentes no DataFrame
df.count() #Contagem de dados não-nulos
  • Para resumo dos dados:
df.sum() #Soma dos valores de um DataFrame
df.min() #Menor valor de um DataFrame
df.max() #Maior valor
df.mean() #Média dos valores
df.median() #Mediana dos valores
  • Para Ordenação dos dados:
df.sort_values(by="Name") #Ordenando em ordem crescente
df.sort_values(by="Name",ascending=False) #Ordenando em ordem decrescente

🖥️ Dataframe avançado:

Além de métodos para análise, o DataFrame possui um enorme leque de funcionalidades para quem deseja manipular dados. Podemos criar uma função comum que receba um valor e divida pela sua metade e submeter ao nosso Dataframe

[08]: def dividir_população(quantidade):
        return quantidade/2
[09]: df_estados["População"] = df_estados["População"].apply(dividir_população)
      df_estados
[10]: df_estados["Estados"] = df_estados["Estados"].apply((lambda x: x.lower()))
      df_estados

BeTheHero

Também é possível gerar novas colunas no seu DataFrame, há diversas formas de fazer isso, sendo pela união de dois dataframes, pelo retorno de uma função, pela utilização de campos calculados... são muitas formas, veremos a seguir as principais.

BeTheHero

[11]: df_estados["Qtd_Bairros"] = [71,160,96] # Adição de uma coluna manualmente
      df_estados["Média por bairro"] = df_estados["População"] / df_estados["Qtd_Bairros"] # Utilizando um campo calculado
      df_estados

BeTheHero

  • Filtragem de dados com Pandas
df_estados[df_estados['População'] > 200000]  #Filtrando o DataFrame para mostrar apenas valores maiores que 200000
df_estados.loc[0, 'Estados'] #Selecionando a primeira linha da coluna país 

📈 Visualização de dados com Pandas:

[12]: df = pd.read_csv("air_quality_no2.csv") # Base de dados da qualidade do Ar
      df.plot.area(figsize=(12, 4), subplots=True)

BeTheHero

🤝 Como contribuir

  • Faça um fork desse repositório;
  • Cria uma branch com a sua feature: git checkout -b minha-feature;
  • Faça commit das suas alterações: git commit -m 'feat: Minha nova feature';
  • Faça push para a sua branch: git push origin minha-feature.

Depois que o merge da sua pull request for feito, você pode deletar a sua branch.

📝 Licença

Esse projeto está sob a licença MIT. Veja o arquivo LICENSE para mais detalhes.


Made with by Luis Henriques 👋 Get in touch!

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].