📄
Raspagem de dados para iniciantes Esse repositório foi construido para ajudar qualquer interessado pela área de Raspagem de dados, todo o repositório será em PT-BR, mas os links/documentação podem estar em inglês (compartilhe se você possuir algo traduzido).
💾
Instalação Uso Python versão 3.7
As principais libs que vamos usar aqui são:
- requests
- bs4 (BeautifulSoup)
- Scrapy
Para isso você só precisa instalar algumas bibliotecas, no seu Terminal escreva:
pip install -r requirements.txt
Recomendações
Use o ambiente virtual do Python para programar independente de plataforma.
- Criação:
python3 -m venv venv
- Ativação (muda conforme S.O):
source venv/bin/activate
- Dependências:
pip install -r requirements.txt
Jupyter notebooks
Iremos usar Jupyter notebooks aqui, então se você não tem com a ferramenta, visite a documentação.
🎓
Trilha para o tutorial: - Aprendendo a extrair o texto de um Site
- Primeira Spider
- Raspagem múltipla
- Navegando entre paginas
- Coletando mais detalhes
- Raspagem em site com Infinite Scroll
- Rodando Spider na nuvem
- Extração de imagens
Materiais de estudo:
💻
Blogs: - The Scraping Hub [ENG]
📚
Livros:
📜
Documentação: - Python [ENG]
- Requests [ENG]
- BeautifulSoup [ENG]
- Jupyter Notebooks [ENG]
- Scrapy [ENG]
🎧 🎵
Podcasts: - Episódio 005: Serenata de Amor [PT-BR]
- Episódio 009: Sobre Crawlers e Scrapers [PT-BR]
- Episódio 011: Bots Políticos [PT-BR]
📺
Vídeos: - Live de Python #20 - Selenium / Web scraping #1 [PT-BR]
- Live de Python #21 Beautifulsoup / Web scraping #2 [PT-BR]
- Live de Python #22 Requests / Web scraping #3 [PT-BR]
- Live de Python #23 DeepWeb/ Anonimidade / Web scraping #4 [PT-BR]
- Live de Python #24 Tabelas e persistência / Web scraping #5 [PT-BR]
- Live de Python #25 Raspando dados não HTML / Web scraping #6 [PT-BR]
- Live de Python #26 Scrapy / Web scraping #7 (Com artur Gaspar) [PT-BR]
- Live de Python #27 Baixando arquivos e manipulando datas / Web scraping #8) [PT-BR]
- Live de Python #78 - Raspando a web com Scrapy - Com Renne Rocha [PT-BR]