All Projects → lidimayra → raspagem-de-dados-fatec

lidimayra / raspagem-de-dados-fatec

Licence: other
📓 Minicurso de raspagem de dados web com Python ministrado na Semana de Tecnologia da FATEC Jundiaí

Programming Languages

Jupyter Notebook
11667 projects
python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to raspagem-de-dados-fatec

Humanoid
Node.js package to bypass CloudFlare's anti-bot JavaScript challenges
Stars: ✭ 88 (+300%)
Mutual labels:  scraping, web-scraping
PythonScrapyBasicSetup
Basic setup with random user agents and IP addresses for Python Scrapy Framework.
Stars: ✭ 57 (+159.09%)
Mutual labels:  scraping, web-scraping
Sqrape
Simple Query Scraping with CSS and Go Reflection (MOVED to Gitlab)
Stars: ✭ 144 (+554.55%)
Mutual labels:  scraping, web-scraping
Autoscraper
A Smart, Automatic, Fast and Lightweight Web Scraper for Python
Stars: ✭ 4,077 (+18431.82%)
Mutual labels:  scraping, web-scraping
papercut
Papercut is a scraping/crawling library for Node.js built on top of JSDOM. It provides basic selector features together with features like Page Caching and Geosearch.
Stars: ✭ 15 (-31.82%)
Mutual labels:  scraping, web-scraping
Scrapple
A framework for creating semi-automatic web content extractors
Stars: ✭ 464 (+2009.09%)
Mutual labels:  scraping, web-scraping
Scrape Linkedin Selenium
`scrape_linkedin` is a python package that allows you to scrape personal LinkedIn profiles & company pages - turning the data into structured json.
Stars: ✭ 239 (+986.36%)
Mutual labels:  scraping, web-scraping
Phpscraper
PHP Scraper - an highly opinionated web-interface for PHP
Stars: ✭ 148 (+572.73%)
Mutual labels:  scraping, web-scraping
selectorlib
A library to read a YML file with Xpath or CSS Selectors and extract data from HTML pages using them
Stars: ✭ 53 (+140.91%)
Mutual labels:  scraping, web-scraping
ioweb
Web Scraping Framework
Stars: ✭ 31 (+40.91%)
Mutual labels:  scraping, web-scraping
Gopa
[WIP] GOPA, a spider written in Golang, for Elasticsearch. DEMO: http://index.elasticsearch.cn
Stars: ✭ 277 (+1159.09%)
Mutual labels:  scraping, web-scraping
torchestrator
Spin up Tor containers and then proxy HTTP requests via these Tor instances
Stars: ✭ 32 (+45.45%)
Mutual labels:  scraping, data-scraping
Apify Js
Apify SDK — The scalable web scraping and crawling library for JavaScript/Node.js. Enables development of data extraction and web automation jobs (not only) with headless Chrome and Puppeteer.
Stars: ✭ 3,154 (+14236.36%)
Mutual labels:  scraping, web-scraping
Detect Cms
PHP Library for detecting CMS
Stars: ✭ 78 (+254.55%)
Mutual labels:  scraping, web-scraping
trafilatura
Python & command-line tool to gather text on the Web: web crawling/scraping, extraction of text, metadata, comments
Stars: ✭ 711 (+3131.82%)
Mutual labels:  scraping, web-scraping
browser-pool
A Node.js library to easily manage and rotate a pool of web browsers, using any of the popular browser automation libraries like Puppeteer, Playwright, or SecretAgent.
Stars: ✭ 71 (+222.73%)
Mutual labels:  scraping, web-scraping
top-github-scraper
Scape top GitHub repositories and users based on keywords
Stars: ✭ 40 (+81.82%)
Mutual labels:  scraping, web-scraping
whatsapp-tracking
Scraping the status of WhatsApp contacts
Stars: ✭ 49 (+122.73%)
Mutual labels:  scraping
comp thinking social science
Computational Thinking for Social Scientists book project
Stars: ✭ 42 (+90.91%)
Mutual labels:  web-scraping
linkextractor
A Docker tutorial using a link extraction application example
Stars: ✭ 41 (+86.36%)
Mutual labels:  web-scraping

Raspagem de dados Web com Python @ FATEC Jundiaí

Minicurso reallizado durante a Semana de Tecnologia 2017 na Fatec Jundiaí

Nós participamos do curso Hackeando Dados Públicos usando Python com o Fernando Masanori, onde aprendemos técnicas muuuito legais e decidimos levar o nosso aprendizado para a Semana de Tecnologia da Fatec. Os exemplos utilizados continuarão disponíveis aqui.

O que é

A raspagem de dados (data scraping) é uma técnica computacional de coleta automatizada de dados. Durante o curso focaremos no web scraping, cuja finalidade consiste em extrair dados que podem ser visualizados em um navegador web.

Pré-requisitos

  • Instalação do Python 3

  • Instalação das bibliotecas. A partir do terminal de comando execute:

pip install beautifulsoup4 requests numpy scipy matplotlib

Estas recomendações são necessárias para quem optar por levar o próprio notebook. Pediremos ao Nathan pra deixar os computadores do laboratório já preparados no dia! 🎊

🔸 Para os scripts que usaremos durante o minicurso, a instalação do beautifulsoup4 é suficiente. numpy, scipy e matplotlib serão utilizadas apenas em exemplos mais avançados que envolvem visualização de dados e não serão abordados durante a apresentação devido ao tempo.

Para garantir que a instalação foi realizada com sucesso, abra o console Python, faça a importação da biblioteca e chame pela classe BeautifulSoup:

>>> from bs4 import BeautifulSoup
>>> BeautifulSoup
<class 'bs4.BeautifulSoup'>

Exemplos de projetos que fazem uso de raspagem de dados:

Para saber mais:

Nossa equipe:

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].