All Projects → PPACI → scrapy-LBC

PPACI / scrapy-LBC

Licence: other
Araignée LeBonCoin avec Scrapy et ElasticSearch

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to scrapy-LBC

Advanced Web Scraping Tutorial
The Zipru scraper developed in the Advanced Web Scraping Tutorial.
Stars: ✭ 384 (+2642.86%)
Mutual labels:  scraper, scrapy
Voyages Sncf Api
A scrapy spider that scraps times and prices from Voyages Sncf. It uses scrapyrt to provide an API interface.
Stars: ✭ 7 (-50%)
Mutual labels:  scraper, scrapy
Fbcrawl
A Facebook crawler
Stars: ✭ 536 (+3728.57%)
Mutual labels:  scraper, scrapy
OpenScraper
An open source webapp for scraping: towards a public service for webscraping
Stars: ✭ 80 (+471.43%)
Mutual labels:  scraper, scrapy
Scrapoxy
Scrapoxy hides your scraper behind a cloud. It starts a pool of proxies to send your requests. Now, you can crawl without thinking about blacklisting!
Stars: ✭ 1,322 (+9342.86%)
Mutual labels:  scraper, scrapy
Linkedin
Linkedin Scraper using Selenium Web Driver, Chromium headless, Docker and Scrapy
Stars: ✭ 309 (+2107.14%)
Mutual labels:  scraper, scrapy
Mailinglistscraper
A python web scraper for public email lists.
Stars: ✭ 19 (+35.71%)
Mutual labels:  scraper, scrapy
scrapy facebooker
Collection of scrapy spiders which can scrape posts, images, and so on from public Facebook Pages.
Stars: ✭ 22 (+57.14%)
Mutual labels:  scraper, scrapy
Email Extractor
The main functionality is to extract all the emails from one or several URLs - La funcionalidad principal es extraer todos los correos electrónicos de una o varias Url
Stars: ✭ 81 (+478.57%)
Mutual labels:  scraper, scrapy
Warta Scrap
Indonesia Index News Crawler, including 10 online media
Stars: ✭ 57 (+307.14%)
Mutual labels:  scraper, scrapy
OLX Scraper
📻 An OLX Scraper using Scrapy + MongoDB. It Scrapes recent ads posted regarding requested product and dumps to NOSQL MONGODB.
Stars: ✭ 15 (+7.14%)
Mutual labels:  scraper, scrapy
Goribot
[Crawler/Scraper for Golang]🕷A lightweight distributed friendly Golang crawler framework.一个轻量的分布式友好的 Golang 爬虫框架。
Stars: ✭ 190 (+1257.14%)
Mutual labels:  scraper, scrapy
Scrapyrt
HTTP API for Scrapy spiders
Stars: ✭ 637 (+4450%)
Mutual labels:  scraper, scrapy
Django Dynamic Scraper
Creating Scrapy scrapers via the Django admin interface
Stars: ✭ 1,024 (+7214.29%)
Mutual labels:  scraper, scrapy
Seleniumcrawler
An example using Selenium webdrivers for python and Scrapy framework to create a web scraper to crawl an ASP site
Stars: ✭ 117 (+735.71%)
Mutual labels:  scraper, scrapy
Ruiji.net
crawler framework, distributed crawler extractor
Stars: ✭ 220 (+1471.43%)
Mutual labels:  scraper, scrapy
scrapy helper
Dynamic configurable crawl (动态可配置化爬虫)
Stars: ✭ 84 (+500%)
Mutual labels:  scrapy
ncedc-earthquakes
The complete set of earthquake data with the Elastic Stack demo.
Stars: ✭ 22 (+57.14%)
Mutual labels:  kibana
nyt-first-said
Tweets when words are published for the first time in the NYT
Stars: ✭ 222 (+1485.71%)
Mutual labels:  scraper
kbn circles vis
Kibana 4.4.1 D3 Circles Packing Visualization
Stars: ✭ 30 (+114.29%)
Mutual labels:  kibana

LBC spider

Cette araignée, basé sur le framework Scrapy parcours Leboncoin, analyse les pages et insère les résultats dans une base ElasticSearch.

Combiné avec la solution d'ElasticSearch : Kibana, vous obtenez une solution complète permettant de suivre l'évolution des prix sur LeBonCoin.

Pré-requis:

  • Une base ElasticSearch (disponible via Docker)
  • (Optionnel) Kibana pour la visualisation (disponbile via Docker)
  • Python 2 ou 3

Installation

  1. Installer les dépendances via pip install -r requirements.txt
  2. Parametrer votre base ElasticSearch dans scrapy_LBC/scrapy_LBC/settings.py
# scrapyelasticsearch configuration
ELASTICSEARCH_SERVERS = ['localhost']
ELASTICSEARCH_INDEX = 'scrapy-lbc'
ELASTICSEARCH_TYPE = 'items'
ELASTICSEARCH_UNIQ_KEY = 'url'
ELASTICSEARCH_BUFFER_LENGTH = 10

L'araignée se connectera par défaut sur une base localhost:9200 (paramètre par défaut). Pour plus d'information sur les paramètres disponible : scrapy-elasticsearch

  1. Definir vos url de recherche dans le url.json
{
  "urls":[
    "https://www.leboncoin.fr/telephonie/offres/lorraine/occasions/?th=1&q=iphone&it=1&parrot=0&ps=7",
    "https://www.leboncoin.fr/ventes_immobilieres/offres/lorraine/occasions/?th=1&parrot=0"
  ]
}
  1. se placer dans le dossier ./scrapy_LBC

  2. Lancer l'araignée scrapy crawl leboncoin

Actuellement, l'araignée récupère :

  • url
  • titre
  • date de mise en ligne
  • prix
  • description
  • tous les tags (Ville, Surface d'une maison, Km d'une voiture, etc)

Par défaut l'araginée ne parcours d'une page par seconde, n'essayez pas de parcours TOUT LeBonCoin à moins d'etre très patient.

Il est possible d'augmenter la vitesse de l'araignée via les paramètres.

# Configure maximum concurrent requests performed by Scrapy (default: 16)
CONCURRENT_REQUESTS = 1

# Configure a delay for requests for the same website (default: 0)
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 1

L'araignée ne traite maintenant plus deux fois la même annonce (identifié par l'url)'.

Mise en garde : un delai trop faible (0 par exemple) combiné à de nombreuses requetes concurrentes peuvent vous faire bannir temporairement de LeBonCoin.

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].