All Projects → CaoZ → Fast Lianjia Crawler

CaoZ / Fast Lianjia Crawler

直接通过链家 API 抓取数据的极速爬虫,宇宙最快~~ 🚀

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to Fast Lianjia Crawler

Marmot
💐Marmot | Web Crawler/HTTP protocol Download Package 🐭
Stars: ✭ 186 (-24.7%)
Mutual labels:  crawler, spider
Zhihuspider
多线程知乎用户爬虫,基于python3
Stars: ✭ 201 (-18.62%)
Mutual labels:  crawler, spider
Goribot
[Crawler/Scraper for Golang]🕷A lightweight distributed friendly Golang crawler framework.一个轻量的分布式友好的 Golang 爬虫框架。
Stars: ✭ 190 (-23.08%)
Mutual labels:  crawler, spider
Zhihu Crawler People
A simple distributed crawler for zhihu && data analysis
Stars: ✭ 182 (-26.32%)
Mutual labels:  crawler, spider
Laravel Crawler Detect
A Laravel wrapper for CrawlerDetect - the web crawler detection library
Stars: ✭ 227 (-8.1%)
Mutual labels:  crawler, spider
Lianjia Beike Spider
链家网和贝壳网房价爬虫,采集北京上海广州深圳等21个中国主要城市的房价数据(小区,二手房,出租房,新房),稳定可靠快速!支持csv,MySQL, MongoDB,Excel, json存储,支持Python2和3,图表展示数据,注释丰富 ,点星支持,仅供学习参考,请勿用于商业用途,后果自负。
Stars: ✭ 2,257 (+813.77%)
Mutual labels:  crawler, spider
Ok ip proxy pool
🍿爬虫代理IP池(proxy pool) python🍟一个还ok的IP代理池
Stars: ✭ 196 (-20.65%)
Mutual labels:  crawler, spider
Proxy pool
Python爬虫代理IP池(proxy pool)
Stars: ✭ 13,964 (+5553.44%)
Mutual labels:  crawler, spider
Colly
Elegant Scraper and Crawler Framework for Golang
Stars: ✭ 15,535 (+6189.47%)
Mutual labels:  crawler, spider
Jssoup
JavaScript + BeautifulSoup = JSSoup
Stars: ✭ 203 (-17.81%)
Mutual labels:  crawler, spider
Ncov2019 data crawler
疫情数据爬虫,2019新型冠状病毒数据仓库,轨迹数据,同乘数据,报道
Stars: ✭ 175 (-29.15%)
Mutual labels:  crawler, spider
Jd mask robot
京东口罩库存监控爬虫(非selenium),扫码登录、查价、加购、下单、秒杀
Stars: ✭ 216 (-12.55%)
Mutual labels:  crawler, spider
Spoon
🥄 A package for building specific Proxy Pool for different Sites.
Stars: ✭ 173 (-29.96%)
Mutual labels:  crawler, spider
Chromium for spider
dynamic crawler for web vulnerability scanner
Stars: ✭ 220 (-10.93%)
Mutual labels:  crawler, spider
Linkedin Profile Scraper
🕵️‍♂️ LinkedIn profile scraper returning structured profile data in JSON. Works in 2020.
Stars: ✭ 171 (-30.77%)
Mutual labels:  crawler, spider
Fooproxy
稳健高效的评分制-针对性- IP代理池 + API服务,可以自己插入采集器进行代理IP的爬取,针对你的爬虫的一个或多个目标网站分别生成有效的IP代理数据库,支持MongoDB 4.0 使用 Python3.7(Scored IP proxy pool ,customise proxy data crawler can be added anytime)
Stars: ✭ 195 (-21.05%)
Mutual labels:  crawler, spider
Fun crawler
Crawl some picture for fun
Stars: ✭ 169 (-31.58%)
Mutual labels:  crawler, spider
Gain
Web crawling framework based on asyncio.
Stars: ✭ 2,002 (+710.53%)
Mutual labels:  crawler, spider
Querylist
🕷️ The progressive PHP crawler framework! 优雅的渐进式PHP采集框架。
Stars: ✭ 2,392 (+868.42%)
Mutual labels:  crawler, spider
Webvideobot
Web crawler.
Stars: ✭ 214 (-13.36%)
Mutual labels:  crawler, spider

Super Fast 链家の爬虫

Python PostgreSQL

准备工作:

  1. 安装Python(3.6 或更高版本),安装PostgreSQL

  2. 建立虚拟运行环境(可选)

  3. 下载代码

  4. 安装依赖:pip install -r requirements.txt

  5. 根据自己的数据库创建配置文件或修改默认配置文件(可选)

  6. 创建数据库,如:createdb -O postgres lian-jia

  7. 准备完成,现在可以愉快的去抓取数据啦~

使用方法:

app
├── main.py             用于抓取城市、行政区、商圈及小区基本信息。
├── page_crawler.py     用于抓取小区详情页面。
└── page_parser.py      用于解析小区详情信息。
usage: main.py [-h] [-c CONFIG] [city_id]

positional arguments:
  city_id               city id

optional arguments:
  -h, --help            show this help message and exit
  -c CONFIG, --config CONFIG
                        config file name

例如,抓取北京市的数据:

python app/main.py 110000 (110000 即为北京市的 id)

这步可以获得小区基本信息,由于是通过链家网 API 获得的数据,速度极快。小区详细信息似乎并不能通过 API 获得,只能通过抓取页面的方式获得(链家 App 同样是通过页面来展示小区详情的)。

抓取小区详情页面:python app/page_crawler.py 110000

解析小区详情信息:python app/page_parser.py 110000


速度:

以北京市为例,链家网中约有 10905 个小区的数据,经测试,3 分钟内可完成小区基本信息的抓取。视网速及服务器响应速度,在使用 10 个线程进行小区详情页面抓取时,用时约 20~30 分钟。

配置文件说明:

将默认配置文件复制为config.json,然后修改对应项即可。

设置网络代理:

设置环境变量 HTTP_PROXY / HTTPS_PROXY 即可。

示例输出:

2017-10-26 16:57:23,083 root[config] INFO: 使用配置文件 "config.json".
2017-10-26 16:57:23,420 root[main] INFO: 初始化/更新城市信息... city_id=110000
2017-10-26 16:57:24,662 root[main] INFO: 城市=北京, 区域=东城, 商圈数=27
2017-10-26 16:57:24,742 root[main] INFO: 城市=北京, 区域=西城, 商圈数=26
2017-10-26 16:57:24,802 root[main] INFO: 城市=北京, 区域=朝阳, 商圈数=63
2017-10-26 16:57:24,942 root[main] INFO: 城市=北京, 区域=海淀, 商圈数=45
...
2017-10-26 16:57:25,021 root[main] INFO: 城市=北京, 区域=丰台, 商圈数=37
2017-10-26 16:57:25,285 root[main] INFO: 城市=北京, 区域=延庆, 商圈数=1
2017-10-26 16:57:25,289 root[main] INFO: 初始化/更新城市信息结束.
2017-10-26 16:57:25,290 root[main] INFO: 更新久于 3 天的小区信息...
2017-10-26 16:57:25,298 root[main] INFO: 需更新总商圈数量: 235
2017-10-26 16:57:25,977 root[main] INFO: 进度=1/235, 商圈=朝阳门内, 小区数=47
2017-10-26 16:57:27,206 root[main] INFO: 进度=2/235, 商圈=灯市口, 小区数=64
2017-10-26 16:57:27,618 root[main] INFO: 进度=3/235, 商圈=东单, 小区数=28
...
2017-10-26 17:00:33,082 root[main] INFO: 进度=233/235, 商圈=怀柔其它, 小区数=2
2017-10-26 17:00:34,500 root[main] INFO: 进度=234/235, 商圈=密云其它, 小区数=89
2017-10-26 17:00:35,217 root[main] INFO: 进度=235/235, 商圈=延庆其它, 小区数=35
2017-10-26 17:00:35,239 root[main] INFO: 小区信息更新完毕.

Screenshot:

数据库截图

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].