All Projects → zhao94254 → Pspider

zhao94254 / Pspider

Licence: mit
一个简单的分布式爬虫框架

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to Pspider

fetchurls
A bash script to spider a site, follow links, and fetch urls (with built-in filtering) into a generated text file.
Stars: ✭ 97 (-4.9%)
Mutual labels:  spider, crawl
Celerystalk
An asynchronous enumeration & vulnerability scanner. Run all the tools on all the hosts.
Stars: ✭ 333 (+226.47%)
Mutual labels:  spider, celery
wget-lua
Wget-AT is a modern Wget with Lua hooks, Zstandard (+dictionary) WARC compression and URL-agnostic deduplication.
Stars: ✭ 52 (-49.02%)
Mutual labels:  spider, crawl
crawler-chrome-extensions
爬虫工程师常用的 Chrome 插件 | Chrome extensions used by crawler developer
Stars: ✭ 53 (-48.04%)
Mutual labels:  spider, crawl
Infospider
INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱🧰,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。
Stars: ✭ 5,984 (+5766.67%)
Mutual labels:  spider, crawl
gathertool
gathertool是golang脚本化开发库,目的是提高对应场景程序开发的效率;轻量级爬虫库,接口测试&压力测试库,DB操作库等。
Stars: ✭ 36 (-64.71%)
Mutual labels:  spider, crawl
Geetest
geetest,滑动验证码
Stars: ✭ 293 (+187.25%)
Mutual labels:  spider, crawl
Python3 Spider
Python爬虫实战 - 模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝,如果喜欢请start ❤️
Stars: ✭ 2,129 (+1987.25%)
Mutual labels:  spider, crawl
Fbcrawl
A Facebook crawler
Stars: ✭ 536 (+425.49%)
Mutual labels:  spider, crawl
Webspider
在线地址: http://119.23.223.90:8000
Stars: ✭ 340 (+233.33%)
Mutual labels:  spider, celery
gospider
⚡ Light weight Golang spider framework | 轻量的 Golang 爬虫框架
Stars: ✭ 183 (+79.41%)
Mutual labels:  spider, crawl
Nodespider
[DEPRECATED] Simple, flexible, delightful web crawler/spider package
Stars: ✭ 33 (-67.65%)
Mutual labels:  spider, crawl
Crack Js Spider
破解JS反爬虫加密参数,已破解中国裁判文书网(2020-06-30更新),淘宝密码,天安保险登录,b站登录,房天下登录,WPS登录,微博登录,有道翻译,网易登录,微信公众号登录,空中网登录,今目标登录,学生信息管理系统登录,共赢金融登录,重庆科技资源共享平台登录,网易云音乐下载,一键解析视频链接,财联社登录。
Stars: ✭ 175 (+71.57%)
Mutual labels:  spider, crawl
DeadPool
该项目是一个使用celery作为主体框架的爬虫应用,能够灵活的添加爬虫任务,并且同时运行多站点的爬虫工作,所有组件都能够原生支持规模并发和分布式,加上celery原生的分布式调用,实现大规模并发。
Stars: ✭ 38 (-62.75%)
Mutual labels:  spider, celery
Proxy pool
Python爬虫代理IP池(proxy pool)
Stars: ✭ 13,964 (+13590.2%)
Mutual labels:  spider, crawl
Scrapy IPProxyPool
免费 IP 代理池。Scrapy 爬虫框架插件
Stars: ✭ 100 (-1.96%)
Mutual labels:  spider, crawl
Geetest
滑动验证码,希望对你们有所帮助❤️
Stars: ✭ 114 (+11.76%)
Mutual labels:  spider, crawl
Zhihu Login
知乎模拟登录,支持提取验证码和保存 Cookies
Stars: ✭ 340 (+233.33%)
Mutual labels:  spider, crawl
Grab Site
The archivist's web crawler: WARC output, dashboard for all crawls, dynamic ignore patterns
Stars: ✭ 680 (+566.67%)
Mutual labels:  spider, crawl
Novel Plus
小说精品屋-plus是一个多端(PC、WAP)阅读、功能完善的原创文学CMS系统,由前台门户系统、作家后台管理系统、平台后台管理系统、爬虫管理系统等多个子系统构成,支持多模版、会员充值、订阅模式、新闻发布和实时统计报表等功能,新书自动入库,老书自动更新。
Stars: ✭ 1,122 (+1000%)
Mutual labels:  spider, crawl

pspider


开发环境 Python 3.7.1

spider目录下 一个简单的爬虫框架

app celery要用到这个,放celery的各种配置,以及对celery的封装

核心封装&说明

sdks 放集成进平台的爬虫sdk

爬虫任务一般也会分为两种

  • 流式任务 - 要实时请求的
  • 批任务 - 批量累积的

对于实时的任务,对延时、机器可靠性要求也就更高 批任务的话尽量优化执行性能即可

提供接口将结果进行统一管理 任务并发依靠框架,用的时候只需配置即可

整体思路 master 会来管理控制slave的执行,调度。主要依靠supervisor+一个http服务实现 具体的每个slave执行相应的celery进程,爬虫通过sdk集成到服务中进行统一管理

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].