Top 30 crawl open source projects

Awesome crawl
腾讯新闻、知乎话题、微博粉丝,Tumblr爬虫、斗鱼弹幕、妹子图爬虫、分布式设计等
Crack Js Spider
破解JS反爬虫加密参数,已破解中国裁判文书网(2020-06-30更新),淘宝密码,天安保险登录,b站登录,房天下登录,WPS登录,微博登录,有道翻译,网易登录,微信公众号登录,空中网登录,今目标登录,学生信息管理系统登录,共赢金融登录,重庆科技资源共享平台登录,网易云音乐下载,一键解析视频链接,财联社登录。
Proxy pool
Python爬虫代理IP池(proxy pool)
Bitextor
Bitextor generates translation memories from multilingual websites.
Python3 Spider
Python爬虫实战 - 模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝,如果喜欢请start ❤️
Dl coursera
A simple, fast, and reliable Coursera crawling & downloading tool
Geetest
滑动验证码,希望对你们有所帮助❤️
Andvaranaut
A dungeon crawler
Pspider
一个简单的分布式爬虫框架
Weixin
微信小游戏辅助合集(加减大师、包你懂我、大家来找茬腾讯版、头脑王者、好友画我、悦动音符、我最在行、星途WeGoing、猜画小歌、知乎答题王、腾讯中国象棋、跳一跳、题多多黄金版)
Novel Plus
小说精品屋-plus是一个多端(PC、WAP)阅读、功能完善的原创文学CMS系统,由前台门户系统、作家后台管理系统、平台后台管理系统、爬虫管理系统等多个子系统构成,支持多模版、会员充值、订阅模式、新闻发布和实时统计报表等功能,新书自动入库,老书自动更新。
Cmd Toutiao
摸鱼神器:在命令行中看今日头条
Nodespider
[DEPRECATED] Simple, flexible, delightful web crawler/spider package
Recruit
这个项目的目的是整合招聘信息,并做一定处理。
Grab Site
The archivist's web crawler: WARC output, dashboard for all crawls, dynamic ignore patterns
Infospider
INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱🧰,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。
Thea11ymachine
The A11y Machine is an automated accessibility testing tool which crawls and tests pages of any web application to produce detailed reports.
Zhihu Login
知乎模拟登录,支持提取验证码和保存 Cookies
Geetest
geetest,滑动验证码
Scrapy IPProxyPool
免费 IP 代理池。Scrapy 爬虫框架插件
wget-lua
Wget-AT is a modern Wget with Lua hooks, Zstandard (+dictionary) WARC compression and URL-agnostic deduplication.
fetchurls
A bash script to spider a site, follow links, and fetch urls (with built-in filtering) into a generated text file.
diffbot-php-client
[Deprecated - Maintenance mode - use APIs directly please!] The official Diffbot client library
crawl
Lightweight library for scalable crawlers in Go.
gathertool
gathertool是golang脚本化开发库,目的是提高对应场景程序开发的效率;轻量级爬虫库,接口测试&压力测试库,DB操作库等。
crawler-chrome-extensions
爬虫工程师常用的 Chrome 插件 | Chrome extensions used by crawler developer
gospider
⚡ Light weight Golang spider framework | 轻量的 Golang 爬虫框架
1-30 of 30 crawl projects