rockswang / Awesome Java Crawler
本仓库收集整理爬虫相关资源,开发语言以Java为主
Stars: ✭ 228
Programming Languages
java
68154 projects - #9 most used programming language
Projects that are alternatives of or similar to Awesome Java Crawler
Pychromeless
Python Lambda Chrome Automation (naming pending)
Stars: ✭ 219 (-3.95%)
Mutual labels: crawler, selenium, chrome
Js Nightwatch Recorder
🌙 ⌚️ NightwatchJs recorder for Chrome
Stars: ✭ 122 (-46.49%)
Mutual labels: selenium, chrome
Examples Of Web Crawlers
一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。(Some interesting examples of python crawlers that are friendly to beginners. )
Stars: ✭ 10,724 (+4603.51%)
Mutual labels: crawler, selenium
Instagram Bot
An Instagram bot developed using the Selenium Framework
Stars: ✭ 138 (-39.47%)
Mutual labels: crawler, selenium
Sillynium
Automate the creation of Python Selenium Scripts by drawing coloured boxes on webpage elements
Stars: ✭ 100 (-56.14%)
Mutual labels: selenium, chrome
Zhishiwenda Helper
百万英雄/冲顶大会/知识超人 答题助手 瞬间使用Chrome打开百度
Stars: ✭ 102 (-55.26%)
Mutual labels: selenium, chrome
Squidwarc
Squidwarc is a high fidelity, user scriptable, archival crawler that uses Chrome or Chromium with or without a head
Stars: ✭ 125 (-45.18%)
Mutual labels: crawler, chrome
Docker Python Xvfb Selenium Chrome Firefox
Dockerfiles for Python 3.6/2.7 & Selenium in a headless Chrome or Firefox environment
Stars: ✭ 82 (-64.04%)
Mutual labels: selenium, chrome
Gecco
Easy to use lightweight web crawler(易用的轻量化网络爬虫)
Stars: ✭ 2,310 (+913.16%)
Mutual labels: crawler, jsoup
Instagram Profilecrawl
💻 Quickly crawl the information (e.g. followers, tags, etc...) of an instagram profile. No login required!
Stars: ✭ 110 (-51.75%)
Mutual labels: crawler, selenium
Lightcrawler
Crawl a website and run it through Google lighthouse
Stars: ✭ 1,339 (+487.28%)
Mutual labels: crawler, chrome
Tianyancha
pip安装的天眼查爬虫API,指定的单个/多个企业工商信息一键保存为Excel/JSON格式。A Battery-included Scraper API of Tianyancha, the best Chinese business data and investigation platform.
Stars: ✭ 206 (-9.65%)
Mutual labels: crawler, selenium
Autocrawler
Google, Naver multiprocess image web crawler (Selenium)
Stars: ✭ 957 (+319.74%)
Mutual labels: crawler, selenium
Python3 Spider
Python爬虫实战 - 模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝,如果喜欢请start ❤️
Stars: ✭ 2,129 (+833.77%)
Mutual labels: crawler, selenium
Chromeless
🖥 Chrome automation made simple. Runs locally or headless on AWS Lambda.
Stars: ✭ 13,254 (+5713.16%)
Mutual labels: selenium, chrome
awesome-java-crawler
本仓库收集整理Java爬虫相关资源
非浏览器Java爬虫框架
- VSCrawler - 适合抓取封堵的爬虫框架,大佬出品!
- WebMagic - Java垂直爬虫框架
- crawler4j - 多线程爬虫框架
- SeimiCrawler
- ispider - 分布式爬虫框架
- Gecco - 轻量化的易用的网络爬虫
基于浏览器核心的爬虫工具
- Chrome Devtools Protocol - Chrome开发协议相关资源;Chrome控制台工具、Selenium、Puppeteer均基于此协议开发;所有主流编程语言均有第三方支持
- Selenium - 应用最广泛的浏览器自动化测试框架,支持所有主流浏览器
- Puppeteer(javascript) - 基于Chrome开发协议的高层浏览器自动化框架
- Pyppeteer(python) - puppeteer的Python实现
- Jyppeteer - puppeteer的Java实现
- CDP4J - Java版本的Chrome开发协议支持库。注意本库为商业授权
- Tampermonkey - 著名的“油猴”浏览器脚本管理器,可用于浏览器自动化控制
- PhantomJS(javascript) - 基于WebKet核心的无头浏览器。已经停止维护
Java网络框架
- java-curl - CURL命令行工具的纯java实现,功能强大,灵活方便
- httpclient - 历史悠久的Apache HTTP开源库
- okhttp - 目前流行的HTTP开源库,可用于Android
- retrofit - 基于okhttp的高层HTTP库,提供基于注解的API
应答数据解析
代理IP
验证码破解
- 冷月JS爆破 - 各种滑动验证码识别
- Luosimao验证码破解
- Tesseract OCR - 开源OCR引擎,可用于自动识别较简单的图片验证码
- 若快 - 人肉打码平台,服务较稳定,应答时间较快
抓包分析,请求拦截等工具
- Fiddler - Windows平台上常用抓包工具,可以分析HTTPS,可C#编程自行扩展
- Charles - Mac上可用的抓包工具
- LittleProxy-MITM - 基于LittleProxy,可编程扩展的Java代理服务器,可基于中间人方式解析和修改HTTPS请求和应答
- proxyee - 国人作品,支持HTTPS
- 抓包工具大全 - 猫厂、鹅厂都有,看来大厂都喜欢造轮子
前端JavaScript分析调试工具
- javascript-breakpoint-collection - 一个Chrome插件,可用于设定高级断点;也可以直接在控制台执行其源码,之后即可在控制台设断点,可以监听任意对象属性读写、cookie读写等
- 几种常见的JavaScript混淆和反混淆工具分析实战
- spy-debugger手机浏览器远程调试 - 使用代理服务器注入外部JavaScript,实现远程调试。可以调试微信内置浏览器, 应用内嵌的WebView等,非常强大
其它工具
- CURL - 最常用的命令行请求模拟工具,Windows下可以通过Cygwin安装,也可以直接用java-curl
-
HTTPBIN.ORG - 在线工具网站,根据需求模拟各种HTTP应答,可用于验证代理的匿名性(透明/匿名/高匿)
-
curl -x <proxy>:<port> https://httpbin.org/get?show_env=1
- 如果X-Forwarded-For和origin不一致,表明使用了非匿名代理
-
-
淘宝IP地址库
-
http://ip.taobao.com/service/getIpInfo.php?ip=11.206.34.204
- 查询给定IP的归属地 -
curl http://ip.taobao.com/service/getIpInfo2.php -x <proxy>:<port> -d "ip=myip"
- 查询当前主机公网IP信息,这个命令可以验证代理IP是否可用,同时获取代理IP的归属地
-
- IP138 - 查询IP归属地、手机号段等
- 在线UA库 - 各种真实浏览器UserAgent列表
- WEB前端助手 - Chrome插件,提供大量实用工具,如JSON格式化,编解码等
- 在线加解密算法大全 - 含DES, AES, RSA等,可用于快速验证加解密算法
- beautifier.io - js代码在线格式化
- estree - ECMAScript抽象语法树(AST)业界标准
- ECMAScript262语言规范 - 帮助理解estree
- acornjs - ECMAScript编译器前端,将js源码解析成estree格式的AST
- astring - ECMAScript代码生成器,将AST重新还原成js源码
爬虫实例项目
- 知乎爬虫 - 使用http代理,多线程
- 电商爬虫 - httpclient+hbase+solr+redis+zookeeper
- 淘宝商品爬虫(python) - python + selenium
爬虫干货文章收集
概念
- HTTP简史 - 介绍HTTP协议的干货
- 网络爬虫干货总结 - 虽然是python栈的,但是对爬虫各个环节的概念总结的非常全面
- Java 月薪25K的爬虫工程师对爬虫的流程做了一个非常全面的总结! - 膜拜ing...
实操
高级反爬攻防
- 注入eval, Function等系统函数,截获动态代码 - 破解动态执行的加密js代码
- 某网站高度加密混淆的javascript的分析
- 从javaScript脚本混淆说起
- JavaScript反调试技巧 - 知己知彼,百战不殆
- Chrome调试技巧
- 那些年绕过的反爬手段
- 反反爬虫手段收集
- 大前端时代安全性如何做 - 提供一种反爬方案
- 文书网破解SDK
- 2.5代指纹追踪技术—跨浏览器指纹识别
Android App破解
Chrome浏览器相关
- Chrome命令行参数大全 - 定制化chrome,比如启动无头版浏览器
- Getting Started with Headless Chrome - 介绍如何使用无头版Chrome
- CentOS6上安装Chrome - 用于搭建无头浏览器爬虫生产环境
- CentOS 7.x环境下搭建: Headless chrome + Selenium + ChromeDriver
其它资源
- apkmirror - 安卓x86版Chrome下载,可用于安卓模拟器
Note that the project description data, including the texts, logos, images, and/or trademarks,
for each open source project belongs to its rightful owner.
If you wish to add or remove any projects, please contact us at [email protected].