All Projects → rockswang → Awesome Java Crawler

rockswang / Awesome Java Crawler

本仓库收集整理爬虫相关资源,开发语言以Java为主

Programming Languages

java
68154 projects - #9 most used programming language

Projects that are alternatives of or similar to Awesome Java Crawler

Pychromeless
Python Lambda Chrome Automation (naming pending)
Stars: ✭ 219 (-3.95%)
Mutual labels:  crawler, selenium, chrome
Js Nightwatch Recorder
🌙 ⌚️ NightwatchJs recorder for Chrome
Stars: ✭ 122 (-46.49%)
Mutual labels:  selenium, chrome
Examples Of Web Crawlers
一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。(Some interesting examples of python crawlers that are friendly to beginners. )
Stars: ✭ 10,724 (+4603.51%)
Mutual labels:  crawler, selenium
Instagram Bot
An Instagram bot developed using the Selenium Framework
Stars: ✭ 138 (-39.47%)
Mutual labels:  crawler, selenium
Sillynium
Automate the creation of Python Selenium Scripts by drawing coloured boxes on webpage elements
Stars: ✭ 100 (-56.14%)
Mutual labels:  selenium, chrome
Zhishiwenda Helper
百万英雄/冲顶大会/知识超人 答题助手 瞬间使用Chrome打开百度
Stars: ✭ 102 (-55.26%)
Mutual labels:  selenium, chrome
Squidwarc
Squidwarc is a high fidelity, user scriptable, archival crawler that uses Chrome or Chromium with or without a head
Stars: ✭ 125 (-45.18%)
Mutual labels:  crawler, chrome
Docker Python Xvfb Selenium Chrome Firefox
Dockerfiles for Python 3.6/2.7 & Selenium in a headless Chrome or Firefox environment
Stars: ✭ 82 (-64.04%)
Mutual labels:  selenium, chrome
Zhihu fun
基于 Selenium 的知乎关键词爬虫
Stars: ✭ 185 (-18.86%)
Mutual labels:  crawler, selenium
Gecco
Easy to use lightweight web crawler(易用的轻量化网络爬虫)
Stars: ✭ 2,310 (+913.16%)
Mutual labels:  crawler, jsoup
Jvppeteer
Headless Chrome For Java (Java 爬虫)
Stars: ✭ 193 (-15.35%)
Mutual labels:  crawler, chrome
Crawlerpack
Java 網路資料爬蟲包
Stars: ✭ 99 (-56.58%)
Mutual labels:  crawler, jsoup
Amazonrobot
Amazon商品引流的 python 爬虫
Stars: ✭ 97 (-57.46%)
Mutual labels:  crawler, selenium
Instagram Profilecrawl
💻 Quickly crawl the information (e.g. followers, tags, etc...) of an instagram profile. No login required!
Stars: ✭ 110 (-51.75%)
Mutual labels:  crawler, selenium
Lightcrawler
Crawl a website and run it through Google lighthouse
Stars: ✭ 1,339 (+487.28%)
Mutual labels:  crawler, chrome
Tianyancha
pip安装的天眼查爬虫API,指定的单个/多个企业工商信息一键保存为Excel/JSON格式。A Battery-included Scraper API of Tianyancha, the best Chinese business data and investigation platform.
Stars: ✭ 206 (-9.65%)
Mutual labels:  crawler, selenium
Autocrawler
Google, Naver multiprocess image web crawler (Selenium)
Stars: ✭ 957 (+319.74%)
Mutual labels:  crawler, selenium
Puppeteer Walker
a puppeteer walker 🕷 🕸
Stars: ✭ 78 (-65.79%)
Mutual labels:  crawler, chrome
Python3 Spider
Python爬虫实战 - 模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝,如果喜欢请start ❤️
Stars: ✭ 2,129 (+833.77%)
Mutual labels:  crawler, selenium
Chromeless
🖥 Chrome automation made simple. Runs locally or headless on AWS Lambda.
Stars: ✭ 13,254 (+5713.16%)
Mutual labels:  selenium, chrome

996.icu

awesome-java-crawler

本仓库收集整理Java爬虫相关资源

非浏览器Java爬虫框架

基于浏览器核心的爬虫工具

  • Chrome Devtools Protocol - Chrome开发协议相关资源;Chrome控制台工具、Selenium、Puppeteer均基于此协议开发;所有主流编程语言均有第三方支持
  • Selenium - 应用最广泛的浏览器自动化测试框架,支持所有主流浏览器
  • Puppeteer(javascript) - 基于Chrome开发协议的高层浏览器自动化框架
  • Pyppeteer(python) - puppeteer的Python实现
  • Jyppeteer - puppeteer的Java实现
  • CDP4J - Java版本的Chrome开发协议支持库。注意本库为商业授权
  • Tampermonkey - 著名的“油猴”浏览器脚本管理器,可用于浏览器自动化控制
  • PhantomJS(javascript) - 基于WebKet核心的无头浏览器。已经停止维护

Java网络框架

  • java-curl - CURL命令行工具的纯java实现,功能强大,灵活方便
  • httpclient - 历史悠久的Apache HTTP开源库
  • okhttp - 目前流行的HTTP开源库,可用于Android
  • retrofit - 基于okhttp的高层HTTP库,提供基于注解的API

应答数据解析

  • jsoup - 网络请求,HTML解析,CSS Selector/xPath查询
  • Jackson, GSON, fastjson - JSON解析
  • dom4j - XML解析

代理IP

验证码破解

抓包分析,请求拦截等工具

  • Fiddler - Windows平台上常用抓包工具,可以分析HTTPS,可C#编程自行扩展
  • Charles - Mac上可用的抓包工具
  • LittleProxy-MITM - 基于LittleProxy,可编程扩展的Java代理服务器,可基于中间人方式解析和修改HTTPS请求和应答
  • proxyee - 国人作品,支持HTTPS
  • 抓包工具大全 - 猫厂、鹅厂都有,看来大厂都喜欢造轮子

前端JavaScript分析调试工具

其它工具

  • CURL - 最常用的命令行请求模拟工具,Windows下可以通过Cygwin安装,也可以直接用java-curl
  • HTTPBIN.ORG - 在线工具网站,根据需求模拟各种HTTP应答,可用于验证代理的匿名性(透明/匿名/高匿)
    • curl -x <proxy>:<port> https://httpbin.org/get?show_env=1 - 如果X-Forwarded-For和origin不一致,表明使用了非匿名代理
  • 淘宝IP地址库
    • http://ip.taobao.com/service/getIpInfo.php?ip=11.206.34.204 - 查询给定IP的归属地
    • curl http://ip.taobao.com/service/getIpInfo2.php -x <proxy>:<port> -d "ip=myip" - 查询当前主机公网IP信息,这个命令可以验证代理IP是否可用,同时获取代理IP的归属地
  • IP138 - 查询IP归属地、手机号段等
  • 在线UA库 - 各种真实浏览器UserAgent列表
  • WEB前端助手 - Chrome插件,提供大量实用工具,如JSON格式化,编解码等
  • 在线加解密算法大全 - 含DES, AES, RSA等,可用于快速验证加解密算法
  • beautifier.io - js代码在线格式化
  • estree - ECMAScript抽象语法树(AST)业界标准
  • ECMAScript262语言规范 - 帮助理解estree
  • acornjs - ECMAScript编译器前端,将js源码解析成estree格式的AST
  • astring - ECMAScript代码生成器,将AST重新还原成js源码

爬虫实例项目

爬虫干货文章收集

概念

实操

高级反爬攻防

Android App破解

Chrome浏览器相关

其它资源

  • apkmirror - 安卓x86版Chrome下载,可用于安卓模拟器
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].