All Categories → Data Processing → spider

Top 395 spider open source projects

Awesome Spider

爬虫集合

✭ 16,623

awesome spider

Magic google

Google search results crawler, get google search results that you need

✭ 247

python google crawler spider

Fast Lianjia Crawler

直接通过链家 API 抓取数据的极速爬虫，宇宙最快~~ 🚀

✭ 247

python crawler spider

Core

🔞 JAVClub - 让你的大姐姐不再走丢

✭ 2,728

javascript Dockerfile spider google-drive japanese video-streaming magnet jav adult porn adult-content javbus javiewer

Ppspider

web spider built by puppeteer, support task-queue and task-scheduling by decorators，support nedb / mongodb, support data visualization; 基于puppeteer的web爬虫框架，提供灵活的任务队列管理调度方案，提供便捷的数据保存方案（nedb/mongodb），提供数据可视化和用户交互的实现方案

✭ 237

typescript nodejs angular node mongodb proxy crawler spider puppeteer headless task-queue

Killshot

A Penetration Testing Framework, Information gathering tool & Website Vulnerability Scanner

✭ 237

ruby wordpress cms spider exploit vulnerability information-gathering vulnerability-detection joomla vulnerability-scanner

Article spider

微信公众号爬虫

✭ 235

javascript typescript wechat spider

Spider job

招聘网数据爬虫

✭ 234

python html vue mongodb spider scrapy

Spiderkeeper

admin ui for scrapy/open source scrapinghub

✭ 2,562

python HTML javascript CSS dashboard spider scrapy scrapyd scrapy-ui scrapyd-ui scrapyd-dashboard

Laravel Crawler Detect

A Laravel wrapper for CrawlerDetect - the web crawler detection library

✭ 227

laravel bot crawler spider detect

Chromium for spider

dynamic crawler for web vulnerability scanner

✭ 220

html security crawler spider puppeteer chromium

Syncplaylist

sync playlist between music platform

✭ 218

python music spider

Jd mask robot

京东口罩库存监控爬虫(非selenium)，扫码登录、查价、加购、下单、秒杀

✭ 216

python python3 crawler spider

Webvideobot

Web crawler.

✭ 214

java crawler spider

Lspider

LSpider 一个为被动扫描器定制的前端爬虫

✭ 214

python python3 security spider

Biliutil

Bilibili.com视频批量下载工具包

✭ 212

python video spider bilibili pip

Dht

BitTorrent DHT Protocol && DHT Spider.

✭ 2,459

go spider dht bittorrent-dht-protocol

Gerapy

Distributed Crawler Management Framework Based on Scrapy, Scrapyd, Django and Vue.js

✭ 2,601

python Vue javascript SCSS HTML shell vue docker vuejs django dashboard spider distributed scrapy scrapyd webspider gerapy

Py Elasticsearch Django

基于python语言开发的千万级别搜索引擎

✭ 207

python django elasticsearch spider scrapy

Fiction house

小说精品屋是一个多平台（web、安卓app、微信小程序）、功能完善的屏幕自适应小说漫画连载系统，包含精品小说专区、轻小说专区和漫画专区。包括小说/漫画分类、小说/漫画搜索、小说/漫画排行、完本小说/漫画、小说/漫画评分、小说/漫画在线阅读、小说/漫画书架、小说/漫画阅读记录、小说下载、小说弹幕、小说/漫画自动采集/更新/纠错、小说内容自动分享到微博、邮件自动推广、链接自动推送到百度搜索引擎等功能。

✭ 2,710

java PHP cms book spider download novel read cartoon soft-novel

Wereader

一个功能全面的微信读书爬虫 wereader

✭ 207

python spider

Colly

Elegant Scraper and Crawler Framework for Golang

✭ 15,535

go HTML framework crawler spider scraper scraping crawling

Jssoup

JavaScript + BeautifulSoup = JSSoup

✭ 203

javascript html nodejs react-native parser crawler spider beautifulsoup

Querylist

🕷️ The progressive PHP crawler framework! 优雅的渐进式PHP采集框架。

✭ 2,392

PHP HTML crawler spider scraper querylist

Zhihuspider

多线程知乎用户爬虫，基于python3

✭ 201

python python3 crawler spider zhihu multi-threading

Cangibrina

A fast and powerfull dashboard (admin) finder

✭ 200

python spider

Portia Dashboard

portia-dashboard is a visual web crawler based on scrapinghub/portia

✭ 199

python dashboard spider

Ok ip proxy pool

🍿爬虫代理IP池(proxy pool) python🍟一个还ok的IP代理池

✭ 196

python python3 http proxy flask async crawler sqlite spider aiohttp ip pool proxypool

Fooproxy

稳健高效的评分制-针对性- IP代理池 + API服务，可以自己插入采集器进行代理IP的爬取，针对你的爬虫的一个或多个目标网站分别生成有效的IP代理数据库，支持MongoDB 4.0 使用 Python3.7（Scored IP proxy pool ,customise proxy data crawler can be added anytime）

✭ 195

python python3 mongodb async crawler asyncio spider coroutines aiohttp multiprocessing threading proxypool

Zi5book

book.zi5.me全站kindle电子书籍爬取，按照作者书籍名分类，每本书有mobi和equb两种格式，采用分布式进行全站爬取

✭ 191

python redis mongodb spider distributed

Goribot

[Crawler/Scraper for Golang]🕷A lightweight distributed friendly Golang crawler framework.一个轻量的分布式友好的 Golang 爬虫框架。

✭ 190

go golang crawler spider scraper scrapy

Scrapydweb

Web app for Scrapyd cluster management, Scrapy log analysis & visualization, Auto packaging, Timer tasks, Monitor & Alert, and Mobile UI. DEMO 👉

Videospider

抓取豆瓣，bilibili等中的电视剧、电影、动漫演员等信息

✭ 186

python video spider bilibili sqlalchemy douban

Marmot

💐Marmot | Web Crawler/HTTP protocol Download Package 🐭

✭ 186

go golang proxy crawler spider scrapy socks5

Lianjia Beike Spider

链家网和贝壳网房价爬虫，采集北京上海广州深圳等21个中国主要城市的房价数据（小区，二手房，出租房，新房），稳定可靠快速！支持csv,MySQL, MongoDB,Excel, json存储，支持Python2和3，图表展示数据，注释丰富，点星支持，仅供学习参考，请勿用于商业用途，后果自负。

✭ 2,257

python TSQL crawler spider lianjia

Python Script

My Python Script

✭ 182

python script spider

Zhihu Crawler People

A simple distributed crawler for zhihu && data analysis

✭ 182

python crawler spider web-crawler

Grab

Web Scraping Framework

✭ 2,147

python HTML Makefile framework network spider asynchronous http-client web-scraping pycurl urllib3

Crack Js Spider

破解JS反爬虫加密参数，已破解中国裁判文书网（2020-06-30更新），淘宝密码，天安保险登录，b站登录，房天下登录，WPS登录，微博登录，有道翻译，网易登录，微信公众号登录，空中网登录，今目标登录，学生信息管理系统登录，共赢金融登录，重庆科技资源共享平台登录，网易云音乐下载，一键解析视频链接，财联社登录。

✭ 175

javascript js spider crawl

Ncov2019 data crawler

疫情数据爬虫，2019新型冠状病毒数据仓库，轨迹数据，同乘数据，报道

✭ 175

python api data crawler spider

Stackoverflow Spider

📖 爬取 Stackoverflow 100万条问答并简单分析

✭ 174

python spider stackoverflow

Owllook

owllook-小说搜索引擎