k1995 / Baiduyunspider
百度云网盘搜索引擎,包含爬虫 & 网站
Stars: ✭ 903
Programming Languages
javascript
184084 projects - #8 most used programming language
python
139335 projects - #7 most used programming language
Labels
Projects that are alternatives of or similar to Baiduyunspider
Infospider
INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱🧰,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。
Stars: ✭ 5,984 (+562.68%)
Mutual labels: spider
Querido Diario
📰 Brazilian government gazettes, accessible to everyone.
Stars: ✭ 681 (-24.58%)
Mutual labels: spider
Istock
👉一个基于spring boot 实现的java股票爬虫(仅支持A股),如果你❤️请⭐️ . V2升级版正在开发中!
Stars: ✭ 622 (-31.12%)
Mutual labels: spider
Creeper
🐾 Creeper - The Next Generation Crawler Framework (Go)
Stars: ✭ 762 (-15.61%)
Mutual labels: spider
Zhihu Crawler
zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目
Stars: ✭ 890 (-1.44%)
Mutual labels: spider
Grab Site
The archivist's web crawler: WARC output, dashboard for all crawls, dynamic ignore patterns
Stars: ✭ 680 (-24.7%)
Mutual labels: spider
Icrawler
A multi-thread crawler framework with many builtin image crawlers provided.
Stars: ✭ 629 (-30.34%)
Mutual labels: spider
Spidr
A versatile Ruby web spidering library that can spider a site, multiple domains, certain links or infinitely. Spidr is designed to be fast and easy to use.
Stars: ✭ 656 (-27.35%)
Mutual labels: spider
Python Spider
豆瓣电影top250、斗鱼爬取json数据以及爬取美女图片、淘宝、有缘、CrawlSpider爬取红娘网相亲人的部分基本信息以及红娘网分布式爬取和存储redis、爬虫小demo、Selenium、爬取多点、django开发接口、爬取有缘网信息、模拟知乎登录、模拟github登录、模拟图虫网登录、爬取多点商城整站数据、爬取微信公众号历史文章、爬取微信群或者微信好友分享的文章、itchat监听指定微信公众号分享的文章
Stars: ✭ 615 (-31.89%)
Mutual labels: spider
Anti Anti Spider
越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因,项目暂停)
Stars: ✭ 6,907 (+664.89%)
Mutual labels: spider
Domain hunter
A Burp Suite Extension that try to find all sub-domain, similar-domain and related-domain of an organization automatically! 基于流量自动收集整个企业或组织的子域名、相似域名、相关域名的burp插件
Stars: ✭ 594 (-34.22%)
Mutual labels: spider
Funpyspidersearchengine
Word2vec 千人千面 个性化搜索 + Scrapy2.3.0(爬取数据) + ElasticSearch7.9.1(存储数据并提供对外Restful API) + Django3.1.1 搜索
Stars: ✭ 782 (-13.4%)
Mutual labels: spider
BaiduyunSpider
分布式百度网盘爬虫,使用当前最流行的技术框架。适合个人学习以及二次开发。
爬虫基于 Scrapy
,灵活简单、易扩展,方便二次开发。使用 Scrapy-Redis
作为分布式中间件,可同时部署多个爬虫实例,以提升采集效率。Web
后台管理基于React
,Material Design
设计风格。
依赖
- MongoDB
- Python3
- Redis
- Node.js > 8.0 (可选)
安装
pip install -r requirements.txt
如何使用
1.运行爬虫
scrapy crawl baidupan
2.运行Web Service
cd api
python rest.py
3.开始采集
开源版目前需要通过后台管理界面,手动提交待采集的分享链接。或者使用API
方式:
POST http://localhost:5000/addUrl
表单参数: url
curl 例子
curl -X POST http://localhost:5000/addUrl \
-F url=https://pan.baidu.com/s/17BtXyO-i02gsC7h4QsKexg
运行截图
技术支持
Note that the project description data, including the texts, logos, images, and/or trademarks,
for each open source project belongs to its rightful owner.
If you wish to add or remove any projects, please contact us at [email protected].