All Projects → yikesoftware → T66y_spider

yikesoftware / T66y_spider

Python多线程下载 草榴(t66y.com) 网站【新時代的我們】和【達蓋爾的旗幟】两个板块帖子内的图片

Programming Languages

python
139335 projects - #7 most used programming language

Labels

Projects that are alternatives of or similar to T66y spider

Lizard
💐 Full Amazon Automatic Download
Stars: ✭ 41 (-33.87%)
Mutual labels:  spider
Cloudmusic
网易云爬虫解决方案
Stars: ✭ 51 (-17.74%)
Mutual labels:  spider
Awesome Python Primer
自学入门 Python 优质中文资源索引,包含 书籍 / 文档 / 视频,适用于 爬虫 / Web / 数据分析 / 机器学习 方向
Stars: ✭ 57 (-8.06%)
Mutual labels:  spider
Avbook
AV 电影管理系统, avmoo , javbus , javlibrary 爬虫,线上 AV 影片图书馆,AV 磁力链接数据库,Japanese Adult Video Library,Adult Video Magnet Links - Japanese Adult Video Database
Stars: ✭ 8,133 (+13017.74%)
Mutual labels:  spider
Super Spider
根据腾讯安全应急响应中心的架构编写的一款超强爬虫(广度优先搜索)
Stars: ✭ 48 (-22.58%)
Mutual labels:  spider
Last Statement Of Death Row
Last-Statement-of-Death-Row, 人之将死,其言也善
Stars: ✭ 53 (-14.52%)
Mutual labels:  spider
Maman
Rust Web Crawler saving pages on Redis
Stars: ✭ 39 (-37.1%)
Mutual labels:  spider
Glyphhanger
Your web font utility belt. It can subset web fonts. It can find unicode-ranges for you automatically. It makes julienne fries.
Stars: ✭ 1,099 (+1672.58%)
Mutual labels:  spider
Reptile
🏀 Python3 网络爬虫实战(部分含详细教程)猫眼 腾讯视频 豆瓣 研招网 微博 笔趣阁小说 百度热点 B站 CSDN 网易云阅读 阿里文学 百度股票 今日头条 微信公众号 网易云音乐 拉勾 有道 unsplash 实习僧 汽车之家 英雄联盟盒子 大众点评 链家 LPL赛程 台风 梦幻西游、阴阳师藏宝阁 天气 牛客网 百度文库 睡前故事 知乎 Wish
Stars: ✭ 1,048 (+1590.32%)
Mutual labels:  spider
Wechatbot4xianyu
🤖 微信订阅机器人 | 🐟 微信订阅机器人之闲鱼二手商品监控
Stars: ✭ 56 (-9.68%)
Mutual labels:  spider
Photon
Incredibly fast crawler designed for OSINT.
Stars: ✭ 8,332 (+13338.71%)
Mutual labels:  spider
Django Dynamic Scraper
Creating Scrapy scrapers via the Django admin interface
Stars: ✭ 1,024 (+1551.61%)
Mutual labels:  spider
Gotools
create some tools use go lang.
Stars: ✭ 54 (-12.9%)
Mutual labels:  spider
Crawlab
Distributed web crawler admin platform for spiders management regardless of languages and frameworks. 分布式爬虫管理平台,支持任何语言和框架
Stars: ✭ 8,392 (+13435.48%)
Mutual labels:  spider
Car Prices
Golang爬虫 爬取汽车之家 二手车产品库
Stars: ✭ 57 (-8.06%)
Mutual labels:  spider
Wechat articles spider
微信公众号文章的爬虫
Stars: ✭ 993 (+1501.61%)
Mutual labels:  spider
Lmlcspider production
🐞 立马理财销售统计(爬虫+页面展示)
Stars: ✭ 51 (-17.74%)
Mutual labels:  spider
Test demo
Testing Using Python Demo. 使用Python测试脚本demo。
Stars: ✭ 60 (-3.23%)
Mutual labels:  spider
Beanbun
Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性,基于 Workerman。
Stars: ✭ 1,096 (+1667.74%)
Mutual labels:  spider
Btlet
Some toolkits implements part of BT Protocol, like DHT spider.
Stars: ✭ 54 (-12.9%)
Mutual labels:  spider

t66y_spider

利用爬虫下载草榴【新時代的我們】和【達蓋爾的旗幟】两个板块帖子内的图片

环境要求

解释器版本

Python 3.x

模块列表

pip install -r requirements.txt

代理配置

根目录下有代理配置文件,可以配置http/https代理,(参数[-p 0]可以禁用代理)
默认配置:

{
  "http": "socks5://localhost:1080",
  "https": "socks5://localhost:1080"
}

本地代理

  1. 本地开启ss/ssr/v2ray等服务
  2. 设置“允许来自局域网的链接”
  3. 修改配置文件proxy中的代理端口为ss/ssr/v2ray的本地代理端口(一般默认1080)
    请确保PAC文件设置了代理草榴网站的规则

远程代理

填入代理提供商的IP地址以及对应端口号即可(如socks5://xxx.xxx.xxx.xxx:1234/)

使用方法

命令行:

python Spider_of_t66y.py [-h] [-c CLASS_ID] [-s START] [-e END] [-m MAX_THREAD]
[-h] 显示帮助信息
[-c] 下载类别,1下载【新時代的我們】板块 , 2下载【達蓋爾的旗幟】板块 , 0同时下载两个板块
[-s] 下载的起始页(默认1)
[-e] 下载的尾页
[-m] 设置最大下载线程(默认60)
[-p] '0':禁用代理配置 默认'1':启用代理
下载完成的图片会保存在./t66y目录

example:

python Spider_of_t66y.py -c 1 -s 1 -e 2 -m 300
python Spider_of_t66y.py -c 2 -p 0
python Spider_of_t66y.py -h

友情提醒

实际测试中线程数量过多会触发图床的流量保护,导致无法下载图片
同时如果代理服务器带宽较小,造成长时间拥塞,程序会自动结束某些下载线程

仅供学习,注意身体
by.赤道企鹅™

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].