Cheap and reliable Node.js hosting starts at $3/month, and $1/month static HTML hosting

Created with love in Canada, visit hostnodejs.com today

Feel like to post an Ad? Learn Details

All Projects → DipperStar → Javlibrary

DipperStar / Javlibrary

Javlibrary spider

Programming Languages

python

139335 projects - #7 most used programming language

Labels

spider

Projects that are alternatives of or similar to Javlibrary

Domain hunter

A Burp Suite Extension that try to find all sub-domain, similar-domain and related-domain of an organization automatically! 基于流量自动收集整个企业或组织的子域名、相似域名、相关域名的burp插件

Stars: ✭ 594 (+3394.12%)

Mutual labels: spider

Grab Site

The archivist's web crawler: WARC output, dashboard for all crawls, dynamic ignore patterns

Stars: ✭ 680 (+3900%)

Mutual labels: spider

Gospider

Gospider - Fast web spider written in Go

Stars: ✭ 785 (+4517.65%)

Mutual labels: spider

Python Spider

豆瓣电影top250、斗鱼爬取json数据以及爬取美女图片、淘宝、有缘、CrawlSpider爬取红娘网相亲人的部分基本信息以及红娘网分布式爬取和存储redis、爬虫小demo、Selenium、爬取多点、django开发接口、爬取有缘网信息、模拟知乎登录、模拟github登录、模拟图虫网登录、爬取多点商城整站数据、爬取微信公众号历史文章、爬取微信群或者微信好友分享的文章、itchat监听指定微信公众号分享的文章

Stars: ✭ 615 (+3517.65%)

Mutual labels: spider

Spidr

A versatile Ruby web spidering library that can spider a site, multiple domains, certain links or infinitely. Spidr is designed to be fast and easy to use.

Stars: ✭ 656 (+3758.82%)

Mutual labels: spider

Bilibili Api

哔哩哔哩的API调用模块

Stars: ✭ 704 (+4041.18%)

Mutual labels: spider

Newcrawler

Free Web Scraping Tool with Java

Stars: ✭ 589 (+3364.71%)

Mutual labels: spider

Seeker

Seeker - another job board aggregator.

Stars: ✭ 16 (-5.88%)

Mutual labels: spider

Oneblog

👽 OneBlog，一个简洁美观、功能强大并且自适应的Java博客

Stars: ✭ 678 (+3888.24%)

Mutual labels: spider

Funpyspidersearchengine

Word2vec 千人千面个性化搜索 + Scrapy2.3.0(爬取数据) + ElasticSearch7.9.1(存储数据并提供对外Restful API) + Django3.1.1 搜索

Stars: ✭ 782 (+4500%)

Mutual labels: spider

Istock

👉一个基于spring boot 实现的java股票爬虫(仅支持A股)，如果你❤️请⭐️ . V2升级版正在开发中！

Stars: ✭ 622 (+3558.82%)

Mutual labels: spider

Darknet chinesetrading

🚇暗网中文网监控爬虫(DEEPMIX)

Stars: ✭ 649 (+3717.65%)

Mutual labels: spider

Creeper

🐾 Creeper - The Next Generation Crawler Framework (Go)

Stars: ✭ 762 (+4382.35%)

Mutual labels: spider

Infospider

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱🧰，旨在安全快捷的帮助用户拿回自己的数据，工具代码开源，流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

Stars: ✭ 5,984 (+35100%)

Mutual labels: spider

Torbot

Dark Web OSINT Tool

Stars: ✭ 821 (+4729.41%)

Mutual labels: spider

Baiduimagespider

一个超级轻量的百度图片爬虫

Stars: ✭ 591 (+3376.47%)

Mutual labels: spider

Querido Diario

📰 Brazilian government gazettes, accessible to everyone.

Stars: ✭ 681 (+3905.88%)

Mutual labels: spider

Zhihu Crawler

zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目

Stars: ✭ 890 (+5135.29%)

Mutual labels: spider

Anti Anti Spider

越来越多的网站具有反爬虫特性，有的用图片隐藏关键数据，有的使用反人类的验证码，建立反反爬虫的代码仓库，通过与不同特性的网站做斗争（无恶意）提高技术。（欢迎提交难以采集的网站）（因工作原因，项目暂停）

Stars: ✭ 6,907 (+40529.41%)

Mutual labels: spider

Crawler

A high performance web crawler in Elixir.

Stars: ✭ 781 (+4494.12%)

Mutual labels: spider

View All Similar Projects ➔

Javlibrary

Javlibrary爬虫 for Python3，该项目可以实现以下功能:

获取最高评分/最受期待榜的作品
获取所有演员名及其作品目录地址
获取指定演员所有作品
获取指定番号磁力链接
输出内容到excel

安装一下

需要安装以下包

pip install requests
pip install BeautifulSoup
pip install pandas
pip install selenium
pip install pymongo
pip install retrying

依赖chrome驱动，各驱动对应chrome版本号如下：

ChromeDriver v2.45 (2018-12-10)----------Supports Chrome v70-72
ChromeDriver v2.44 (2018-11-19)----------Supports Chrome v69-71
ChromeDriver v2.43 (2018-10-16)----------Supports Chrome v69-71

怎么开始

以下例子完成查找指定演员所有影片及磁力链接的操作：

if __name__ == '__main__':
  jav = JavLib()
  jav.girlindex('初川みなみ')

方法说明

方法	功能	参数
rank	获取最高评分/最受期待榜的作品及磁力链接	mode排行榜种类
girlindex	获取指定演员所有作品及磁力链接	girl演员名
allgirls	更新所有演员名及地址	NULL
torrent	获取指定番号磁力链接	identity番号
write_down	输出内容到excel	datas数据, filename文件名

举个栗子

获取最高评分/最受期待榜的作品及磁力链接

jav = JavLib(mode = 'mostwanted') # mode 默认为bestrated
jav.rank()
jav.rankdb().find(select) # 从rankdb输出

获取指定演员所有作品及磁力链接

jav.girlindex('初川みなみ')
jav.rankdb().find(select) # 从rankdb输出

更新演员名录

jav.allgirls()
jav.girlsindexdb ().find(select) # 从rankdb输出

获取指定番号磁力链接

indentity = 'SSNI-266'
list_torrent = jav.torrent(indentity)[indentity] # 获得list(dict)结构数据
jav.write_down(list_torrent, identity) # 输出到identity.xlsx

数据库

本项目使用MongoDB作为数据库：

MongoDB('Javdb', 'girlsname') # 所有girl名称—>页面编码键值对
MongoDB('Javdb', 'rankdb') # 最高评分/最受期待榜
MongoDB('Javdb', 'girlsindexdb') # 单个girl的作品db

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].

Stars: ✭ 17

Visit Git Page 🔗Visit User Page 🔗Visit Issues Page (0) 🔗