All Projects → DipperStar → Javlibrary

DipperStar / Javlibrary

Javlibrary spider

Programming Languages

python
139335 projects - #7 most used programming language

Labels

Projects that are alternatives of or similar to Javlibrary

Domain hunter
A Burp Suite Extension that try to find all sub-domain, similar-domain and related-domain of an organization automatically! 基于流量自动收集整个企业或组织的子域名、相似域名、相关域名的burp插件
Stars: ✭ 594 (+3394.12%)
Mutual labels:  spider
Grab Site
The archivist's web crawler: WARC output, dashboard for all crawls, dynamic ignore patterns
Stars: ✭ 680 (+3900%)
Mutual labels:  spider
Gospider
Gospider - Fast web spider written in Go
Stars: ✭ 785 (+4517.65%)
Mutual labels:  spider
Python Spider
豆瓣电影top250、斗鱼爬取json数据以及爬取美女图片、淘宝、有缘、CrawlSpider爬取红娘网相亲人的部分基本信息以及红娘网分布式爬取和存储redis、爬虫小demo、Selenium、爬取多点、django开发接口、爬取有缘网信息、模拟知乎登录、模拟github登录、模拟图虫网登录、爬取多点商城整站数据、爬取微信公众号历史文章、爬取微信群或者微信好友分享的文章、itchat监听指定微信公众号分享的文章
Stars: ✭ 615 (+3517.65%)
Mutual labels:  spider
Spidr
A versatile Ruby web spidering library that can spider a site, multiple domains, certain links or infinitely. Spidr is designed to be fast and easy to use.
Stars: ✭ 656 (+3758.82%)
Mutual labels:  spider
Bilibili Api
哔哩哔哩的API调用模块
Stars: ✭ 704 (+4041.18%)
Mutual labels:  spider
Newcrawler
Free Web Scraping Tool with Java
Stars: ✭ 589 (+3364.71%)
Mutual labels:  spider
Seeker
Seeker - another job board aggregator.
Stars: ✭ 16 (-5.88%)
Mutual labels:  spider
Oneblog
👽 OneBlog,一个简洁美观、功能强大并且自适应的Java博客
Stars: ✭ 678 (+3888.24%)
Mutual labels:  spider
Funpyspidersearchengine
Word2vec 千人千面 个性化搜索 + Scrapy2.3.0(爬取数据) + ElasticSearch7.9.1(存储数据并提供对外Restful API) + Django3.1.1 搜索
Stars: ✭ 782 (+4500%)
Mutual labels:  spider
Istock
👉一个基于spring boot 实现的java股票爬虫(仅支持A股),如果你❤️请⭐️ . V2升级版正在开发中!
Stars: ✭ 622 (+3558.82%)
Mutual labels:  spider
Darknet chinesetrading
🚇暗网中文网监控爬虫(DEEPMIX)
Stars: ✭ 649 (+3717.65%)
Mutual labels:  spider
Creeper
🐾 Creeper - The Next Generation Crawler Framework (Go)
Stars: ✭ 762 (+4382.35%)
Mutual labels:  spider
Infospider
INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱🧰,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。
Stars: ✭ 5,984 (+35100%)
Mutual labels:  spider
Torbot
Dark Web OSINT Tool
Stars: ✭ 821 (+4729.41%)
Mutual labels:  spider
Baiduimagespider
一个超级轻量的百度图片爬虫
Stars: ✭ 591 (+3376.47%)
Mutual labels:  spider
Querido Diario
📰 Brazilian government gazettes, accessible to everyone.
Stars: ✭ 681 (+3905.88%)
Mutual labels:  spider
Zhihu Crawler
zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目
Stars: ✭ 890 (+5135.29%)
Mutual labels:  spider
Anti Anti Spider
越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因,项目暂停)
Stars: ✭ 6,907 (+40529.41%)
Mutual labels:  spider
Crawler
A high performance web crawler in Elixir.
Stars: ✭ 781 (+4494.12%)
Mutual labels:  spider

Javlibrary


Javlibrary爬虫 for Python3,该项目可以实现以下功能:

  • 获取最高评分/最受期待榜的作品
  • 获取所有演员名及其作品目录地址
  • 获取指定演员所有作品
  • 获取指定番号磁力链接
  • 输出内容到excel

安装一下


需要安装以下包

pip install requests
pip install BeautifulSoup
pip install pandas
pip install selenium
pip install pymongo
pip install retrying

依赖chrome驱动,各驱动对应chrome版本号如下:

  • ChromeDriver v2.45 (2018-12-10)----------Supports Chrome v70-72
  • ChromeDriver v2.44 (2018-11-19)----------Supports Chrome v69-71
  • ChromeDriver v2.43 (2018-10-16)----------Supports Chrome v69-71

怎么开始


以下例子完成查找指定演员所有影片及磁力链接的操作:

if __name__ == '__main__':
  jav = JavLib()
  jav.girlindex('初川みなみ')

方法说明


方法 功能 参数
rank 获取最高评分/最受期待榜的作品及磁力链接 mode排行榜种类
girlindex 获取指定演员所有作品及磁力链接 girl演员名
allgirls 更新所有演员名及地址 NULL
torrent 获取指定番号磁力链接 identity番号
write_down 输出内容到excel datas数据, filename文件名

举个栗子


  • 获取最高评分/最受期待榜的作品及磁力链接
jav = JavLib(mode = 'mostwanted') # mode 默认为bestrated
jav.rank()
jav.rankdb().find(select) # 从rankdb输出
  • 获取指定演员所有作品及磁力链接
jav.girlindex('初川みなみ')
jav.rankdb().find(select) # 从rankdb输出
  • 更新演员名录
jav.allgirls()
jav.girlsindexdb ().find(select) # 从rankdb输出
  • 获取指定番号磁力链接
indentity = 'SSNI-266'
list_torrent = jav.torrent(indentity)[indentity] # 获得list(dict)结构数据
jav.write_down(list_torrent, identity) # 输出到identity.xlsx

数据库


本项目使用MongoDB作为数据库:

  • MongoDB('Javdb', 'girlsname') # 所有girl名称—>页面编码键值对
  • MongoDB('Javdb', 'rankdb') # 最高评分/最受期待榜
  • MongoDB('Javdb', 'girlsindexdb') # 单个girl的作品db
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].