All Projects → lesywix → douban_group_spy

lesywix / douban_group_spy

Licence: other
豆瓣小组爬虫

Programming Languages

python
139335 projects - #7 most used programming language
Makefile
30231 projects

Projects that are alternatives of or similar to douban group spy

Doubanauto
Automatic Robot for Douban | 豆瓣机器人:自动加入/退出小组、自动在小组发帖/删帖、自动回复
Stars: ✭ 116 (+118.87%)
Mutual labels:  douban
Douban Movie
豆瓣电影爬虫
Stars: ✭ 181 (+241.51%)
Mutual labels:  douban
Douban
React-native 仿豆瓣电影 app
Stars: ✭ 236 (+345.28%)
Mutual labels:  douban
Doufen
将你的豆瓣帐号数据备份到本地并支持脱机浏览
Stars: ✭ 134 (+152.83%)
Mutual labels:  douban
Wxapp Douban Api Movie
Douban movie api data completed a WeChat applet wxAPP, very suitable as a small program beginners combat project!
Stars: ✭ 161 (+203.77%)
Mutual labels:  douban
Weapp Mark
🔥 豆瓣类影视查询记录小程序,附学习笔记
Stars: ✭ 187 (+252.83%)
Mutual labels:  douban
Xiangxuema
“想学吗”个人知识管理与自媒体营销工具
Stars: ✭ 1,321 (+2392.45%)
Mutual labels:  douban
DoubanYearProgress
Year progress for Douban
Stars: ✭ 59 (+11.32%)
Mutual labels:  douban
Douban2piratebay
在豆瓣电影页面里添加一个指向海盗湾的链接
Stars: ✭ 162 (+205.66%)
Mutual labels:  douban
Tofu
一款 Chrome 扩展。用于备份豆瓣账号的数据,并支持导出 Excel 文档。
Stars: ✭ 228 (+330.19%)
Mutual labels:  douban
Movie Board
Re-design and implement Douban Movie with React and Redux.
Stars: ✭ 140 (+164.15%)
Mutual labels:  douban
Mung
是一个基于React-Native编写,使用豆瓣开源API开发的一个项目
Stars: ✭ 157 (+196.23%)
Mutual labels:  douban
Laosj
golang light-weight image crawler
Stars: ✭ 199 (+275.47%)
Mutual labels:  douban
Douban crawler
备份豆瓣计划
Stars: ✭ 124 (+133.96%)
Mutual labels:  douban
Doubanbook
竹简——最全中文ISBN信息查询接口
Stars: ✭ 234 (+341.51%)
Mutual labels:  douban
Douban Movie
Golang爬虫 爬取豆瓣电影Top250
Stars: ✭ 114 (+115.09%)
Mutual labels:  douban
Videospider
抓取豆瓣,bilibili等中的电视剧、电影、动漫演员等信息
Stars: ✭ 186 (+250.94%)
Mutual labels:  douban
computer book list
一个综合了豆瓣,goodreads综合评分的计算机书籍书单
Stars: ✭ 1,535 (+2796.23%)
Mutual labels:  douban
PickTrue
豆瓣相册下载, A站下载器,Artstation Downloader, Pixiv Downloader, 花瓣网(huaban.com)图片下载器
Stars: ✭ 129 (+143.4%)
Mutual labels:  douban
Douban
Awesome douban DEMO created with Vue2.x + Vuex + Vue-router + Superagent
Stars: ✭ 2,324 (+4284.91%)
Mutual labels:  douban

豆瓣小组爬虫

2021.07.19 Update: 感谢 xwjdshPR,项目复活了

Update:豆瓣的接口废了

通过调用豆瓣接口,聚合想要爬取小组的租房信息,并可通过关键词进行匹配及排除。

为了方便,使用了 Django admin 进行数据的可视化。通过 Django admin 可对数据进行搜索,过滤等简单功能。

由于豆瓣的限制,爬取每篇帖子都会随机等待 3~5 秒,以尽量不触及 Rate Limit,爬取速度比较慢,但能获取更多内容。

环境

  • python >= 3.6
  • sqlite

使用

  1. 创建 venv python3 -m venv venv, 并激活 . venv/bin/activate
  2. 安装依赖 pip install -r requirements.txt
  3. 数据库初始化 make migrate
  4. 修改配置,由于豆瓣的限制,你需要设置 Cookie 后才能开始爬取。在网页上登录豆瓣,将 douban_group_spy/settings.py 中的 COOKIE 配置修改为你的 Cookie (cookie key 为 dbcl2)
  5. 运行爬虫 eg: python crawler_main.py -g 106955 -g baoanzufang -k 灵芝 -k 翻身 -e 求租
  6. 运行网页 make run_server, 默认账号密码均为 admin

爬虫参数

  • -g: 要爬取小组的 id
  • -k: 查找关键词
  • -e: 排除关键词
  • --sleep: 爬一个周期后暂停的时间, 默认 60 * 30 秒(15 分钟)
  • --pages: 爬一个周期每个小组的页数,默认 10
  • -v: 展示 debug 信息,默认 False

一个周期就是爬取参数里的所有小组,每个小组默认的爬取页数的总和。

ps

推荐小组:

  • 106955: 深圳租房团
  • baoanzufang: 深圳宝安租房
  • 498004:深圳南山租房团
  • 551176: 深圳租房
  • szsh: 深圳租房
  • SZhouse: 深圳租房

Screenshots

文章列表

文章详情

小组列表

小组详情

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].