All Projects → Maicius → Qqzonemood

Maicius / Qqzonemood

Licence: mit
QQZone mood spider and analysis. QQ空间多线程爬虫和数据挖掘。提供线上服务,扫码登陆即可自动爬取和分析数据,还有网易云年度报告风格的数据展示;使用docker-compose打包程序,方便部署;额外提供QQ空间抽奖小程序。

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to Qqzonemood

Proxy pool
Python爬虫代理IP池(proxy pool)
Stars: ✭ 13,964 (+3080.87%)
Mutual labels:  spider, flask
Vue Awesome Swiper
🏆 Swiper component for @vuejs
Stars: ✭ 12,072 (+2649.89%)
Mutual labels:  slides, slider
Pythondemo
My Python Demo
Stars: ✭ 173 (-60.59%)
Mutual labels:  spider, flask
Go Demo
Go语言实例教程从入门到进阶,包括基础库使用、设计模式、面试易错点、工具类、对接第三方等
Stars: ✭ 881 (+100.68%)
Mutual labels:  spider, qq
QQSpider
爬取QQ用户信息(qq号、昵称、生日、地址等基本信息)并做简要analysis。
Stars: ✭ 21 (-95.22%)
Mutual labels:  spider, qq
Yspider
yspider -- 轻量级爬虫系统
Stars: ✭ 125 (-71.53%)
Mutual labels:  spider, flask
Vue Slide Bar
🎢 A Simple Vue Slider Bar Component.
Stars: ✭ 129 (-70.62%)
Mutual labels:  slides, slider
Awesome Python Primer
自学入门 Python 优质中文资源索引,包含 书籍 / 文档 / 视频,适用于 爬虫 / Web / 数据分析 / 机器学习 方向
Stars: ✭ 57 (-87.02%)
Mutual labels:  spider, flask
vue-piece-slider
animated slides in a fragmented look 🐞🌳✡️📐
Stars: ✭ 95 (-78.36%)
Mutual labels:  slider, slides
takahashi.js
Make Takahashi-style slide easily!
Stars: ✭ 30 (-93.17%)
Mutual labels:  slider, slides
Qzoneexport
QQ空间导出助手,用于备份QQ空间的说说、日志、私密日记、相册、视频、留言板、QQ好友、收藏夹、分享、最近访客为文件,便于迁移与保存
Stars: ✭ 456 (+3.87%)
Mutual labels:  spider, qq
Toapi
Every web site provides APIs.
Stars: ✭ 3,209 (+630.98%)
Mutual labels:  spider, flask
Ok ip proxy pool
🍿爬虫代理IP池(proxy pool) python🍟一个还ok的IP代理池
Stars: ✭ 196 (-55.35%)
Mutual labels:  spider, flask
Vue Infinite Slide Bar
∞ Infinite slide bar component (no dependency and light weight 1.48 KB)
Stars: ✭ 190 (-56.72%)
Mutual labels:  slides, slider
Weixin Spider
微信公众号爬虫,公众号历史文章,文章评论,文章阅读及在看数据,可视化web页面,可部署于Windows服务器。基于Python3之flask/mysql/redis/mitmproxy/pywin32等实现,高效微信爬虫,微信公众号爬虫,历史文章,文章评论,数据更新。
Stars: ✭ 287 (-34.62%)
Mutual labels:  spider, flask
Vue Easy Slider
Slider Component of Vue.js.
Stars: ✭ 313 (-28.7%)
Mutual labels:  slides, slider
Pyfladesk
create desktop application by using Flask and QtWebKit
Stars: ✭ 399 (-9.11%)
Mutual labels:  flask
Md2googleslides
Generate Google Slides from markdown
Stars: ✭ 4,093 (+832.35%)
Mutual labels:  slides
Socialsdklibrary
提供微博、微信、QQ、Tim、QQ 轻聊版、钉钉的登陆分享功能支持;
Stars: ✭ 399 (-9.11%)
Mutual labels:  qq
Tiny Slider
Vanilla javascript slider for all purposes.
Stars: ✭ 4,298 (+879.04%)
Mutual labels:  slider

QQZoneMood

体验地址:

  1. app.xiaomaidong.com
  2. qzone.xiaomaidong.com

相关博客

简介

  • 多线程抓取QQ空间说说内容并进行分析,提供基于Flask和avalon.js的web配置界面,以及配套的测试用例

  • 基于React Slides的数据展示页面,风格模仿网易云年度报告。子项目地址:QQZoneSwipper

  • 提供抽奖小程序,可以根据指定说说的点赞或评论信息进行随机抽奖(可单独打包为windows下的命令行程序)

  • 反向计算用户在每个时间点的好友数量,并可动态展示用户好友的增加过程,参考视频

QQ好友成长图

抽奖小工具

系统架构图

docker版简介

  • 本项目将网页配置版本打包为docker(以下简称docker版),本版本用于部署到线上

  • 此外,还有大量已完成的功能(爬取好友的动态、爬取图片等)未进行整合

  • docker版主要包括以下功能:

    1.配置用户名、QQ号、校验码

    2.根据1中配置获取QQ空间的动态数量和好友基本信息

    3.数据可视化

  • 运行方式(请确保已经安装了docker和docker-compose):

    1.git clone https://github.com/Maicius/QQZoneMood.git

    2.将 QQZoneMood/src/web/static/constant.js中QQ_FRONT_LACTION 修改为自己的前端项目地址(本地默认地址为localhost:3000)

    3.cd QQZoneMood & docker-compose up -d

    4.下载前端子项目

    git clone https://github.com/Maicius/QQZoneSwipper

    5.将 QQZoneSwipper/src/utils/constant.js中的SERVER_HOST修改为服务器的地址(本地默认地址为localhost:80) 启动前端子项目,请确保已安装了npm

    6.cd QQZoneSwipper & npm install --save & npm run start

    7.浏览器里输入地址: http://localhost:80

  • 关于校验码

    相当于用户在该网站的密码,为了安全请不要与QQ密码相同。设置校验码的目的是为了保证用户在该网站上只能查看自己的数据。

TO DO...

  • 将更多的功能整合到docker版中
  • Web展示界面优化(想做成网易云年度歌单的风格)
  • 计算更多指标

已实现功能

1.基本功能

这部分主要是获取数据和进行基本的统计分析

  • QQ空间动态爬取,包括:

    1. 所有说说信息
    2. 每条说说的详细信息(比1中的信息更全面,1中数据只显示每条说说的前10个评论)
    3. 每条说说的点赞人列表
    4. 更加详细的点赞人列表(3中获取的数据有很多被清空了,这里能稳定获取到点赞的人数量、浏览量和评论量)
    5. 所有说说的图片(可选择是下载大图、缩略图还是都下载)
  • QQ空间好友基本信息爬取

    1. 好友基本信息
    2. 共同好友数量
    3. 共同群组
    4. 添加好友时间(可计算出用户在每个时间点的好友数量)
  • 数据分析

    1. 数据清洗,将所有抓取的信息清洗为excel或csv
    2. 包括各种点赞排行、评论排行、发送时间统计等
    3. 历史说说一览表
  • 数据可视化

    包括各种词云图、关系图

  • Web配置界面

    使用Flask + avalon.js + echarts.js 搭建的简易web界面,为普通用户提供一个快速获取数据的方法

    可视化爬虫过程

    可视化用户数据、历史说说记录

2.衍生功能(这部分功能的代码没有完全添加到项目里)

项目结构

说明如下:

resource:存放数据文件(不包括web中的静态资源)

src-spider:包括四个爬虫类和一个入口

  • BaseSpider(object): 爬虫基类,初始化各种变量和提供基础接口,统一管理爬虫的headers、数据的加载和存储
  • QQZoneSpider(BaseSpider):爬取QQ空间动态的主要逻辑,包括各种url的构建
  • QQZoneFriendSpider(QQZoneSpider): 爬取用户的好友基本信息和共同群组,计算用户在各个时间段的好友数量
  • QQZoneFriendMoodSpider(QQZoneSpider):爬取用户指定好友的动态
  • main: 程序入口,为web程序提供爬虫API

src-analysis:

  • QQZoneAnalysis: 数据清洗,将爬虫得到的原始数据清洗为excel形式,并做简单的数据统计和分析
  • Average: 计算平均评论量、点赞量、浏览量等数据
  • SentimentClassify: 调用百度人工智能API进行情感分类
  • TrainMood:已废弃,以前计划用来对文本内容分类等等

src-visual:

  • CreateGexf: 将用户好友数据生成Gephi软件可以接受的数据格式以进行聚类

src-web:网站模块

  • src-web-entity: 实体类
  • static: 静态资源,外部引用的包主要使用cdn
  • templates:网页

其它说明

  • python版本:3.6

  • 模拟登陆时若出现图形验证码,可以在点击登陆后设置5秒暂停,以手动完成验证

  • 数据存储方式:

    目前提供了两种存储方式的接口(通过Spider中use_redis参数进行配置):

    1. 存储到json文件中
    2. 存储到redis数据库中
      如果安装了redis,建议存储到redis中
      关于redis的安装和配置,请自行搜索
      Redis使用中常见问题可以参考这篇博客:Redis 踩坑笔记
  • 注意

    程序提供了三种登陆的接口,分别是扫码登录、cookie登录、账号密码模拟登录,默认使用扫码登录 其中账号密码模拟登录依赖于selenium,需要手动下载chrome driver和chrome浏览器
    请注意版本匹配,可以查看这篇博客:
    selenium之 chromedriver与chrome版本映射表(更新至v2.32)

开发版运行方式

  • 0.下载

    git clone https://github.com/Maicius/QQZoneMood.git

    cd QQZoneMood

  • 1.安装依赖

    pip3 install -r requirements.txt

    (不建议使用conda,因为sha1等库在conda的源中没有)

  • 2.修改配置文件

    修改userinfo.json.example为文件userinfo.json,并填好QQ号、QQ密码、保存数据用的文件名前缀;

    [可选]修改需要爬取的好友的QQ号和保存数据用的文件名前缀

  • 3.__init__函数参数说明,请根据需要修改(所有参数都有默认值,即使不修改任何参与也能运行)

      def __init__(self, use_redis=False, debug=False, mood_begin=0, mood_num=-1, stop_time='-1',
               download_small_image=False, download_big_image=False,
               download_mood_detail=True, download_like_detail=True, download_like_names=True, recover=False,
               cookie_text=None, from_web=False, username='', nickname='', no_delete=True, pool_flag='127.0.0.1'):
    
      :param use_redis: If true, use redis and json file to save data, if false, use json file only.
      :param debug: If true, print info in console
      :param mood_begin: 开始下载的动态序号,0表示从第0条动态开始下载
      :param mood_num: 下载的动态数量,最好设置为20的倍数
      :param stop_time: 停止下载的时间,-1表示全部数据;注意,这里是倒序,比如,stop_time="2016-01-01",表示爬取当前时间到2016年1月1日前的数据
      :param recover: 是否从redis或文件中恢复数据(主要用于爬虫意外中断之后的数据恢复)。注意!!!此功能在多线程中不可用!!!
      :param download_small_image: 是否下载缩略图,仅供预览用的小图,该步骤比较耗时,QQ空间提供了3中不同尺寸的图片,这里下载的是最小尺寸的图片
      :param download_big_image: 是否下载大图,QQ空间中保存的最大的图片,该步骤比较耗时
      :param download_mood_detail:是否下载动态详情
      :param download_like_detail:是否下载点赞的详情,包括点赞数量、评论数量、浏览量,该数据未被清除
      :param download_like_names:是否下载点赞的详情,主要包含点赞的人员列表,该数据有很多都被清空了
      :param from_web: 表示是否来自web接口,如果为True,将该请求来自web接口,则不会读取配置文件
      :param username: 在web模式中,传递过来的用户QQ号
      :param nickname: 在web模式中,传递过来的用户昵称
      :param no_delete: 是否在redis中缓存数据,如果为True,则不会删除,如果为False,则设置24小时的缓存时间
      :param pool_flag: redis的连接池host,因为docker中host与外部不同,所以在启动程序时会自动判断是不是处于docker中
    
  • 4.运行flask服务器

    python3 src/web/server.py

  • 5.其它程序入口可以参考test中测试用例

  • 运行结果例图: IMAGE image Image Image3 Image

QQ动态关键字词云

QQ空间说说按点赞和评论数分类图

QQ空间说说按点赞和评论数分类图

mobile

手机端运行截图

Image

使用Gephi软件生成的好友关系图

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].