All Projects → MatrixSeven → Zhihuspider

MatrixSeven / Zhihuspider

Licence: mit
知乎爬虫/可以爬出关注关系的爬虫

Programming Languages

java
68154 projects - #9 most used programming language

Labels

Projects that are alternatives of or similar to Zhihuspider

ncovis-2020
covid-19 舆论和新闻的可视化平台,获得了中国计算机学会、阿里云和机器之心等举办的疫情可视化比赛铜奖。🔥
Stars: ✭ 37 (-87.15%)
Mutual labels:  zhihu
KotlinEnjoyLife
😉【乐享】Kotlin 版本 每天一张精选妹纸图、一个精选短视频,知乎美文的精美应用
Stars: ✭ 73 (-74.65%)
Mutual labels:  zhihu
Simplified-Zhihu-Daily
Android app for Zhihu Daily
Stars: ✭ 16 (-94.44%)
Mutual labels:  zhihu
ZhihuMagnifier
Chrome扩展:知乎头像放大器
Stars: ✭ 31 (-89.24%)
Mutual labels:  zhihu
zh-downloader
一个可以直接下载知乎视频的浏览器插件
Stars: ✭ 54 (-81.25%)
Mutual labels:  zhihu
XiaoxiaZhihu AAC
使用Android Architecture Components实现的一个简单知乎日报程序
Stars: ✭ 63 (-78.12%)
Mutual labels:  zhihu
mpvue-wechat-zhihu
一个入门级别的资讯类微信小程序
Stars: ✭ 25 (-91.32%)
Mutual labels:  zhihu
Video Downloader
video downloader
Stars: ✭ 275 (-4.51%)
Mutual labels:  zhihu
stats-cards
在 README 中展示你在知乎,GitHub,B 站,LeetCode,掘金,CSDN,牛客等网站的数据,服务部署在 Vercel 上,保证服务稳定。Show your LeetCode & GitHub stats in GitHub Profile.
Stars: ✭ 74 (-74.31%)
Mutual labels:  zhihu
zhihu Backup
知乎个人回答备份,获取html并打印到pdf
Stars: ✭ 41 (-85.76%)
Mutual labels:  zhihu
zhihu
我的知乎内容
Stars: ✭ 42 (-85.42%)
Mutual labels:  zhihu
zhihu-crawler
徒手实现定时爬取知乎,从中发掘有价值的信息,并可视化爬取的数据作网页展示。
Stars: ✭ 56 (-80.56%)
Mutual labels:  zhihu
XiaoxiaZhihuWeex
XiaoxiaZhihu(zhihu daily) client written by Weex.
Stars: ✭ 15 (-94.79%)
Mutual labels:  zhihu
zhihudaily-react
知乎日报react版---react+redux+react-router
Stars: ✭ 27 (-90.62%)
Mutual labels:  zhihu
Boring
Android毕业设计; Android, Music Player, for graduation
Stars: ✭ 259 (-10.07%)
Mutual labels:  zhihu
puppeteer-usage
基于puppeteer的实践和应用
Stars: ✭ 18 (-93.75%)
Mutual labels:  zhihu
zhihu
搜索你的知乎收藏:可以直观地浏览你的所有收藏夹的内容,并进行全文搜索
Stars: ✭ 39 (-86.46%)
Mutual labels:  zhihu
Rsshub
🍰 Everything is RSSible
Stars: ✭ 18,111 (+6188.54%)
Mutual labels:  zhihu
Zhihu Api
Unofficial API for zhihu.
Stars: ✭ 269 (-6.6%)
Mutual labels:  zhihu
zhihu-recover
对知乎已经删除/可能删除的问题备份
Stars: ✭ 15 (-94.79%)
Mutual labels:  zhihu

知乎爬虫

博客更新地址:https://matrixseven.github.io

知乎专栏更新地址:https://zhuanlan.zhihu.com/Accelerator

博客园相关文章:http://www.cnblogs.com/seven007

1. Git求Star~O(∩_∩)O哈哈~~

2. 知乎求关注~~知乎账号@Accelerator

3. 本git只包含爬虫部分,web服务器和可视化部分另外单开.

在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。 那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。

附赠之前爬取的数据一份(mysql): 链接: http://pan.baidu.com/s/1qXGa8S8 密码: t2vi(只下载不点赞,不star,差评差评蓝瘦香菇) 下载转存的好多,,,但是没人star啊兄弟们~~~ 数据

1. 预计可视化部分包括

  1. 人物关系可视化
  2. 人员地理分布可视化
  3. 人员大学分布可视化
  4. 男女比例可视化
  5. 用户点赞可视化

2. 预计内容和目录

  1. 开篇感言
  2. 爬虫流程设计
    1. 如何过滤重复数据
    2. 如何在爬取时创建人物关系
  3. 请求分析
    1. 登陆请求分析
    2. 跟随/关注请求分析
  4. 抓取页面数据
    1. jsoup抽取页面内容
  5. 优化
    1. 使用多线程加速
    2. 使用队列减少数据库访问
    3. 实现LRU提高缓存命中率
  6. 基于SpringCloud的简单应用
    1. 介绍
    2. 简单配置
  7. 扩展内容
    1. 整合Mybatis
    2. 编写Jsonp跨域请求API
  8. 走起苦逼的前端
    1. 使用Bootstrop布局
    2. 引入ECharts图形库
  9. 再见,吹牛结束。

吾爱Java(QQ群):170936712(点击加入)

#更新记录:

  1. 2016/11/30
    1. 第一次上传
  2. 2016/12/13
    1. 修复线程过多导致内存爆炸问题
  3. 2016/12/22
    1. 修复数据库死锁问题
    2. 更简单没水平的LruCache
    3. 完善了初始化爬虫选择数据问题
  4. 2016/12/26
    1. 修复多线程死锁问题
  5. 2016/12/28
    1. 完善登陆流程
    2. 修复增加follower问题
    3. 修复更新数userBase据过慢问题
    4. 减少cpu占用
    5. userInfo表增加两个字段

部分截图

运行

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].