All Projects → ccforward → Zhihu

ccforward / Zhihu

✨ 知乎日报 - 爬虫、数据分析、Node.js、Vue.js ...

Programming Languages

javascript
184084 projects - #8 most used programming language

Projects that are alternatives of or similar to Zhihu

Zhihu Login
知乎模拟登录,支持提取验证码和保存 Cookies
Stars: ✭ 340 (-16.26%)
Mutual labels:  spider
Webster
a reliable high-level web crawling & scraping framework for Node.js.
Stars: ✭ 364 (-10.34%)
Mutual labels:  spider
Alipayorderssupervisor
✨ 使用Node监视支付宝订单,即时通知服务器以实现免签约支付接口
Stars: ✭ 384 (-5.42%)
Mutual labels:  spider
Sign
逆向app的sign等参数的思路和体验, 安卓逆向, 安卓破解, 逆向app,爬虫解密
Stars: ✭ 334 (-17.73%)
Mutual labels:  spider
Freshonions Torscraper
Fresh Onions is an open source TOR spider / hidden service onion crawler hosted at zlal32teyptf4tvi.onion
Stars: ✭ 348 (-14.29%)
Mutual labels:  spider
Spider Flow
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
Stars: ✭ 365 (-10.1%)
Mutual labels:  spider
Celerystalk
An asynchronous enumeration & vulnerability scanner. Run all the tools on all the hosts.
Stars: ✭ 333 (-17.98%)
Mutual labels:  spider
Jdpackage
跨平台的京东全能工具包 仅供学习使用,技术交流群:108934299
Stars: ✭ 396 (-2.46%)
Mutual labels:  spider
Fictiondown
小说下载|小说爬取|起点|笔趣阁|导出Markdown|导出txt|转换epub|广告过滤|自动校对
Stars: ✭ 362 (-10.84%)
Mutual labels:  spider
Bilili
🍻 bilibili video (including bangumi) and danmaku downloader | B站视频(含番剧)、弹幕下载器
Stars: ✭ 379 (-6.65%)
Mutual labels:  spider
91porn Api
🌭💦 91porn爬虫在线无限制API接口(永久有效,口令每日更新) 及 在线web预览
Stars: ✭ 341 (-16.01%)
Mutual labels:  spider
Xcrawler
快速、简洁且强大的PHP爬虫框架
Stars: ✭ 344 (-15.27%)
Mutual labels:  spider
Spiders
Python爬虫,返回一定格式的信息,下载,使用flask提供简易api。抖音无水印、皮皮虾、快手、网易云音乐、qq音乐、咪咕音乐、荔枝FM音频、知乎视频、最右语音、视频、微博......
Stars: ✭ 372 (-8.37%)
Mutual labels:  spider
Webspider
在线地址: http://119.23.223.90:8000
Stars: ✭ 340 (-16.26%)
Mutual labels:  spider
Qzoneexporter
QQ空间爬虫,可导出并显示日志、相册、留言板、说说、照片、视频等数据。
Stars: ✭ 386 (-4.93%)
Mutual labels:  spider
Weatherspider
天气爬虫(全国城镇天气自动定时抓取更新,并开放RESTful查询接口),附带代理IP池定时更新并检测其可用性
Stars: ✭ 337 (-17%)
Mutual labels:  spider
Kindlebookmaker
Kindle Book Maker with KindleGen, Make Book from RSS/single URL/directory and so on.
Stars: ✭ 364 (-10.34%)
Mutual labels:  spider
Gosint
OSINT Swiss Army Knife
Stars: ✭ 401 (-1.23%)
Mutual labels:  spider
Templatespider
扒网站工具,看好哪个网站,指定好URL,自动扒下来做成模版。所见网站,皆可为我所用!
Stars: ✭ 390 (-3.94%)
Mutual labels:  spider
Signature algorithm
各种App、小程序、网站的请求签名或加密算法。 现已有:自如、小红书、蛋壳公寓、luckin coffee(瑞幸咖啡)、bangkokair(曼谷航空)
Stars: ✭ 380 (-6.4%)
Mutual labels:  spider

知乎日报的 Spider-Man

详细介绍

About

Node.js + Vue.js + MongoDB 的知乎日报爬虫项目

技术栈

后端

Node.js + Express + MongoDB

使用 Express 搭建 web 服务,爬虫爬取的数据用 MongoDB 存储。

用 node-jieba分词 分析正文的tag,做则更能准确的数据分析和内容搜索 (doing)

前端

ES6 + Vue + Webpack

基于 Vue2.0 的单页面应用 用webpack做前端代码构建

数据统计的页面使用原生 ES6 代码编写,单独配置了webpack做构建,没有和 Vue 的webpack构建代码混在一起

使用说明

mongoDB

  1. 启动 mongoDB sudo mongod

  2. 用命令 mongo 进入命令行模式

  3. 创建数据库

use zhihu
  1. 创建用户 (这里的 username 和 password 要和 config.js 里相对应)
db.createUser({
  user: "username",
  pwd: "password",
  "roles" : [
  {
    "role" : "readWrite",
    "db" : "report"
  },{
    "role" : "dbAdmin",
    "db" : "report"
  }]
})

配置文件 config.js

config.js.sample 重命名为 config.js

说明:

  • auth 知乎日报用来验证用户的key 用于http的请求头(真正的key叫做 Authorization)
  • fire: true 是否启动爬虫爬取历史信息
  • openTask:true 表示开启定时任务 每日爬虫和定时更新
  • interval 爬虫间隔时间
  • start end 爬历史数据的开始结束时间 为由近到远的日期(知乎日报生日: 20130519)
    start时间 比 end时间 晚

在config.js文件中设置 fire: true 表示开启爬虫,对应的 start end

其他

如果在页面的HTTP的请求头里想加入 Authorization 和 referer 可以用这个 chrome扩展

知乎日报的API

1、启动界面图像

  • URL http://news-at.zhihu.com/api/4/start-image/1080*1776
  • 图像分辨:
    • 320*432
    • 480*728
    • 720*1184
    • 1080*1776

现在返回的图片应该都不再区分分辨率,都是同一尺寸了

2、最新消息

  • URL http://news-at.zhihu.com/api/4/news/latest

3、历史消息

  • URL http://news.at.zhihu.com/api/4/news/before/20150101
  • 请求 20150101 返回 2014年12月31日 的内容
  • 请求日期大于今日 返回今日的内容

4、文章详情内容

  • URL http://news-at.zhihu.com/api/4/news/4620055
  • 参数: 最新消息和历史消息返回的字段: id
  • 返回信息:
    • body: HTML格式的详情文章
    • title:文只标题
    • image:文章顶部的大图
    • image-source:图片的版权信息
  • 特殊情况:
    • http://news-at.zhihu.com/api/4/story/3942319
    • 来自之乎日报站外的内容
    • 返回的字段 没有body、img、image-source等字段
    • share_url 字段会跳转到站外文章

4.1、文章详情的点赞数、长评论、短评论数量

  • URL http://news-at.zhihu.com/api/4/story-extra/7033320
  • 返回信息:
    • long_comments: 长评论
    • popularity:点赞数
    • short_comments:短评论数
    • comments:总评论数

5、文章长评论

  • URL http://news-at.zhihu.com/api/4/story/4628696/long-comments
  • story后面即为文章的id

6、文章短评论

  • URL http://news-at.zhihu.com/api/4/story/4628696/short-comments

7、主题日报的列表

  • URL http://news-at.zhihu.com/api/4/themes

8、主题日报内容

  • URL http://news-at.zhihu.com/api/4/theme/2
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].