All Projects → lijinma → Wechat_spider

lijinma / Wechat_spider

使用“代理”的方式来抓取微信公众账号文章,可以抓取阅读数、点赞数,基于 anyproxy。

Programming Languages

javascript
184084 projects - #8 most used programming language

Labels

Projects that are alternatives of or similar to Wechat spider

Juejin
💰 Unofficial JueJin wechat mini program application - 掘金非官方微信小程序
Stars: ✭ 771 (-16.38%)
Mutual labels:  wechat
Wechat Alfred Workflow
wechat workflow for Alfred:微信快速发送消息 & 打开聊天窗口 & 查看聊天记录 & more…
Stars: ✭ 822 (-10.85%)
Mutual labels:  wechat
Go jwt
golang for websocket wechat or weixin and jwt,http ratelimit
Stars: ✭ 19 (-97.94%)
Mutual labels:  wechat
Weixin Java Miniapp Demo
基于Spring Boot 和 WxJava 实现的微信小程序Java后端Demo
Stars: ✭ 779 (-15.51%)
Mutual labels:  wechat
Miniapp
微信小程序服务端 SDK (for Golang)
Stars: ✭ 815 (-11.61%)
Mutual labels:  wechat
Masterwechatapp
『微信小程序』优秀教程、轮子、开源项目 资源汇总
Stars: ✭ 826 (-10.41%)
Mutual labels:  wechat
Fw Cloud Framework
基于springcloud全家桶开发分布式框架(支持oauth2认证授权、SSO登录、统一下单、微信公众号服务、Shardingdbc分库分表、常见服务监控、链路监控、异步日志、redis缓存等功能),实现基于Vue全家桶等前后端分离项目工程
Stars: ✭ 717 (-22.23%)
Mutual labels:  wechat
Wechatdc
微信点餐SPA,基于Vue2.0,vuex开发,mock支持,跨端debug支持 项目预览地址:https://oneflying.github.io/wechatdc/
Stars: ✭ 22 (-97.61%)
Mutual labels:  wechat
Smartim4intellij
IntelliJ IDEA上的SmartIM(原SmartQQ)插件,可以在IDEA中使用QQ或微信聊天
Stars: ✭ 822 (-10.85%)
Mutual labels:  wechat
Minapp
重新定义微信小程序的开发
Stars: ✭ 902 (-2.17%)
Mutual labels:  wechat
Lcactionsheet
一款简约而不失强大的 ActionSheet,微博、微信和 QQ 都采用了极其类似的样式,完全支持 Swift。
Stars: ✭ 809 (-12.26%)
Mutual labels:  wechat
Cleanmywechat
自动删除 PC 端微信缓存数据,包括从所有聊天中自动下载的大量文件、视频、图片等数据内容,解放你的空间。
Stars: ✭ 816 (-11.5%)
Mutual labels:  wechat
Koa Weixin Jssdk
koa weixin jssdk middleware
Stars: ✭ 7 (-99.24%)
Mutual labels:  wechat
Wxbot
普通个人号 微信机器人/外挂
Stars: ✭ 778 (-15.62%)
Mutual labels:  wechat
Wechat Jssdk Signature
微信JSSDK服务端生成签名认证,包含后端PHP与前端JS的实现,PHP后端有缓存access_token、jsapi_ticket。
Stars: ✭ 19 (-97.94%)
Mutual labels:  wechat
Python Weixin
微信(weixin|wechat) Python SDK 支持开放平台和公众平台 支持微信小程序云开发
Stars: ✭ 746 (-19.09%)
Mutual labels:  wechat
Python
Python脚本。模拟登录知乎, 爬虫,操作excel,微信公众号,远程开机
Stars: ✭ 7,355 (+697.72%)
Mutual labels:  wechat
Tlchat
高仿微信
Stars: ✭ 901 (-2.28%)
Mutual labels:  wechat
Moui
🍕面向现代浏览器的 CSS 样式库
Stars: ✭ 21 (-97.72%)
Mutual labels:  wechat
Image Cropper
💯一款功能强大的微信小程序图片裁剪插件
Stars: ✭ 893 (-3.15%)
Mutual labels:  wechat

wechat_spider

NPM version David Status

【提醒】此抓取工具因为微信 api 修改无法跑通,请参考代码思路。


 创造不息,交付不止

这个项目是使用打理的方式抓取微信公众账号文章,首先你需要了解一下现在抓取微信公众账号的两种主流方法,请参考我的文章:

如何优雅的抓取微信公众号历史文章

所以现在一般有两种做法,一种通过搜狗微信,一种通过代理的方式抓取,这个项目就是使用代理的方式抓取。

我本来是写了更复杂的工具,使用 Node.js 的 anyproxy 加上 php 的 Laravel 框架,完成这些功能,但是某天洗澡的时候终于想通了,我其实把一个工具复杂化了,这个工具本来是很简单的,我给一位媒体朋友指导了一下,他也很快就用起来了。

输出

输出有两个东西,一个是 wechat.sqlite,一个是 wechat.csv,wechat.csv 需要通过命令 wechat_spider csv 来生成。

如下是我的公众账号对应的数据:

file

表格头解释:

accountName: 公众号名称
author: 作者
title: 文章标题
contentUrl: 文章链接
cover: 文章封面图
digest: 文章摘要
idx: 如果是1,代表的是当天第一篇文章,如果是2,代表当天第二篇文章,以此类推。
sourceUrl: 阅读原文对应的链接
createTime: 文章创建时间
readNum: 阅读数
likeNum: 点赞数
rewardNum: 赞赏数
electedCommentNum: 被选择显示的回复数

安装

安装 Node.js

通过网站 https://nodejs.org/zh-cn/ 下载最新版本。

安装 Python 2.x 等编译环境依赖

因为里面依赖 sqlite,通过 node-gyp 编译的过程中需要 python 2.x (3.x 不行) 以及 VCBuild.exe ,所以 Windows 的同学一定要安装一下,否则会出错。

Windows 用户通过在具有管理员权限的 PowerShell 下输入 npm install --global --production windows-build-tools 下载安装编译环境依赖。

测试 Node 和 Python 安装正确

Mac 在终端下,Windows 在 cmd 下:

$ npm -v
4.3.0

$ python
Python 2.7.6 (default, Nov 18 2013, 15:12:51)
[GCC 4.2.1 Compatible Apple LLVM 5.0 (clang-500.2.79)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>>

如果输出以上类似的信息,证明工具已经安装好了。

安装 wechat_spider

$ npm install wechat_spider -g

测试 wechat_spider 安装正确

$ wechat_spider --help

  Usage: wechat_spider [options]

  Options:

    -h, --help     output usage information
    -V, --version  output the version number

如果输出以上类似信息,证明 wechat_spider 已经安装成功

使用

使用分四步,开启代理,手机设置代理,查看公众账号历史记录,接下来就开始自动抓取了,最后生成 csv。

首次打开需要安装证书

第一步:Mac 在终端下,Windows 在 cmd 下打开工具:

$ wechat_spider

首次需要信任证书。

默认会打开证书的文件夹,如果没有打开,浏览器打开 http://localhost:8002/fetchCrtFile ,也能获取rootCA.crt文件,获取到根证书后,双击,根据操作系统提示,信任rootCA:

  • Windows
    • https://t.alipayobjects.com/tfscom/T1D3hfXeFtXXXXXXXX.jpg_700x.jpg
  • Mac
    • https://t.alipayobjects.com/tfscom/T1NwFfXn0oXXXXXXXX.jpg_400x.jpg

第二步:使用手机代理:

  • 首次手机需要安装证书,浏览器打开:http://localhost:8002/qr_root ,使用微信扫描二维码,[重要] 用浏览器打开:

  • 然后获取到你电脑的 IP 地址,假设是 192.168.1.5

  • 设置手机代理为电脑:

第三步:选择一个微信公众号,点击查看历史记录

第四步:等待出现页面“一个公众号采集完成”,就可以生成 csv 了

 $ wechat_spider csv

打赏

我是金马,一个想搞点事情的程序员。如果这个小工具对你有帮助,你可以请我喝杯咖啡,谢谢 :)

LICENSE

MIT.

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].