All Projects → wnma3mz → Wechat_articles_spider

wnma3mz / Wechat_articles_spider

Licence: apache-2.0
微信公众号文章的爬虫

Programming Languages

python
139335 projects - #7 most used programming language
python36
32 projects

Projects that are alternatives of or similar to Wechat articles spider

Wechat article
爬取微信公众号文章
Stars: ✭ 121 (-87.81%)
Mutual labels:  spider, wechat
Wechatbot4xianyu
🤖 微信订阅机器人 | 🐟 微信订阅机器人之闲鱼二手商品监控
Stars: ✭ 56 (-94.36%)
Mutual labels:  spider, wechat
Article spider
微信公众号爬虫
Stars: ✭ 235 (-76.33%)
Mutual labels:  spider, wechat
Examples Of Web Crawlers
一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。(Some interesting examples of python crawlers that are friendly to beginners. )
Stars: ✭ 10,724 (+979.96%)
Mutual labels:  spider, wechat
Weixin Spider
微信公众号爬虫,公众号历史文章,文章评论,文章阅读及在看数据,可视化web页面,可部署于Windows服务器。基于Python3之flask/mysql/redis/mitmproxy/pywin32等实现,高效微信爬虫,微信公众号爬虫,历史文章,文章评论,数据更新。
Stars: ✭ 287 (-71.1%)
Mutual labels:  spider, wechat
Ctph h5 wx
It's a vue SPA wechat webapp
Stars: ✭ 28 (-97.18%)
Mutual labels:  wechat
Nodespider
[DEPRECATED] Simple, flexible, delightful web crawler/spider package
Stars: ✭ 33 (-96.68%)
Mutual labels:  spider
Jspider
JSpider会每周更新至少一个网站的JS解密方式,欢迎 Star,交流微信:13298307816
Stars: ✭ 914 (-7.96%)
Mutual labels:  spider
Blackwidow
A Python based web application scanner to gather OSINT and fuzz for OWASP vulnerabilities on a target website.
Stars: ✭ 887 (-10.67%)
Mutual labels:  spider
Weimall
开源 微信 小程序 商城 JAVA
Stars: ✭ 39 (-96.07%)
Mutual labels:  wechat
Netcloud
NetCloud Web Spider
Stars: ✭ 37 (-96.27%)
Mutual labels:  spider
Leavexchat Bot
Keep WeChat messages but leave WeChat. This Telegram bot is here to release you.
Stars: ✭ 32 (-96.78%)
Mutual labels:  wechat
Node Tenpay
微信支付 for nodejs
Stars: ✭ 947 (-4.63%)
Mutual labels:  wechat
Think Wechat
企业微信SDK for ThinkPHP5
Stars: ✭ 34 (-96.58%)
Mutual labels:  wechat
Taro
开放式跨端跨框架解决方案,支持使用 React/Vue/Nerv 等框架来开发微信/京东/百度/支付宝/字节跳动/ QQ 小程序/H5/React Native 等应用。 https://taro.zone/
Stars: ✭ 30,230 (+2944.31%)
Mutual labels:  wechat
Itchat Examples
Wechat personal helper examples collection.
Stars: ✭ 37 (-96.27%)
Mutual labels:  wechat
Weixin Sdk
微信公众平台和微信支付Python-SDK
Stars: ✭ 20 (-97.99%)
Mutual labels:  wechat
Deepin Wine Wechat
整理deepin下 wine-wechat 所需依赖, 方便 ubuntu使用
Stars: ✭ 31 (-96.88%)
Mutual labels:  wechat
Tom Vpr
how does voiceprint recognition work in wechat page
Stars: ✭ 37 (-96.27%)
Mutual labels:  wechat
Spider
A configurable web spider with a easy-to-use web console
Stars: ✭ 954 (-3.93%)
Mutual labels:  spider

微信公众号文章爬虫(微信文章阅读点赞的获取)

安装

pip install wechatarticles

展示地址:

日更,获取公众号的最新文章链接,支持日更阅读点赞评论正文

技术交流可以直接联系,微信二维码见末尾(微信;wnma3mz)。烦请进行备注,如wechat_spider

统一回复,项目可正常运行。若不能正常运行,该行会删除。

联系前请注意:

  1. 不(能)做自动登录微信公众号、微信

  2. 不(能)做实时获取参数

  3. 换一个公众号、参数过期,均需手动更新,如何获取参数均在文章中提及,请仔细查阅

  4. 不能做关键词搜索(即微信搜一搜功能),比如搜索所有含“科技”两个字的文章。

注:本项目仅供学习交流,严禁用于商业用途(该项目也没法直接使用),不能达到开箱即用的水平。使用本项目需要读文档+源码+动手实践,参考示例代码(test文件夹下)进行改写。

提示:另外,已经有很多朋友(大佬)通过直接看源码,已经基于这套项目,或者重写,用于各自的需求。

实现思路一:

  1. 从微信公众号平台获取微信公众所有文章的url
  2. 登录微信PC端或移动端获取文章的阅读数、点赞数、评论信息

完整思路可以参考我的博客: 记一次微信公众号爬虫的经历(微信文章阅读点赞的获取)

实现思路二:

  1. 登陆微信PC端或移动端获取公众号所有文章的url,这种获取到的url数量大于500,具体数量每个微信号不完全一致
  2. 同上种方法,获取文章阅读数、点赞数、评论信息

公开已爬取的公众号历史文章的永久链接,日期均截止commit时间,仅供测试与学习,欢迎各位关注这些优质公众号。

公众号列表 科技美学 共青团中央 南方周末 AppSo

Notes

项目始于2017年,当前更新于2021年2月

项目代码进行调整,调用以前的接口请使用pip install wechatarticles==0.5.8

  1. 爬取失败的时候,可能有以下原因
    1. 运行的时候需要关闭网络代理(抓包软件),或者添加相关参数
    2. 参数是否最新,获取微信相关参数(cookie、token)时,一定要保证是对应公众号的任意文章
    3. 检查代码
    4. 需要关注对应公众号(Maybe)
  2. 思路一获取url时,每页间隔可以设定久一点,比如3分钟,持续时间几小时(来自网友测试)
  3. 获取文章阅读点赞时,每篇文章可以设定在5-10s左右,过期时间为4小时;若被封,大约5-10分钟就可继续抓取。
  4. 思路二获取url时,如果被封,需要24小时整之后才能重新抓取

参数文件说明见README

python版本

  • python: 3.6.2、3.7.3

功能实现

功能 公众号相关 公众号信息 公众号biz。获取方式:清博、公众号网页 公众号发表文章数量(不完全准确) 文章相关 某公众号文章的url。获取方式:公众号网页、PC端微信、移动端微信、微信读书 某公众号所有文章信息(包含点赞数、阅读数、评论信息),需要手动更改循环 某公众号指定文章的信息 支持微信文章下载至本地转为html(图片可选是否保存)

API实例

利用公众号网页版获取微信文章url

此处有次数限制,不可一次获取太多url。解决方案多个账号同时爬取 test_WechatUrls.py

登录微信PC端获取文章信息

test_WechatInfo.py

快速获取大量文章urls(利用历史文章获取链接)

test_GetUrls.py

利用公众号获取链接,并获取阅读点赞

test_ArticlesAPI.py

微信文章下载为离线HTML(含图片)

test_Url2Html.py

相关文档

见博客与下方文档

official_cookie和token手动获取方式见这篇文档

wechat_cookie和appmsg_token手动获取的介绍,可以参考这篇文档

wechat_cookie和appmsg_token自动获取的介绍(需要安装mitmproxy,已放弃),仅供参考这篇文档。默认开放端口为8080。

打赏部分

微信二维码
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].