All Projects → duolaAOA → weibo_topic

duolaAOA / weibo_topic

Licence: other
微博话题关键词,个人微博采集, 微博博文一键删除 selenium获取cookie,requests处理

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to weibo topic

Decryptlogin
APIs for loginning some websites by using requests.
Stars: ✭ 1,861 (+6546.43%)
Mutual labels:  spider, requests, weibo
Examples Of Web Crawlers
一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。(Some interesting examples of python crawlers that are friendly to beginners. )
Stars: ✭ 10,724 (+38200%)
Mutual labels:  spider, selenium
Bilibili member crawler
B站用户爬虫 好耶~是爬虫
Stars: ✭ 115 (+310.71%)
Mutual labels:  spider, requests
Weibo Topic Spider
微博超级话题爬虫,微博词频统计+情感分析+简单分类,新增肺炎超话爬取数据
Stars: ✭ 128 (+357.14%)
Mutual labels:  spider, weibo
Python Spider
豆瓣电影top250、斗鱼爬取json数据以及爬取美女图片、淘宝、有缘、CrawlSpider爬取红娘网相亲人的部分基本信息以及红娘网分布式爬取和存储redis、爬虫小demo、Selenium、爬取多点、django开发接口、爬取有缘网信息、模拟知乎登录、模拟github登录、模拟图虫网登录、爬取多点商城整站数据、爬取微信公众号历史文章、爬取微信群或者微信好友分享的文章、itchat监听指定微信公众号分享的文章
Stars: ✭ 615 (+2096.43%)
Mutual labels:  spider, selenium
Reptile
🏀 Python3 网络爬虫实战(部分含详细教程)猫眼 腾讯视频 豆瓣 研招网 微博 笔趣阁小说 百度热点 B站 CSDN 网易云阅读 阿里文学 百度股票 今日头条 微信公众号 网易云音乐 拉勾 有道 unsplash 实习僧 汽车之家 英雄联盟盒子 大众点评 链家 LPL赛程 台风 梦幻西游、阴阳师藏宝阁 天气 牛客网 百度文库 睡前故事 知乎 Wish
Stars: ✭ 1,048 (+3642.86%)
Mutual labels:  spider, requests
Pddspider
拼多多爬虫,爬取所有商品、评论等信息
Stars: ✭ 121 (+332.14%)
Mutual labels:  spider, selenium
Webspider
在线地址: http://119.23.223.90:8000
Stars: ✭ 340 (+1114.29%)
Mutual labels:  spider, requests
Scrapingoutsourcing
ScrapingOutsourcing专注分享爬虫代码 尽量每周更新一个
Stars: ✭ 164 (+485.71%)
Mutual labels:  spider, requests
TeslaPy
A Python module to use the Tesla Motors Owner API
Stars: ✭ 216 (+671.43%)
Mutual labels:  selenium, requests
python-crawler
爬虫学习仓库,适合零基础的人学习,对新手比较友好
Stars: ✭ 37 (+32.14%)
Mutual labels:  selenium, requests
Infospider
INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱🧰,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。
Stars: ✭ 5,984 (+21271.43%)
Mutual labels:  spider, selenium
Netdiscovery
NetDiscovery 是一款基于 Vert.x、RxJava 2 等框架实现的通用爬虫框架/中间件。
Stars: ✭ 573 (+1946.43%)
Mutual labels:  spider, selenium
Alipayspider Scrapy
AlipaySpider on Scrapy(use chrome driver); 支付宝爬虫(基于Scrapy)
Stars: ✭ 70 (+150%)
Mutual labels:  spider, selenium
Bilili
🍻 bilibili video (including bangumi) and danmaku downloader | B站视频(含番剧)、弹幕下载器
Stars: ✭ 379 (+1253.57%)
Mutual labels:  spider, requests
get LibSeat
利昂图书馆预约系统自动预约&签到程序。支持包括中国人民大学、北京师范大学、济南大学、哈尔滨工业大学等在内的38所高校的图书馆系统
Stars: ✭ 39 (+39.29%)
Mutual labels:  spider, requests
wb wx zh tt
新浪微博,微信,知乎,头条爬虫,支持新浪登录打码获取cookie实现登录
Stars: ✭ 16 (-42.86%)
Mutual labels:  spider, weibo
Happy Spiders
🔧 🔩 🔨 收集整理了爬虫相关的工具、模拟登陆技术、代理IP、scrapy模板代码等内容。
Stars: ✭ 261 (+832.14%)
Mutual labels:  spider, weibo
Python3 Spider
Python爬虫实战 - 模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝,如果喜欢请start ❤️
Stars: ✭ 2,129 (+7503.57%)
Mutual labels:  spider, selenium
Tieba-Birthday-Spider
百度贴吧生日爬虫,可抓取贴吧内吧友生日,并且在对应日期自动发送祝福
Stars: ✭ 28 (+0%)
Mutual labels:  spider, requests

个人微博与微博话题抓取

  • user_info.py是个人所有微博的抓取

  • huati.py为对微博关键字话题的抓取

  • weibo_clean.py 为对用户所发微博清空

  • 雾霾.xls是测试采集的数据

  •  页面只展示100页的内容,实际测试可以拿到237页的内容

2018.4.20

Python 版本

  • python: 3.6.4

huati.py 变量名的说明

变量名 作用
weibo_id 微博文章id
user_id 用户id
contents 用户发布内容
times 发送日期
praise_num 点赞数
transmit_num 转发数
comment_num 评论数
create_time 微博发布时间

文件结构

  • 新增settings配置文件
  • 新增log日志 文件

功能实现

  • settings.py

    1. 在settings文件中对驱动路径,数据库参数,微博账户设置即可
  • huati.py

    1. 可选择insert_one函数单条插入

    2. 可选择insert_many函数批量插入

    3. 默认使用Chrome, 也可自行更改为其它浏览器驱动

  • 测试 (鸿茅药酒相关话题)

   

  • weibo_clean.py

    1. 在settings.py中配置好 USERNAME 与 PASSWORD, LOGIN_URL_COM

    2. 默认使用 WeiBoCleanCom类完成删除功能

    3. WeiBoCleanCom 共享 WeiBoCleanCn获取的cookie完成登录,再获取 .com域名下的cookie

    4. .cn域名下做删除暂时有点问题, 默认在WeiBoCleanCom中处理

# 使用
from weibo_clean import delete
delete.del_weibo()
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].