Cheap and reliable Node.js hosting starts at $3/month, and $1/month static HTML hosting

Created with love in Canada, visit hostnodejs.com today

Feel like to post an Ad? Learn Details

All Projects → zhang0peter → Bilibili User Information Spider

zhang0peter / Bilibili User Information Spider

Licence: mit

B站3亿用户信息爬虫（mid号，昵称，性别，关注，粉丝，等级）

Programming Languages

python

139335 projects - #7 most used programming language

Labels

spider bilibili user

Projects that are alternatives of or similar to Bilibili User Information Spider

bilibili-smallvideo

🕷️用于爬取B站前top100的小视频

Stars: ✭ 133 (-2.21%)

Mutual labels: spider, bilibili

Bilibili manga download

带图形界面的哔哩哔哩漫画下载工具

Stars: ✭ 52 (-61.76%)

Mutual labels: spider, bilibili

Biliutil

Bilibili.com视频批量下载工具包

Stars: ✭ 212 (+55.88%)

Mutual labels: bilibili, spider

Videospider

抓取豆瓣，bilibili等中的电视剧、电影、动漫演员等信息

Stars: ✭ 186 (+36.76%)

Mutual labels: bilibili, spider

Bilibili Api

哔哩哔哩的API调用模块

Stars: ✭ 704 (+417.65%)

Mutual labels: bilibili, spider

yutto

🧊 一个可爱且任性的 B 站视频下载器（bilili V2）

Stars: ✭ 383 (+181.62%)

Mutual labels: spider, bilibili

Decryptlogin

APIs for loginning some websites by using requests.

Stars: ✭ 1,861 (+1268.38%)

Mutual labels: bilibili, spider

Geetest

滑动验证码，希望对你们有所帮助❤️

Stars: ✭ 114 (-16.18%)

Mutual labels: bilibili, spider

Bili Spider

📺 B 站全站视频信息爬虫

Stars: ✭ 414 (+204.41%)

Mutual labels: bilibili, spider

Bilili

🍻 bilibili video (including bangumi) and danmaku downloader | B站视频（含番剧）、弹幕下载器

Stars: ✭ 379 (+178.68%)

Mutual labels: bilibili, spider

Animesearcher

整合第三方网站的视频和弹幕资源, 为白嫖党提供最佳看番追剧体验

Stars: ✭ 101 (-25.74%)

Mutual labels: bilibili, spider

Bilibili member crawler

B站用户爬虫好耶~是爬虫

Stars: ✭ 115 (-15.44%)

Mutual labels: bilibili, spider

Pddspider

拼多多爬虫，爬取所有商品、评论等信息

Stars: ✭ 121 (-11.03%)

Mutual labels: spider

Feapder

feapder是一款支持分布式、批次采集、任务防丢、报警丰富的python爬虫框架

Stars: ✭ 110 (-19.12%)

Mutual labels: spider

Wechat article

爬取微信公众号文章

Stars: ✭ 121 (-11.03%)

Mutual labels: spider

Free proxy website

获取免费socks/https/http代理的网站集合

Stars: ✭ 119 (-12.5%)

Mutual labels: spider

Digger

Digger is a powerful and flexible web crawler implemented by pure golang

Stars: ✭ 130 (-4.41%)

Mutual labels: spider

Mediaunlock test

流媒体解锁检测

Stars: ✭ 121 (-11.03%)

Mutual labels: bilibili

Urpm

urpm 是一套基于Laravel封装的后台用户管理权限系统，能够让开发者不用再关心权限问题，实现后台功能的快速开发。

Stars: ✭ 118 (-13.24%)

Mutual labels: user

Copybook

用爬虫爬取小说网站上所有小说，存储到数据库中，并用爬到的数据构建自己的小说网站

Stars: ✭ 117 (-13.97%)

Mutual labels: spider

View All Similar Projects ➔

声明

代码、教程均为本人原创，且仅限于学习交流，请勿用于任何商业用途！

2020-1-20 更新：增加log模块，修复代码bug

我已经配置好项目在Repl.it上，你可以直接点击Repl.it的图标运行程序。

之前写了B站视频信息的爬虫，然后就想到了爬取B站的用户信息。
在2018年3月11号，B站的第3亿用户诞生了。

2020-8-1:不要问我要数据，数据早就删除了。

准备工作

我使用的是Python3，数据库用的是Python自带的sqlite，使用requests库爬取。
安装需要的库

pip install requests

本来我的打算是通过post来获取用户信息的，但发现这样做很容易被封。
在考虑良久后，我觉得通过用户的手机端页面来获取用户信息，这样不容易被封。
比如在手机上访问https://m.bilibili.com/space/2 这个页面，可以获取用户名，性别，等级的信息。
然后再通过api接口来获取用户的关注和粉丝数，如https://api.bilibili.com/x/relation/stat?jsonp=jsonp&vmid=2

{
  "code":0,
  "data":{
          "mid":0,
          "following":116,
          "whisper":0,
          "black":0,
          "follower":327153},
  "message":"0",
  "ttl":1}

使用requests库获取数据，可以使用多线程爬虫进行加速，多线程的代码我不放出来。

数据获取

B站对爬虫采取的是一旦发现，就封ip一天到5天不等。
可以使用代理防封IP。
在累计爬到一亿多时，我发现ip被封的很频繁，于是就不再爬下去了，因为这3亿用户有太多的僵尸用户了。
比如:

从图上可以看出这一面的用户基本都是僵尸用户，除了少数几个有等级或者关注的。
应该是16年B站开放注册后僵尸用户一下子就多起来了。
我就不把自己爬到的全部数据放上来了,就前109万用户的数据放上来，在data.db里。

爬虫代码见 bilibili-user-information-spider.py
参考资料： bili-user

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].

Stars: ✭ 136

Visit Git Page 🔗Visit User Page 🔗Visit Issues Page (1) 🔗