Cheap and reliable Node.js hosting starts at $3/month, and $1/month static HTML hosting

《数据采集从入门到放弃》源码。内容简介：爬虫介绍、就业情况、爬虫工程师面试题；HTTP协议介绍； Requests使用；解析器Xpath介绍； MongoDB与MySQL；多线程爬虫； Scrapy介绍；Scrapy-redis介绍；使用docker部署；使用nomad管理docker集群；使用EFK查询docker日志

Stars: ✭ 118 (-6.35%)

Mutual labels: crawler

Tiebamanager

（已跑路）百度贴吧吧务管理工具，自动扫描帖子并处理违规帖

Stars: ✭ 119 (-5.56%)

Mutual labels: crawler

Jianso movie

🎬 电影资源爬虫,电影图片抓取脚本,Flask|Nginx|wsgi

Stars: ✭ 114 (-9.52%)

Mutual labels: crawler

Squidwarc

Squidwarc is a high fidelity, user scriptable, archival crawler that uses Chrome or Chromium with or without a head

Stars: ✭ 125 (-0.79%)

Mutual labels: crawler

Sentinel Crawler

Xenomorph Crawler, a Concise, Declarative and Observable Distributed Crawler(Node / Go / Java / Rust) For Web, RDB, OS, also can act as a Monitor(with Prometheus) or ETL for Infrastructure 💫 多语言执行器，分布式爬虫

Stars: ✭ 118 (-6.35%)

Mutual labels: crawler

Skill Share Crawler Dl

Download Videos Skill Share per ID or per Class

Stars: ✭ 122 (-3.17%)

Mutual labels: crawler

Examples Of Web Crawlers

一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。(Some interesting examples of python crawlers that are friendly to beginners. )

Stars: ✭ 10,724 (+8411.11%)

Mutual labels: crawler

Moodle Downloader 2

A Moodle downloader that downloads course content fast from Moodle (eg. lecture pdfs)

Stars: ✭ 118 (-6.35%)

Mutual labels: crawler

Pspider

简单易用的Python爬虫框架，QQ交流群：597510560

Stars: ✭ 1,611 (+1178.57%)

Mutual labels: crawler

Prerender Java

java framework for prerender

Stars: ✭ 115 (-8.73%)

Mutual labels: crawler

Black Widow

GUI based offensive penetration testing tool (Open Source)

Stars: ✭ 124 (-1.59%)

Mutual labels: crawler

Bilibili member crawler

B站用户爬虫好耶~是爬虫

Stars: ✭ 115 (-8.73%)

Mutual labels: crawler

Php Crawler

A php crawler that finds emails on the internets

Stars: ✭ 119 (-5.56%)

Mutual labels: crawler

Sina Weibo Album Downloader

Multithreading download all HD photos / pictures from someone's Sina Weibo album.

Stars: ✭ 125 (-0.79%)

Mutual labels: crawler

Fontobfuscator

字体混淆服务

Stars: ✭ 125 (-0.79%)

Mutual labels: crawler

Qqmusicspider

基于Scrapy的QQ音乐爬虫(QQ Music Spider)，爬取歌曲信息、歌词、精彩评论等，并且分享了QQ音乐中排名前6400名的内地和港台歌手的49万+的音乐语料

Stars: ✭ 120 (-4.76%)

Mutual labels: crawler

View All Similar Projects ➔

kuaishou-crawler

As you can see, a crawler for kuaishou pictures and videos

Latest

Version 0.5.0 (2020-08-06)

View Change Log

现在已经提供exe版本一键执行查看 | 或者查看如何运行代码查看
Python 3.7.3
- requests
- json
- os
- ~~BeautifulSoup~~
- re
自v0.3.0版本开始，已用面向对象重构，核心代码在lib/crawler.py中，启动文件为crawl.py / ks.py
功能：根据用户ID来爬取快手用户的作品，包括视频和图片
1. 在preset文件(使用exe版本忽略此文件)中一行行填写用户id，若缺少文件会自动创建（目前版本已提供自动根据数字id获取真实eid）
  - 分享链接用浏览器打开，根据网址 https://live.kuaishou.com/profile/xxxx 获取id: xxxx~~
  - 或者手机里点开快手用户的头像，底下会告诉你快手号的
2. 使用时请自己用账号登录快手网站，并使用自己的cookie['headers']和didweb替换，不保证源代码中对应值可用
  - 关于cookie的did值，你在电脑浏览器中打开快手网站登录后随便打开一个用户的视频作品，然后再地址栏中找到这一项，咱们以giao哥的第一个视频为例
    - https://live.kuaishou.com/u/3x4tn6nm8gnh9xk/3xtd5zf5qbduphc?did=web_12345shiwoluandade
    - 你要保存下来的就是did后面的 web_12345shiwoluandade
3. 因为快手官网会根据cookie，识别你是否在线，爬取的时候要将网页登录并挂着
  - 实测快手网站的用户验证存在30-60分钟左右的有效时长，出现list index out of range时极可能是有效期已过，登录网站验证即可
  - 暂且不知道快手官方对过多请求的处理，目前碰到的有上述验证失效，也许也会有请求达到数量会中断请求，此时注释preset中已爬取的用户id，重新开始运行脚本即可
4. 爬取的视频~~暂时是带水印的(以后考虑获取无水印视频)~~ 是无水印的 感谢@tjftjftjf提供手机抓包链接和方法
5. 修复了无水印视频url的获取
注意事项：
- 不考虑提供列表可选的批量下载功能
- 有需要的合理功能可以issue反馈，看到后会考虑是否修改
- 如果需要自定义自己的需求，可以拿走代码自行修改，喜欢的话给个star给个follow
- 本代码仅供学习使用，不可违反法律爬取视频，以及私自盗用搬运视频，后果自负
- 本代码仅供学习使用，不可违反法律爬取视频，以及私自盗用搬运视频，后果自负
- 本代码仅供学习使用，不可违反法律爬取视频，以及私自盗用搬运视频，后果自负
- 重要的说三遍

Run

python3环境与命令行工具
进入项目目录 cd kuaishou-crawler
安装依赖 pip install -r requirements.txt
运行，有两个版本，crawl.py为运行版本，ks.py是用于构建exe的版本，当然也可以运行
- python crawl.py / python ks.py

Release

https://github.com/oGsLP/kuaishou-crawler/releases

下载打包好的exe一键运行(点击download下载即可)
- ks.exe
- ks.7z

Future

~~自动根据id获取eid~~ √
获取无水印视频 √
进一步丰富preset预设文件的可配置选项
~~优化代码和log~~ √
提供便捷的打包exe √

Again

本代码仅供学习使用，不可违反法律爬取视频，以及私自盗用搬运视频，后果自负

Else

爬虫源码免费开源，作者维护不易，喜欢的可以随意打赏一些>_<

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].

Stars: ✭ 126

Visit Git Page 🔗Visit User Page 🔗Visit Issues Page (16) 🔗