All Categories → Data Processing → crawl

Top 30 crawl open source projects

腾讯新闻、知乎话题、微博粉丝，Tumblr爬虫、斗鱼弹幕、妹子图爬虫、分布式设计等

✭ 246

python golang awesome redis websockets scrapy weibo zhihu tumblr douyu crawl tencent

破解JS反爬虫加密参数，已破解中国裁判文书网（2020-06-30更新），淘宝密码，天安保险登录，b站登录，房天下登录，WPS登录，微博登录，有道翻译，网易登录，微信公众号登录，空中网登录，今目标登录，学生信息管理系统登录，共赢金融登录，重庆科技资源共享平台登录，网易云音乐下载，一键解析视频链接，财联社登录。

✭ 175

javascript js spider crawl

Proxy pool

Python爬虫代理IP池(proxy pool)

✭ 13,964

python redis proxy flask crawler spider crawl proxypool ssdb

Bitextor

Bitextor generates translation memories from multilingual websites.

✭ 168

python crawler translation tokenizer dictionaries crawl wget

Python3 Spider

Python爬虫实战 - 模拟登陆各大网站包含但不限于：滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝，如果喜欢请start ❤️

✭ 2,129

python HTML TSQL crawler spider selenium scrapy taobao crawl splash geek scrapy-crawler meituan dianping pyppeteer

Dl coursera

A simple, fast, and reliable Coursera crawling & downloading tool

✭ 115

python download coursera mooc crawl

Geetest

滑动验证码，希望对你们有所帮助❤️

✭ 114

python python3 spider bilibili crawl

Andvaranaut

A dungeon crawler

✭ 103

c crawler crawl

Pspider

一个简单的分布式爬虫框架

✭ 102

python spider celery crawl

Weixin

微信小游戏辅助合集（加减大师、包你懂我、大家来找茬腾讯版、头脑王者、好友画我、悦动音符、我最在行、星途WeGoing、猜画小歌、知乎答题王、腾讯中国象棋、跳一跳、题多多黄金版）

✭ 1,216

javascript python nodejs game mongodb socket weixin robot helper crawl

Novel Plus

小说精品屋-plus是一个多端（PC、WAP）阅读、功能完善的原创文学CMS系统，由前台门户系统、作家后台管理系统、平台后台管理系统、爬虫管理系统等多个子系统构成，支持多模版、会员充值、订阅模式、新闻发布和实时统计报表等功能，新书自动入库，老书自动更新。

✭ 1,122

java book spider crawl novel

Cmd Toutiao

摸鱼神器：在命令行中看今日头条

✭ 34

python keyboard news crawl

Nodespider

[DEPRECATED] Simple, flexible, delightful web crawler/spider package

✭ 33

typescript web node async crawler spider promise pipeline crawl

Recruit

这个项目的目的是整合招聘信息，并做一定处理。

✭ 13

python analysis pyqt5 crawl

Grab Site

The archivist's web crawler: WARC output, dashboard for all crawls, dynamic ignore patterns

✭ 680

python crawler spider archiving crawl

Infospider

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱🧰，旨在安全快捷的帮助用户拿回自己的数据，工具代码开源，流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

✭ 5,984