All Projects → JustForFunnnn → Webspider

JustForFunnnn / Webspider

Licence: mit
在线地址: http://119.23.223.90:8000

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to Webspider

Fp Server
Free proxy server, continuously crawling and providing proxies, based on Tornado and Scrapy. 免费代理服务器,基于Tornado和Scrapy,在本地搭建属于自己的代理池
Stars: ✭ 154 (-54.71%)
Mutual labels:  spider, tornado
Celerystalk
An asynchronous enumeration & vulnerability scanner. Run all the tools on all the hosts.
Stars: ✭ 333 (-2.06%)
Mutual labels:  spider, celery
Scrapingoutsourcing
ScrapingOutsourcing专注分享爬虫代码 尽量每周更新一个
Stars: ✭ 164 (-51.76%)
Mutual labels:  spider, requests
Pspider
一个简单的分布式爬虫框架
Stars: ✭ 102 (-70%)
Mutual labels:  spider, celery
python-fxxk-spider
收集各种免费的 Python 爬虫项目
Stars: ✭ 184 (-45.88%)
Mutual labels:  spider, requests
Bilibili member crawler
B站用户爬虫 好耶~是爬虫
Stars: ✭ 115 (-66.18%)
Mutual labels:  spider, requests
Tieba-Birthday-Spider
百度贴吧生日爬虫,可抓取贴吧内吧友生日,并且在对应日期自动发送祝福
Stars: ✭ 28 (-91.76%)
Mutual labels:  spider, requests
Tornado Celery
Non-blocking Celery client for Tornado
Stars: ✭ 561 (+65%)
Mutual labels:  celery, tornado
OpenScraper
An open source webapp for scraping: towards a public service for webscraping
Stars: ✭ 80 (-76.47%)
Mutual labels:  spider, tornado
weibo topic
微博话题关键词,个人微博采集, 微博博文一键删除 selenium获取cookie,requests处理
Stars: ✭ 28 (-91.76%)
Mutual labels:  spider, requests
Reptile
🏀 Python3 网络爬虫实战(部分含详细教程)猫眼 腾讯视频 豆瓣 研招网 微博 笔趣阁小说 百度热点 B站 CSDN 网易云阅读 阿里文学 百度股票 今日头条 微信公众号 网易云音乐 拉勾 有道 unsplash 实习僧 汽车之家 英雄联盟盒子 大众点评 链家 LPL赛程 台风 梦幻西游、阴阳师藏宝阁 天气 牛客网 百度文库 睡前故事 知乎 Wish
Stars: ✭ 1,048 (+208.24%)
Mutual labels:  spider, requests
dbmq
Docker-based Message Queuing
Stars: ✭ 39 (-88.53%)
Mutual labels:  tornado, celery
Bilili
🍻 bilibili video (including bangumi) and danmaku downloader | B站视频(含番剧)、弹幕下载器
Stars: ✭ 379 (+11.47%)
Mutual labels:  spider, requests
Decryptlogin
APIs for loginning some websites by using requests.
Stars: ✭ 1,861 (+447.35%)
Mutual labels:  spider, requests
Bugsnag Python
Official bugsnag error monitoring and error reporting for django, flask, tornado and other python apps.
Stars: ✭ 69 (-79.71%)
Mutual labels:  celery, tornado
DeadPool
该项目是一个使用celery作为主体框架的爬虫应用,能够灵活的添加爬虫任务,并且同时运行多站点的爬虫工作,所有组件都能够原生支持规模并发和分布式,加上celery原生的分布式调用,实现大规模并发。
Stars: ✭ 38 (-88.82%)
Mutual labels:  spider, celery
get LibSeat
利昂图书馆预约系统自动预约&签到程序。支持包括中国人民大学、北京师范大学、济南大学、哈尔滨工业大学等在内的38所高校的图书馆系统
Stars: ✭ 39 (-88.53%)
Mutual labels:  spider, requests
fastweb
fastweb is a web-server integration solution. It based on tornado, celery, thrift.
Stars: ✭ 17 (-95%)
Mutual labels:  tornado, celery
Autoops
linux资产管理,cmdb,django, webssh,运维管理平台,数据库操作平台 本项目已停止开发!因长时间未对代码进行维护,可能会造成项目在不同环境上无法部署、运行BUG等问题,请知晓!项目仅供参考!
Stars: ✭ 340 (+0%)
Mutual labels:  celery, tornado
Letsmapyournetwork
Lets Map Your Network enables you to visualise your physical network in form of graph with zero manual error
Stars: ✭ 305 (-10.29%)
Mutual labels:  celery

Build Status codecov Code Health License Python

-- --
Version 1.0.1
WebSite http://119.23.223.90:8000
Source https://github.com/GuozhuHe/webspider
Keywords Python3, Tornado, Celery, Requests

项目简介

本项目使用的编程语言是python3,数据库用的是MySQL, 主要用到的库是celeryrequests,并实现了定时任务,出错重试,日志记录,自动更改Cookies等的功能,使用ECharts + Bootstrap 来构建前端页面。

展示页面

Alt text

Quick Start

以下操作均是在 Linux - Ubuntu 环境下执行

  • 克隆项目
git clone [email protected]:GuozhuHe/webspider.git
  • 安装 MySQL, Redis, Python3
# 安装 redis
apt-get install redis-server

# 后台启动 redis-server
nohup redis-server &

# 安装 python3
apt-get install python3

# 安装 MySQL
apt-get install mysql-server

# 启动 MySQL
sudo service mysql start
  • 配置数据库和表
# 创建数据库
CREATE DATABASE `spider` CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
# 还需要创建相关表,表的定义语句在 tests/schema.sql 文件中,可自行复制进 MySQL 命令行中执行。
  • 在项目根目录下构建
make
# 构建成功后项目的 env/bin 目录下会有可执行脚本
  • 执行单元测试
make test
  • 代码风格检查
make flake8
  • 运行 Web Server
env/bin/web
  • 运行爬虫程序
# 启动定时任务分发器
env/bin/celery_beat
# 启动爬取 数据 的 worker
env/bin/celery_lg_data_worker
# 启动爬取 职位数据 的 worker
env/bin/celery_lg_jobs_data_worker
# 启动爬取 职位数量 的 worker
env/bin/celery_lg_jobs_count_worker
  • env/bin 目录下其他可执行脚本
# 直接爬取职位数量
env/bin/crawl_lg_jobs_count
# 直接爬取职位数据
env/bin/crawl_lg_data
# 启动celery监控
env/bin/celery_flower
  • 清除构建信息
make clean

TODO

  • [ ] 前后端分离

  • [ ] 更为丰富的数据展示维度

  • [x] 重构爬虫

  • [x] 缓存、失效机制

  • [x] Fix Bug: MySQL Server has gone away. 详见此MR

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].