All Projects → xianyunyh → Spider_job

xianyunyh / Spider_job

Licence: mit
招聘网数据爬虫

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to Spider job

Python Spider
豆瓣电影top250、斗鱼爬取json数据以及爬取美女图片、淘宝、有缘、CrawlSpider爬取红娘网相亲人的部分基本信息以及红娘网分布式爬取和存储redis、爬虫小demo、Selenium、爬取多点、django开发接口、爬取有缘网信息、模拟知乎登录、模拟github登录、模拟图虫网登录、爬取多点商城整站数据、爬取微信公众号历史文章、爬取微信群或者微信好友分享的文章、itchat监听指定微信公众号分享的文章
Stars: ✭ 615 (+162.82%)
Mutual labels:  spider, scrapy, mongodb
Scrapy demo
all kinds of scrapy demo
Stars: ✭ 128 (-45.3%)
Mutual labels:  spider, scrapy, mongodb
Awesome Web Scraper
A collection of awesome web scaper, crawler.
Stars: ✭ 147 (-37.18%)
Mutual labels:  spider, scrapy
Python3 Spider
Python爬虫实战 - 模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝,如果喜欢请start ❤️
Stars: ✭ 2,129 (+809.83%)
Mutual labels:  spider, scrapy
Marmot
💐Marmot | Web Crawler/HTTP protocol Download Package 🐭
Stars: ✭ 186 (-20.51%)
Mutual labels:  spider, scrapy
Feapder
feapder是一款支持分布式、批次采集、任务防丢、报警丰富的python爬虫框架
Stars: ✭ 110 (-52.99%)
Mutual labels:  spider, scrapy
Taobaoscrapy
😩Tool For Taobao/Tmall| 儿时玩具已经过时
Stars: ✭ 146 (-37.61%)
Mutual labels:  spider, scrapy
Scrapingoutsourcing
ScrapingOutsourcing专注分享爬虫代码 尽量每周更新一个
Stars: ✭ 164 (-29.91%)
Mutual labels:  spider, scrapy
Copybook
用爬虫爬取小说网站上所有小说,存储到数据库中,并用爬到的数据构建自己的小说网站
Stars: ✭ 117 (-50%)
Mutual labels:  spider, scrapy
Zi5book
book.zi5.me全站kindle电子书籍爬取,按照作者书籍名分类,每本书有mobi和equb两种格式,采用分布式进行全站爬取
Stars: ✭ 191 (-18.38%)
Mutual labels:  spider, mongodb
Goribot
[Crawler/Scraper for Golang]🕷A lightweight distributed friendly Golang crawler framework.一个轻量的分布式友好的 Golang 爬虫框架。
Stars: ✭ 190 (-18.8%)
Mutual labels:  spider, scrapy
Spiderkeeper
admin ui for scrapy/open source scrapinghub
Stars: ✭ 2,562 (+994.87%)
Mutual labels:  spider, scrapy
Yspider
yspider -- 轻量级爬虫系统
Stars: ✭ 125 (-46.58%)
Mutual labels:  spider, mongodb
Crawlab Lite
Lite version of Crawlab. 轻量版 Crawlab 爬虫管理平台
Stars: ✭ 122 (-47.86%)
Mutual labels:  spider, scrapy
Docs
《数据采集从入门到放弃》源码。内容简介:爬虫介绍、就业情况、爬虫工程师面试题 ;HTTP协议介绍; Requests使用 ;解析器Xpath介绍; MongoDB与MySQL; 多线程爬虫; Scrapy介绍 ;Scrapy-redis介绍; 使用docker部署; 使用nomad管理docker集群; 使用EFK查询docker日志
Stars: ✭ 118 (-49.57%)
Mutual labels:  scrapy, mongodb
Fp Server
Free proxy server, continuously crawling and providing proxies, based on Tornado and Scrapy. 免费代理服务器,基于Tornado和Scrapy,在本地搭建属于自己的代理池
Stars: ✭ 154 (-34.19%)
Mutual labels:  spider, scrapy
Py Elasticsearch Django
基于python语言开发的千万级别搜索引擎
Stars: ✭ 207 (-11.54%)
Mutual labels:  spider, scrapy
Hive
lots of spider (很多爬虫)
Stars: ✭ 110 (-52.99%)
Mutual labels:  spider, scrapy
Scrala
Unmaintained 🐳 ☕️ 🕷 Scala crawler(spider) framework, inspired by scrapy, created by @gaocegege
Stars: ✭ 113 (-51.71%)
Mutual labels:  spider, scrapy
Scrapydweb
Web app for Scrapyd cluster management, Scrapy log analysis & visualization, Auto packaging, Timer tasks, Monitor & Alert, and Mobile UI. DEMO 👉
Stars: ✭ 2,385 (+919.23%)
Mutual labels:  spider, scrapy

爬虫项目

免责声明

本软件仅用于学术研究,但因在中国大陆频频出现爬虫开发者涉诉与违规相关的新闻

使用者需遵守其所在地的相关法律法规。因违法违规使用造成的一切后果,使用者自行承担

这个项目是主要自己研究招聘网站上的职位以及对应的需求准备的一个python项目。 项目基于scrapy框架进行爬虫,使用mongodb存储爬取数据。 前端界面使用vue编写,后端接口为 php

在线预览地址: Demo

  • 项目目录结构图

├─backend php后端接口
├─front 前端界面
│  ├─job                vue
│  ├─company.html       热门公司
│  ├─education.html     学历分析
│  ├─weekline.html      发布趋势
├─tutorial python爬虫
│  ├─spiders           爬虫
│  │  ├─51job.py       51job爬虫
│  │  ├─lagou.py       拉钩爬虫
│  │  ├─zhipin.py      直聘爬虫
│  ├─items.py          数据项
│  ├─middlewares.py    中间件
│  ├─pipelines.py      管道
│  ├─settings.py       项目配置
├─word.json 生成的英文技术词json
├─word.py 生成英文分词
├─stop.txt 停用词列表

安装

pip install -f requirements.txt
  • 请安装mongodb、redis

  • python 请选用3.6+以上的版本。需要的依赖有 pymongo、scrapy、redis、pyquery(后期可能会移除)

  • php请安装 mogodb拓展 并且依赖 mongodb/mongodb

    composer require mongodb/mongodb
    

运行爬虫

scrapy crawl boss #抓boss
scrapy crawl 51job #抓51job
scrapy crawl lagou #拉钩

windows下其他问题

  1. 出现Get it with Microsoft Visual C++ Build Tools: http://landinghub.visualstudio.com/visual-cpp-build-tools

请到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应的whl文件 然后执行 pip install xxxx.whl

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].