All Projects → nekolr → slime

nekolr / slime

Licence: MIT License
🍰 一个可视化的爬虫平台

Programming Languages

javascript
184084 projects - #8 most used programming language
java
68154 projects - #9 most used programming language
HTML
75241 projects
CSS
56736 projects

Projects that are alternatives of or similar to slime

Querylist
🕷️ The progressive PHP crawler framework! 优雅的渐进式PHP采集框架。
Stars: ✭ 2,392 (+8759.26%)
Mutual labels:  crawler, spider
Webvideobot
Web crawler.
Stars: ✭ 214 (+692.59%)
Mutual labels:  crawler, spider
Jssoup
JavaScript + BeautifulSoup = JSSoup
Stars: ✭ 203 (+651.85%)
Mutual labels:  crawler, spider
Ok ip proxy pool
🍿爬虫代理IP池(proxy pool) python🍟一个还ok的IP代理池
Stars: ✭ 196 (+625.93%)
Mutual labels:  crawler, spider
Ppspider
web spider built by puppeteer, support task-queue and task-scheduling by decorators,support nedb / mongodb, support data visualization; 基于puppeteer的web爬虫框架,提供灵活的任务队列管理调度方案,提供便捷的数据保存方案(nedb/mongodb),提供数据可视化和用户交互的实现方案
Stars: ✭ 237 (+777.78%)
Mutual labels:  crawler, spider
Zhihuspider
多线程知乎用户爬虫,基于python3
Stars: ✭ 201 (+644.44%)
Mutual labels:  crawler, spider
flink-crawler
Continuous scalable web crawler built on top of Flink and crawler-commons
Stars: ✭ 48 (+77.78%)
Mutual labels:  crawler, spider
Lianjia Beike Spider
链家网和贝壳网房价爬虫,采集北京上海广州深圳等21个中国主要城市的房价数据(小区,二手房,出租房,新房),稳定可靠快速!支持csv,MySQL, MongoDB,Excel, json存储,支持Python2和3,图表展示数据,注释丰富 ,点星支持,仅供学习参考,请勿用于商业用途,后果自负。
Stars: ✭ 2,257 (+8259.26%)
Mutual labels:  crawler, spider
Laravel Crawler Detect
A Laravel wrapper for CrawlerDetect - the web crawler detection library
Stars: ✭ 227 (+740.74%)
Mutual labels:  crawler, spider
Chromium for spider
dynamic crawler for web vulnerability scanner
Stars: ✭ 220 (+714.81%)
Mutual labels:  crawler, spider
Fooproxy
稳健高效的评分制-针对性- IP代理池 + API服务,可以自己插入采集器进行代理IP的爬取,针对你的爬虫的一个或多个目标网站分别生成有效的IP代理数据库,支持MongoDB 4.0 使用 Python3.7(Scored IP proxy pool ,customise proxy data crawler can be added anytime)
Stars: ✭ 195 (+622.22%)
Mutual labels:  crawler, spider
Magic google
Google search results crawler, get google search results that you need
Stars: ✭ 247 (+814.81%)
Mutual labels:  crawler, spider
Goribot
[Crawler/Scraper for Golang]🕷A lightweight distributed friendly Golang crawler framework.一个轻量的分布式友好的 Golang 爬虫框架。
Stars: ✭ 190 (+603.7%)
Mutual labels:  crawler, spider
arachnod
High performance crawler for Nodejs
Stars: ✭ 17 (-37.04%)
Mutual labels:  crawler, spider
Marmot
💐Marmot | Web Crawler/HTTP protocol Download Package 🐭
Stars: ✭ 186 (+588.89%)
Mutual labels:  crawler, spider
Colly
Elegant Scraper and Crawler Framework for Golang
Stars: ✭ 15,535 (+57437.04%)
Mutual labels:  crawler, spider
Ncov2019 data crawler
疫情数据爬虫,2019新型冠状病毒数据仓库,轨迹数据,同乘数据,报道
Stars: ✭ 175 (+548.15%)
Mutual labels:  crawler, spider
Zhihu Crawler People
A simple distributed crawler for zhihu && data analysis
Stars: ✭ 182 (+574.07%)
Mutual labels:  crawler, spider
Jd mask robot
京东口罩库存监控爬虫(非selenium),扫码登录、查价、加购、下单、秒杀
Stars: ✭ 216 (+700%)
Mutual labels:  crawler, spider
Fast Lianjia Crawler
直接通过链家 API 抓取数据的极速爬虫,宇宙最快~~ 🚀
Stars: ✭ 247 (+814.81%)
Mutual labels:  crawler, spider

logo

license release tag stars

介绍

一个可视化的爬虫平台。以流程图的方式配置爬虫,基本上无需编写代码即可完成工作。

本项目源自开源项目 spider-flow ,本着学习的目的,在它的基础上进行了重构,修复了一些问题,并增加了一些新的功能。

特性

  • 支持 xpath 和 css 选择器
  • 支持选择器提取、正则提取、json 提取等
  • 支持 Cookie 自动管理
  • 支持抓取由 js 动态渲染的页面
  • 支持代理
  • 支持多数据源
  • 内置常用的字符串、日期、文件、加解密等函数
  • 支持结果保存至多目的地(数据库、csv 文件等)
  • 支持插件扩展(自定义执行器,自定义函数等)
  • 支持任务日志
  • 支持爬虫可视化调试

新增的特性:

  • 采用内置数据库 H2 ,做到开箱即用
  • 支持同步执行,对于执行结果有顺序要求的可以使用该功能
  • 增加随机 User-Agent(数据来自:useragentstring.com
  • 增加代理的管理界面,方便进行代理的手工添加(不推荐)和启动代理的自动管理功能
  • 增加身份认证机制,默认账号和密码都是 slime,可以通过环境变量 SLIME_USERNAMESLIME_PASSWORD 修改
  • 增加 Feed 解析功能
  • 增加延迟执行节点
  • 通过远程 WebDriver 来操纵浏览器(本地不用再加载驱动,更省心)

感谢

spider-flow - 新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。

免责声明

请勿使用本项目进行任何可能会违反法律规定和道德约束的工作。如您选择使用本项目,即代表您遵守此声明,作者不承担由于您违反此声明所带来的任何法律风险和损失。

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].