All Projects → xjtushilei → Scriptspider

xjtushilei / Scriptspider

Licence: apache-2.0
一个java版本的分布式的通用爬虫,可以插拔各个组件(提供默认的)

Programming Languages

java
68154 projects - #9 most used programming language

Projects that are alternatives of or similar to Scriptspider

Blog
my blog, using markdown
Stars: ✭ 25 (-83.87%)
Mutual labels:  redis, distributed-systems
Memento
Fairly basic redis-like hashmap implementation on top of a epoll TCP server.
Stars: ✭ 74 (-52.26%)
Mutual labels:  thread-pool, redis
Go Demo
Go语言实例教程从入门到进阶,包括基础库使用、设计模式、面试易错点、工具类、对接第三方等
Stars: ✭ 881 (+468.39%)
Mutual labels:  spider, redis
Jlitespider
A lite distributed Java spider framework :-)
Stars: ✭ 151 (-2.58%)
Mutual labels:  spider, distributed-systems
Nginx Lua Redis Rate Measuring
A lua library to provide distributed rate measurement using nginx + redis, you can use it to do a throttling system within many nodes.
Stars: ✭ 109 (-29.68%)
Mutual labels:  redis, distributed-systems
Oneblog
👽 OneBlog,一个简洁美观、功能强大并且自适应的Java博客
Stars: ✭ 678 (+337.42%)
Mutual labels:  spider, redis
Finagle
A fault tolerant, protocol-agnostic RPC system
Stars: ✭ 8,126 (+5142.58%)
Mutual labels:  redis, distributed-systems
Bdp Dataplatform
大数据生态解决方案数据平台:基于大数据、数据平台、微服务、机器学习、商城、自动化运维、DevOps、容器部署平台、数据平台采集、数据平台存储、数据平台计算、数据平台开发、数据平台应用搭建的大数据解决方案。
Stars: ✭ 456 (+194.19%)
Mutual labels:  spider, redis
Foundatio
Pluggable foundation blocks for building distributed apps.
Stars: ✭ 1,365 (+780.65%)
Mutual labels:  redis, distributed-systems
Zhihuspider
知乎用户公开个人信息爬虫, 能够爬取用户关注关系,基于Python、使用代理、多线程
Stars: ✭ 92 (-40.65%)
Mutual labels:  spider, redis
Python Spider
豆瓣电影top250、斗鱼爬取json数据以及爬取美女图片、淘宝、有缘、CrawlSpider爬取红娘网相亲人的部分基本信息以及红娘网分布式爬取和存储redis、爬虫小demo、Selenium、爬取多点、django开发接口、爬取有缘网信息、模拟知乎登录、模拟github登录、模拟图虫网登录、爬取多点商城整站数据、爬取微信公众号历史文章、爬取微信群或者微信好友分享的文章、itchat监听指定微信公众号分享的文章
Stars: ✭ 615 (+296.77%)
Mutual labels:  spider, redis
Apiproject
[https://www.sofineday.com], golang项目开发脚手架,集成最佳实践(gin+gorm+go-redis+mongo+cors+jwt+json日志库zap(支持日志收集到kafka或mongo)+消息队列kafka+微信支付宝支付gopay+api加密+api反向代理+go modules依赖管理+headless爬虫chromedp+makefile+二进制压缩+livereload热加载)
Stars: ✭ 124 (-20%)
Mutual labels:  spider, redis
Netdiscovery
NetDiscovery 是一款基于 Vert.x、RxJava 2 等框架实现的通用爬虫框架/中间件。
Stars: ✭ 573 (+269.68%)
Mutual labels:  spider, redis
Funpyspidersearchengine
Word2vec 千人千面 个性化搜索 + Scrapy2.3.0(爬取数据) + ElasticSearch7.9.1(存储数据并提供对外Restful API) + Django3.1.1 搜索
Stars: ✭ 782 (+404.52%)
Mutual labels:  spider, redis
Haipproxy
💖 High available distributed ip proxy pool, powerd by Scrapy and Redis
Stars: ✭ 4,993 (+3121.29%)
Mutual labels:  spider, redis
Docker Airflow
Repo for building docker based airflow image. Containers support multiple features like writing logs to local or S3 folder and Initializing GCP while container booting. https://abhioncbr.github.io/docker-airflow/
Stars: ✭ 29 (-81.29%)
Mutual labels:  redis, distributed-systems
Dis Seckill
👊SpringBoot+Zookeeper+Dubbo打造分布式高并发商品秒杀系统
Stars: ✭ 315 (+103.23%)
Mutual labels:  redis, distributed-systems
Elasticell
Elastic Key-Value Storage With Strong Consistency and Reliability
Stars: ✭ 453 (+192.26%)
Mutual labels:  redis, distributed-systems
Docker Superset
Repository for Docker Image of Apache-Superset. [Docker Image: https://hub.docker.com/r/abhioncbr/docker-superset]
Stars: ✭ 86 (-44.52%)
Mutual labels:  redis, distributed-systems
Playground
A new kind of virtual event platform 🐧
Stars: ✭ 120 (-22.58%)
Mutual labels:  redis, distributed-systems

ScriptSpider

ScriptSpider(以下简称SS),做一个好用的爬虫框架。

目前的功能已经够大多数情况下使用,ScriptSpider会朝着易用、高度、最新技术的方向发展!

欢迎 StarFork 我的项目!

项目主页

特点

  • Java开发(学习java的良方)
  • 易理解(中文注释,多样例代码)
  • 易用性(最短一行代码就可以开始爬虫)
  • 代码少(已经默认实现了大部分功能)
  • 基于Jsoup(个性化解析网页方便)
  • 高度扩展性(热插拔组件,可定制每一个流程)
  • 速度快(多线程爬虫,线程池管理,线程池下载,分布式)
  • 分布式(基于redis,mq等,部署简单,速度很快)

使用情况

近12个月maven中央仓库使用情况。

近12个月maven中央仓库使用情况

安装

使用maven

<dependency>
    <groupId>com.github.xjtushilei</groupId>
    <artifactId>scriptspider</artifactId>
    <version>0.3</version>
    <!--请尽量使用最新版本. update time:2018年3月29日18:37:44-->
</dependency>

关于版本

请尽量使用最新版本,http://search.maven.org,中央仓库搜索最新版本

因为文档都是根据最新版本来及时更新的。

离线使用jar包

在项目主页的 releases目录

在最新的release下面,下载相应的所有的依赖包集合zip:dependency.zip

打开自己的工程,导入即可!

如何开始

在开始之前,你应该先了解该框架是如何工作的。

流程图

流程图

基本上,你只需要提供“解析器”,“下载器”两个模块就好啦。

因为SS也不知道您想要哪一部分内容,不知道您想存到哪里~

如果您对上图很了解,那么可以直接开始编程了。或者您可以先看一下下面的简单用法介绍。

src/main/java/com/github/xjtushilei/example中可以查看所有的样例程序

最小Spider

    //爬取《交大新闻网》开始的所有页面信息,并将信息打印到控制台!

    Spider.build().addUrlSeed("http://news.xjtu.edu.cn").run();

一句话,就能实现一个爬虫!

因为,我们给您默认提供了好多组件。

最小多线程Spider

    //爬取《交大新闻网》开始的所有页面信息,并将信息打印到控制台!
    Spider.build()
          .thread(10)   //设置多少个线程
          .addUrlSeed("http://news.xjtu.edu.cn")
          .run();

如果您没有设置thread选项,默认是5个线程

当然了,您可以使用.thread(1)来使用单线程。虽然我们不建议您这么做。

甚至您可以使用.thread(-100)来启动线程(呵呵,默认是5)

正常的机器,我们推荐您使用10个以上的线程进行尝试!

更多的示范

请移步How to Start

感受

  1. 设计一个框架需要考虑的东西需要很多,自己能力有限,第一次设计,不妥之处欢迎大家提issue。
  2. 多线程调bug好忧伤。
  3. 开源项目,需要花费很多的精力,自己有时候也挺疯狂的,各种折腾。回首一看,还是挺开心的。
  4. 如果你有兴趣,可以加入ScriptSpider,我们一起构建更美好的JAVA爬虫框架!

背景

因背景有失大雅,故放在后面。

无意之中看到了一个软件设计大赛,看到一个题目有兴趣,结果工作人员迟迟不给示例文件密码,破解失败,无奈就随手选了个题目,那就爬虫吧。

欢迎加入

联系个人主页的邮箱、QQ等即可。

版本更新记录

  • V-0.2
    • 完成基本的说明文档和样例程序。修复已知bug。
  • V-0.1.1
    • 完成基于redis的分布式调度
  • V-0.0.1
    • 基本的爬虫功能
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].