Apify SDK — The scalable web scraping and crawling library for JavaScript/Node.js. Enables development of data extraction and web automation jobs (not only) with headless Chrome and Puppeteer.

Stars: ✭ 3,154 (+766.48%)

Mutual labels: crawling, puppeteer, headless-chrome

Arachnid

Powerful web scraping framework for Crystal

Stars: ✭ 68 (-81.32%)

Mutual labels: crawler, spider, crawling

Ppspider

web spider built by puppeteer, support task-queue and task-scheduling by decorators，support nedb / mongodb, support data visualization; 基于puppeteer的web爬虫框架，提供灵活的任务队列管理调度方案，提供便捷的数据保存方案（nedb/mongodb），提供数据可视化和用户交互的实现方案

Stars: ✭ 237 (-34.89%)

Mutual labels: crawler, spider, puppeteer

flink-crawler

Continuous scalable web crawler built on top of Flink and crawler-commons

Stars: ✭ 48 (-86.81%)

Mutual labels: crawler, spider, crawling

simplechrome

Webrecorders DevTools Protocol Automation Library

Stars: ✭ 16 (-95.6%)

Mutual labels: chromium, puppeteer

after-work.js

[DEPRECATED] CLI for automated tests in web projects.

Stars: ✭ 56 (-84.62%)

Mutual labels: headless-chrome, puppeteer

LInkedIn-Reverese-Lookup

🔎Search LinkedIn profile by email address📧

Stars: ✭ 20 (-94.51%)

Mutual labels: chromium, puppeteer

Zhihu Login

知乎模拟登录，支持提取验证码和保存 Cookies

Stars: ✭ 340 (-6.59%)

Mutual labels: crawler, spider

headless-chrome-alpine

A Docker container running headless Chrome

Stars: ✭ 26 (-92.86%)

Mutual labels: chromium, headless-chrome

nest-puppeteer

Puppeteer (Headless Chrome) provider for Nest.js

Stars: ✭ 68 (-81.32%)

Mutual labels: headless-chrome, puppeteer

Mochify.js

☕️ TDD with Browserify, Mocha, Headless Chrome and WebDriver

Stars: ✭ 338 (-7.14%)

Mutual labels: puppeteer, headless-chrome

double-agent

A test suite of common scraper detection techniques. See how detectable your scraper stack is.

Stars: ✭ 123 (-66.21%)

Mutual labels: crawling, puppeteer

ZSpider

基于Electron爬虫程序

Stars: ✭ 37 (-89.84%)

Mutual labels: spider, puppeteer

puppeteer-autoscroll-down

Handle infinite scroll on websites by puppeteer

Stars: ✭ 40 (-89.01%)

Mutual labels: headless-chrome, puppeteer

codepen-puppeteer

Use Puppeteer to download pens from Codepen.io as single html pages

Stars: ✭ 22 (-93.96%)

Mutual labels: headless-chrome, puppeteer

puppeteer-instagram

Instagram automation driven by headless chrome.

Stars: ✭ 87 (-76.1%)

Mutual labels: headless-chrome, puppeteer

nanobox-express

Quickstart for Express on Nanobox

Stars: ✭ 13 (-96.43%)

Mutual labels: javascript-framework, nodejs-framework

spider

A web spider framework

Stars: ✭ 25 (-93.13%)

Mutual labels: spider, puppeteer

apify-cli

Apify command-line interface helps you create, develop, build and run Apify actors, and manage the Apify cloud platform.

Stars: ✭ 37 (-89.84%)

Mutual labels: headless-chrome, puppeteer

wget-lua

Wget-AT is a modern Wget with Lua hooks, Zstandard (+dictionary) WARC compression and URL-agnostic deduplication.

Stars: ✭ 52 (-85.71%)

Mutual labels: spider, crawling

Recorder

A browser extension that generates Cypress, Playwright and Puppeteer test scripts from your interactions 🖱 ⌨

Stars: ✭ 277 (-23.9%)

Mutual labels: chromium, puppeteer

phantom-lord

Handy API for Headless Chromium

Stars: ✭ 24 (-93.41%)

Mutual labels: headless-chrome, puppeteer

scrapy-distributed

A series of distributed components for Scrapy. Including RabbitMQ-based components, Kafka-based components, and RedisBloom-based components for Scrapy.

Stars: ✭ 38 (-89.56%)

Mutual labels: spider, crawling

FlareSolverrSharp

FlareSolverr .Net / Proxy server to bypass Cloudflare protection

Stars: ✭ 62 (-82.97%)

Mutual labels: chromium, puppeteer

puppeteer-email

Email automation driven by headless chrome.

Stars: ✭ 135 (-62.91%)

Mutual labels: headless-chrome, puppeteer

Toapi

Every web site provides APIs.