All Projects → pangxiaobin → Crawlerhot

pangxiaobin / Crawlerhot

Licence: apache-2.0
今日热榜 抓取网站热榜信息,并且前端进行展示

Programming Languages

python3
1442 projects

Projects that are alternatives of or similar to Crawlerhot

Decryptlogin
APIs for loginning some websites by using requests.
Stars: ✭ 1,861 (+1077.85%)
Mutual labels:  requests
Autolink
AutoLink是一个开源Web IDE自动化测试集成解决方案
Stars: ✭ 129 (-18.35%)
Mutual labels:  requests
Python Simple Rest Client
Simple REST client for python 3.6+
Stars: ✭ 143 (-9.49%)
Mutual labels:  requests
Rxios
A RxJS wrapper for axios
Stars: ✭ 119 (-24.68%)
Mutual labels:  requests
Requestium
Integration layer between Requests and Selenium for automation of web actions.
Stars: ✭ 1,618 (+924.05%)
Mutual labels:  requests
Ruoyi Oracle
(RuoYi)官方仓库 基于SpringBoot的权限管理系统 易读易懂、界面简洁美观。 核心技术采用Spring、MyBatis、Shiro没有任何其它重度依赖。直接运行即可用
Stars: ✭ 134 (-15.19%)
Mutual labels:  layui
Pyblog
Pyblog 是一个简单易用的在线 Markdown 博客系统,它使用 Python 的 flask 架构,理论上支持所有 flask-sqlalchemy 所能支持的数据库。 编辑器使用的是 editor.md。当前版本(v2.0)支持且仅支持 python3! Python 的 Markdown to HTML 编译器使用的是 Mistune! Just so!
Stars: ✭ 113 (-28.48%)
Mutual labels:  uwsgi
Requests Unixsocket
Use requests to talk HTTP via a UNIX domain socket
Stars: ✭ 153 (-3.16%)
Mutual labels:  requests
Django Init
Project template used at Fueled for scaffolding new Django based projects. 💫
Stars: ✭ 126 (-20.25%)
Mutual labels:  uwsgi
Cskefu
🌲 春松客服,智能客服系统,开源客服系统 ,机器人客服,客服系统开发框架,多渠道
Stars: ✭ 1,970 (+1146.84%)
Mutual labels:  layui
Gsoc Organisation Scraper
Scrape GSoC organisations using a single script.
Stars: ✭ 121 (-23.42%)
Mutual labels:  requests
Houserentalsystem
🏠 房屋租赁系统,基于主流框架 SSM 的实战项目。
Stars: ✭ 122 (-22.78%)
Mutual labels:  layui
Wenfengsat Ui
HTML开发模板,包含Bootstrap、EasyUI、LayUI、AmazeUI等主题模板,欢迎star...
Stars: ✭ 137 (-13.29%)
Mutual labels:  layui
Docs
《数据采集从入门到放弃》源码。内容简介:爬虫介绍、就业情况、爬虫工程师面试题 ;HTTP协议介绍; Requests使用 ;解析器Xpath介绍; MongoDB与MySQL; 多线程爬虫; Scrapy介绍 ;Scrapy-redis介绍; 使用docker部署; 使用nomad管理docker集群; 使用EFK查询docker日志
Stars: ✭ 118 (-25.32%)
Mutual labels:  requests
Grequests
A Go "clone" of the great and famous Requests library
Stars: ✭ 1,843 (+1066.46%)
Mutual labels:  requests
Bilibili member crawler
B站用户爬虫 好耶~是爬虫
Stars: ✭ 115 (-27.22%)
Mutual labels:  requests
Incapsula Cracker Py3
Python3 compatible way to bypass sites guarded with Incapsula
Stars: ✭ 132 (-16.46%)
Mutual labels:  requests
Requests Html
Pythonic HTML Parsing for Humans™
Stars: ✭ 12,268 (+7664.56%)
Mutual labels:  requests
Request Migrations
HTTP Request Migrations for API Versioning like Stripe
Stars: ✭ 149 (-5.7%)
Mutual labels:  requests
Zhihu Spider
一个获取知乎用户主页信息的多线程Python爬虫程序。
Stars: ✭ 137 (-13.29%)
Mutual labels:  requests

说明

  • 我的博客热点展示:https://www.panglb.top/hot/
  • 前后端分离,后端使用轻量级框架web.py, 前端使用了layui,数据保存为本地json文件。
├── crawler.py  # 主要爬虫代码
├── helper.py  # 帮助函数
├── html    # 前端页面展示
│   ├── hot.html
│   └── layui  # 前端依赖
├── image
│   └── hot.png
├── LICENSE
├── README.md
├── requments.txt  # 环境依赖
├── result  # 爬虫数据保存
│   └── result.json
├── run.py  # 定时爬虫入口
├── server.py  # 后端服务
├── settings.py
└── uwsgi.ini  # uwsgi服务器配置
  • 目前只写了以下热点信息的爬取

    • 知乎热榜
    • V2EX
    • GitHub
    • 新浪微博
    • 天涯
    • 贴吧
    • 豆瓣
    • 云音乐
  • 环境

    • python3.6

运行

  • 下载

     git clone https://github.com/pangxiaobin/CrawlerHot.git
     cd CrawlerHot
    
  • 安装依赖

    # 创建虚拟环境  需要安装virtualenv 和virtualenvwrapper
    mkvirtualenv hot
    pip install -r requments.txt
    # 注释 windows pip install uwsgi 会报错 windows下演示可先在requments.txt 注释掉uwsgi
    
  • 本地运行效果展示

    • 数据爬取
    python run.py
    # 单独看爬虫效果 可以吧run() 注释
    # __name__ == '__main__':
    #    run_crawler()  # 单次爬虫运行
    #    run()  # 定时爬虫运行
    
    • 启动本地服务
    python server.py
    
    • 查看前端页面展示
    把html/hot.html 在浏览器中打开就能看到效果了
    
  • 服务器部署uwsgi+nginx

    • 项目是前后端分离的,后端可以单独就uwsgi起服务,前端用nginx。
    • uwsgi起http服务
    修改uwsgi.ini中的chdir
    # 这里指定你服务器端开放的端口
    http=0.0.0.0:8080
    # 配置工程目录 项目所在的绝对路径
    chdir=yourpath/CrawlerHot
    
    • 起动uwsgi
    uwsgi --ini uwsgi.ini
    
    • 修改前端请求的接口
        #/html/hot.html
        # 这里的127.0.0.1 要修改为你服务器的ip
        http://127.0.0.1:8080/hot =》http://server_ip:8080/hot
    
  • 配置nginx部署前端

    # /etc/nginx/conf.d/default.conf 添加location 配置
    server {
        listen       80;
        # 这里更改为你服务器的ip
        server_name  your_server_ip;
        
        location /hot {
            # 绝对路径
           alias /youtpath/CrawlerHot/html;
           index hot.html;
        }
    }
    
    • 运行定时爬虫脚本
    nohup python -u run.py &  
    
    • 效果展示

    hot

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].