All Projects → beecost → Bee University

beecost / Bee University

Project thu thập điểm chuẩn đại học 2014 - 2018 và phân tích dữ liệu

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to Bee University

Ferret
Declarative web scraping
Stars: ✭ 4,837 (+6526.03%)
Mutual labels:  crawler, data-mining
Bolt
Fast approximate vector operations
Stars: ✭ 70 (-4.11%)
Mutual labels:  data-mining
Hproxy
hproxy - Asynchronous IP proxy pool, aims to make getting proxy as convenient as possible.(异步爬虫代理池)
Stars: ✭ 62 (-15.07%)
Mutual labels:  crawler
Evalne
Source code for EvalNE, a Python library for evaluating Network Embedding methods.
Stars: ✭ 67 (-8.22%)
Mutual labels:  data-mining
Terpene Profile Parser For Cannabis Strains
Parser and database to index the terpene profile of different strains of Cannabis from online databases
Stars: ✭ 63 (-13.7%)
Mutual labels:  crawler
Gorse
An open source recommender system service written in Go
Stars: ✭ 1,148 (+1472.6%)
Mutual labels:  data-mining
Chemrtron
A document viewer; fuzzy match incremental search.
Stars: ✭ 59 (-19.18%)
Mutual labels:  crawler
Jd Autobuy
Python爬虫,京东自动登录,在线抢购商品
Stars: ✭ 1,174 (+1508.22%)
Mutual labels:  crawler
Ffbe
Datamining for FFBE GL
Stars: ✭ 69 (-5.48%)
Mutual labels:  data-mining
Tracker Radar Collector
🕸 Modular, multithreaded, puppeteer-based crawler
Stars: ✭ 67 (-8.22%)
Mutual labels:  crawler
Linkedingiveaway
👨🏽‍🏫You can learn about anything over here. What Giveaways I do and why it's important in today's modern world. Are you interested in Giveaway's?🔋
Stars: ✭ 67 (-8.22%)
Mutual labels:  data-mining
Wordtokenizers.jl
High performance tokenizers for natural language processing and other related tasks
Stars: ✭ 63 (-13.7%)
Mutual labels:  data-mining
Python Testing Crawler
A crawler for automated functional testing of a web application
Stars: ✭ 68 (-6.85%)
Mutual labels:  crawler
Tumblr Crawler
Easily download all the photos/videos from tumblr blogs. 下载指定的 Tumblr 博客中的图片,视频
Stars: ✭ 1,118 (+1431.51%)
Mutual labels:  crawler
Spider
python crawler spider
Stars: ✭ 70 (-4.11%)
Mutual labels:  crawler
Boj Autocommit
When you solve the problem of Baekjoon Online Judge, it automatically commits and pushes to the remote repository.
Stars: ✭ 60 (-17.81%)
Mutual labels:  crawler
Lxspider
爬虫案例合集。包括但不限于《淘宝、京东、天猫、豆瓣、抖音、快手、微博、微信、阿里、头条、pdd、优酷、爱奇艺、携程、12306、58、搜狐、百度指数、维普万方、Zlibraty、Oalib、小说、招标网、采购网、小红书》
Stars: ✭ 60 (-17.81%)
Mutual labels:  crawler
Zhihuvapi
优雅地玩知乎
Stars: ✭ 67 (-8.22%)
Mutual labels:  crawler
Goscraper
Golang pkg to quickly return a preview of a webpage (title/description/images)
Stars: ✭ 72 (-1.37%)
Mutual labels:  crawler
Scrapy Examples
Some scrapy and web.py exmaples
Stars: ✭ 71 (-2.74%)
Mutual labels:  crawler

bee-university

Project Open Source provide by BeeCost.Com

Mục tiêu Project:

  • Thu thập 1 triệu dữ liệu điểm thi THPT Quốc gia 2019

  • Thu thập điểm chuẩn đại học 2014 - 2018

  • Phân tích dữ liệu

Hãy bấm Star để ủng hộ BeeCost nhé 😘

Development

# OS Any (Ubuntu - Recommend)

#install python 
# detail: deploy/docs/install_python.md

#install python 3.7
# detail: deploy/docs/install_python37.md


mkdir -p /bee_university

git clone https://github.com/beecost/bee-university.git
cd bee-university
git config credential.helper store
 

virtualenv venv -p python3.7
source venv/bin/activate
pip install -r requirements.txt

# Update folder path in init.py
python init.py
python init_server.py

# Crawl danh sách url trường đại học
python crawler/crawler_university_list.py
# Crawl điểm chuẩn từ 2014 - 2018
python crawler/crawl_diemchuan.py
# Crawl điểm thi 2019 64 tỉnh thành
python crawler/diemthi2019/crawler_diemthi2019.py

Output

/bee_university/crawler/common/university.gz

  1. Download: university.gz

/bee_university/crawler/common/university_diemchuan.gz

  1. Download: university_diemchuan.gz

/bee_university/crawler/common/diemthi_2019/provide_{code}_{part}.gz

  1. Full 800K điểm thi THPT Quốc gia 2019

Format csv : diemthi2019.csv.zip

Format Parquet: diemthi2019.parquet

Download BeeCost Extension (ủng hộ BeeCost <3)

Password uncompress: beecost.com

Format data

Dữ liệu Format .GZ (jsonl - Mỗi dòng là 1 bản ghi)

University

File: university.gz

{"url": "https://diemthi.tuyensinh247.com/diem-chuan/hoc-vien-cong-nghe-buu-chinh-vien-thong-phia-bac-BVH.html", "university_code": "BVH", "university_name": "Học Viện Công Nghệ Bưu Chính Viễn Thông ( 
Phía Bắc )"}
{"url": "https://diemthi.tuyensinh247.com/diem-chuan/hoc-vien-cong-nghe-buu-chinh-vien-thong-phia-nam-BVS.html", "university_code": "BVS", "university_name": "Học Viện Công Nghệ Bưu Chính Viễn Thông (p
hía Nam)"}
{"url": "https://diemthi.tuyensinh247.com/diem-chuan/dai-hoc-cong-nghiep-det-may-ha-noi-CCM.html", "university_code": "CCM", "university_name": "Đại Học Công Nghiệp Dệt May Hà Nội"}
{"url": "https://diemthi.tuyensinh247.com/diem-chuan/dai-hoc-kinh-te-nghe-an-CEA.html", "university_code": "CEA", "university_name": "Đại học Kinh Tế Nghệ An"}
{"url": "https://diemthi.tuyensinh247.com/diem-chuan/hoc-vien-canh-sat-nhan-dan-CSH.html", "university_code": "CSH", "university_name": "Học Viện Cảnh Sát Nhân Dân"}

University điểm chuẩn 2014 - 2019

File: university_diemchuan.gz

{"diemchuan_datas": [{"major_code": "CN1", "major_name": "Công nghệ Thông tin", "subject_group": "A00; A01; D07", "point": "23.75", "note": "", "year": 2018}, {"major_code": "CN2", "major_name": "Máy tính và Robot", "subject_group": "A00; A01; D07", "point": "21", "note": "", "year": 2018}, {"major_code": "CN3", "major_name": "Vật lý kỹ thuật", "subject_group": "A00; A01; D07", "point": "18.75", "note": "", "year": 2018}, {"major_code": "CN4", "major_name": "Cơ kỹ thuật", "subject_group": "A00; A01; D07", "point": "20.5", "note": "", "year": 2018}, {"major_code": "CN5", "major_name": "Công nghệ kỹ thuật xây dựng", "subject_group": "A00; A01; D07", "point": "18", "note": "", "year": 2018}, {"major_code": "CN6", "major_name": "Công nghệ kỹ thuật cơ điện tử", "subject_group": "A00; A01; D07", "point": "22", "note": "", "year": 2018}, {"major_code": "CN7", "major_name": "Công nghệ Hàng không vũ trụ", "subject_group": "A00; A01; D07", "point": "19", "note": "", "year": 2018}, {"major_code": "CN8", "major_name": "Khoa học máy tính", "subject_group": "A00; A01; D07", "point": "22", "note": "", "year": 2018}, {"major_code": "CN9", "major_name": "Công nghệ kỹ thuật điện tử - viễn thông", "subject_group": "A00; A01; D07", "point": "20", "note": "", "year": 2018}, {"major_code": "CN1", "major_name": "Công nghệ Thông tin", "subject_group": "A00; A01; D07", "point": "26", "note": "", "year": 2017}, {"major_code": "CN2", "major_name": "Máy tính và Robot", "subject_group": "A00; A01; D07", "point": "---", "note": "", "year": 2017}, {"major_code": "CN3", "major_name": "Vật lý kỹ thuật", "subject_group": "A00; A01; D07", "point": "19", "note": "", "year": 2017}, {"major_code": "CN4", "major_name": "Cơ kỹ thuật", "subject_group": "A00; A01; D07", "point": "23.5", "note": "", "year": 2017}, {"major_code": "CN5", "major_name": "Công nghệ kỹ thuật xây dựng", "subject_group": "A00; A01; D07", "point": "23.5", "note": "", "year": 2017}, {"major_code": "CN6", "major_name": "Công nghệ kỹ thuật cơ điện tử", "subject_group": "A00; A01; D07", "point": "23.5", "note": "", "year": 2017}, {"major_code": "CN7", "major_name": "Công nghệ Hàng không vũ trụ", "subject_group": "A00; A01; D07", "point": "---", "note": "", "year": 2017}, {"major_code": "CN8", "major_name": "Khoa học máy tính", "subject_group": "A00; A01; D07", "point": "26", "note": "", "year": 2017}, {"major_code": "CN9", "major_name": "Công nghệ kỹ thuật điện tử - viễn thông", "subject_group": "A00; A01; D07", "point": "26", "note": "", "year": 2017}, {"major_code": "QHITD2", "major_name": "Công nghệ kỹ thuật Xây dựng-Giao thông", "subject_group": "A00; A02", "point": "---", "note": "", "year": 2016}, {"major_code": "QHITD1", "major_name": "Kỹ thuật năng lượng", "subject_group": "A00; A02", "point": "81", "note": "", "year": 2016}, {"major_code": "7520401", "major_name": "Vật lý kỹ thuật", "subject_group": "A00; A02", "point": "87", "note": "", "year": 2016}, {"major_code": "7520214", "major_name": "Kỹ thuật máy tính", "subject_group": "A00; A02", "point": "---", "note": "", "year": 2016}, {"major_code": "7520101", "major_name": "Cơ kỹ thuật", "subject_group": "A00; A02", "point": "87", "note": "", "year": 2016}, {"major_code": "7510302CLC", "major_name": "Công nghệ kỹ thuật điện tử, truyền thông (CLC)", "subject_group": "A01; D07; D08", "point": "125", "note": "", "year": 2016}, {"major_code": "7510302", "major_name": "Công nghệ kỹ thuật điện tử, truyền thông", "subject_group": "A00; A02", "point": "95", "note": "", "year": 2016}, {"major_code": "7510203", "major_name": "Công nghệ kỹ thuật cơ điện tử", "subject_group": "A00; A02", "point": "94", "note": "", "year": 2016}, {"major_code": "7480201NB", "major_name": "Công nghệ Thông tin định hướng thị trường Nhật Bản", "subject_group": "A00; A02", "point": "---", "note": "", "year": 2016}, {"major_code": "7480201", "major_name": "Công nghệ thông tin", "subject_group": "A00; A02", "point": "103", "note": "", "year": 2016}, {"major_code": "7480104", "major_name": "Hệ thống thông tin", "subject_group": "A00; A02", "point": "98", "note": "", "year": 2016}, {"major_code": "7480102", "major_name": "Truyền thông và mạng máy tính", "subject_group": "A00; A02", "point": "98", "note": "", "year": 2016}, {"major_code": "7480101CLC", "major_name": "Khoa học Máy tính (CLC)", "subject_group": "A01; D07; D08", "point": "125", "note": "", "year": 2016}, {"major_code": "7480101", "major_name": "Khoa học máy tính", "subject_group": "A00; A02", "point": "98", "note": "", "year": 2016}, {"major_code": "7480201", "major_name": "Công nghệ thông tin", "subject_group": "", "point": "109", "note": "", "year": 2015}, {"major_code": "7480101", "major_name": "Khoa học máy tính", "subject_group": "", "point": "106.5", "note": "", "year": 2015}, {"major_code": "7480104", "major_name": "Hệ thống thông tin", "subject_group": "", "point": "106.5", "note": "", "year": 2015}, {"major_code": "7480102", "major_name": "Truyền thông và mạng máy tính", "subject_group": "", "point": "106.5", "note": "", "year": 2015}, {"major_code": "7510302", "major_name": "Công nghệ kĩ thuật điện tử, truyền thông", "subject_group": "", "point": "102.5", "note": "", "year": 2015}, {"major_code": "7D0401", "major_name": "Vật lí kĩ thuật", "subject_group": "", "point": "91.5", "note": "", "year": 2015}, {"major_code": "7D0101", "major_name": "Cơ kĩ thuật", "subject_group": "", "point": "97.5", "note": "", "year": 2015}, {"major_code": "7510203", "major_name": "Công nghệ kĩ thuật cơ điện tử", "subject_group": "", "point": "99.5", "note": "", "year": 2015}, {"major_code": "7480201", "major_name": "Công nghệ thông tin", "subject_group": "A", "point": "22", "note": "", "year": 2014}, {"major_code": "7480201", "major_name": "Công nghệ thông tin", "subject_group": "A1", "point": "22", "note": "", "year": 2014}, {"major_code": "7480101", "major_name": "Khoa học máy tính", "subject_group": "A", "point": "22", "note": "", "year": 2014}, {"major_code": "7480101", "major_name": "Khoa học máy tính", "subject_group": "A1", "point": "22", "note": "", "year": 2014}, {"major_code": "7480104", "major_name": "Hệ thống thông tin", "subject_group": "A", "point": "22", "note": "", "year": 2014}, {"major_code": "7480104", "major_name": "Hệ thống thông tin", "subject_group": "A1", "point": "22", "note": "", "year": 2014}, {"major_code": "7480102", "major_name": "Truyền thông và mạng máy tính", "subject_group": "A", "point": "22", "note": "", "year": 2014}, {"major_code": "7480102", "major_name": "Truyền thông và mạng máy tính", "subject_group": "A1", "point": "22", "note": "", "year": 2014}, {"major_code": "7510302", "major_name": "Công nghệ kỹ thuật điện tử, truyền thông", "subject_group": "A", "point": "19.5", "note": "", "year": 2014}, {"major_code": "7510302", "major_name": "Công nghệ kỹ thuật điện tử, truyền thông", "subject_group": "A1", "point": "19.5", "note": "", "year": 2014}, {"major_code": "7520401", "major_name": "Vật lý kỹ thuật", "subject_group": "A", "point": "18", "note": "", "year": 2014}, {"major_code": "7510203", "major_name": "Công nghệ kỹ thuật cơ điện tử", "subject_group": "A", "point": "18", "note": "", "year": 2014}, {"major_code": "7520101", "major_name": "Cơ kỹ thuật", "subject_group": "A", "point": "18", "note": "", "year": 2014}], "university_meta": {"url": "https://diemthi.tuyensinh247.com/diem-chuan/dai-hoc-cong-nghe-dai-hoc-quoc-gia-ha-noi-QHI.html", "university_code": "QHI", "university_name": "Đại Học Công Nghệ – Đại Học Quốc Gia Hà Nội"}}
{"diemchuan_datas": [{"major_code": "7380101", "major_name": "Luật", "subject_group": "C00", "point": "24.5", "note": "", "year": 2018}, {"major_code": "7380101", "major_name": "Luật", "subject_group": "A00", "point": "18.5", "note": "", "year": 2018}, {"major_code": "7380101", "major_name": "Luật", "subject_group": "D01", "point": "18.5", "note": "", "year": 2018}, {"major_code": "7380101", "major_name": "Luật", "subject_group": "D03", "point": "18", "note": "", "year": 2018}, {"major_code": "7380101", "major_name": "Luật", "subject_group": "D78", "point": "19", "note": "", "year": 2018}, {"major_code": "7380101", "major_name": "Luật", "subject_group": "D82", "point": "19", "note": "", "year": 2018}, {"major_code": "7380101 CLC", "major_name": "Luật Chất lượng cao", "subject_group": "A01; D01; D07; D78", "point": "18.25", "note": "", "year": 2018}, {"major_code": "7380110", "major_name": "Luật kinh doanh", "subject_group": "A00; A01; D01; D03; D78; D82", "point": "20.75", "note": "", "year": 2018}, {"major_code": "7380109", "major_name": "Luật Thương mại Quốc tế", "subject_group": "A00; A01; D01; D03; D78; D82", "point": "---", "note": "", "year": 2018}, {"major_code": "", "major_name": "Các ngành đào tạo đại học", "subject_group": "", "point": "---", "note": "", "year": 2017}, {"major_code": "7380101", "major_name": "Luật", "subject_group": "A00; C00; D01; D03; D78; D82", "point": "27.25", "note": "", "year": 2017}, {"major_code": "7380101CLC", "major_name": "Luật chất lượng cao đáp ứng Thông tư 23", "subject_group": "A01; D01; D07; D07; D78", "point": "---", "note": "", "year": 2017}, {"major_code": "7380110", "major_name": "Luật kinh doanh", "subject_group": "A00; A01; D01; D03; D78; D82", "point": "24", "note": "", "year": 2017}, {"major_code": "7380109", "major_name": "Luật kinh doanh*", "subject_group": "A00; D01; D02; D03", "point": "---", "note": "", "year": 2016}, {"major_code": "7380101", "major_name": "Luật", "subject_group": "C00; D01; D02; D03", "point": "---", "note": "", "year": 2016}, {"major_code": "7380101", "major_name": "Luật học", "subject_group": "", "point": "100.5", "note": "", "year": 2015}, {"major_code": "7380109", "major_name": "Luật kinh doanh", "subject_group": "", "point": "103", "note": "", "year": 2015}, {"major_code": "7380101", "major_name": "Luật học", "subject_group": "A", "point": "20", "note": "", "year": 2014}, {"major_code": "7380101", "major_name": "Luật học", "subject_group": "A1", "point": "20", "note": "", "year": 2014}, {"major_code": "7380101", "major_name": "Luật học", "subject_group": "C", "point": "20", "note": "", "year": 2014}, {"major_code": "7380101", "major_name": "Luật học", "subject_group": "D1", "point": "20", "note": "", "year": 2014}, {"major_code": "7380101", "major_name": "Luật học", "subject_group": "D3", "point": "20.5", "note": "", "year": 2014}, {"major_code": "7380109", "major_name": "Luật kinh doanh", "subject_group": "A", "point": "22", "note": "", "year": 2014}, {"major_code": "7380109", "major_name": "Luật kinh doanh", "subject_group": "A1", "point": "22", "note": "", "year": 2014}, {"major_code": "7380109", "major_name": "Luật kinh doanh", "subject_group": "D1", "point": "21.5", "note": "", "year": 2014}, {"major_code": "7380109", "major_name": "Luật kinh doanh", "subject_group": "D3", "point": "21.5", "note": "", "year": 2014}], "university_meta": {"url": "https://diemthi.tuyensinh247.com/diem-chuan/khoa-luat-dai-hoc-quoc-gia-ha-noi-QHL.html", "university_code": "QHL", "university_name": "Khoa Luật – Đại Học Quốc Gia Hà Nội"}}

Điểm thi THPT Quốc gia 2019

Folder: /bee_university/crawler/common/diemthi_2019

{"sbd": "01000887", "Toan": 5.6, "Van": 6.25, "Su": 6.0, "Đia": 6.25, "GDCD": 8.75, "Ngoai_ngu": 7.8, "Ma_mon_ngoai_ngu": "N1"}
{"sbd": "01000889", "Toan": 7.6, "Van": 5.5, "Su": 8.5, "Đia": 8.25, "GDCD": 8.5, "Ngoai_ngu": 4.6, "Ma_mon_ngoai_ngu": "N1"}
{"sbd": "01000886", "Toan": 4.2, "Van": 5.25, "Su": 5.5, "Đia": 7.5, "GDCD": 6.75, "Ngoai_ngu": 3.0, "Ma_mon_ngoai_ngu": "N1"}
{"sbd": "01000890", "Toan": 2.8, "Van": 4.5, "Su": 3.25, "Đia": 5.75, "GDCD": 7.0, "Ngoai_ngu": 4.8, "Ma_mon_ngoai_ngu": "N1"}
{"sbd": "01000922", "Toan": 4.8, "Van": 6.0, "Li": 2.5, "Hoa": 2.25, "Sinh": 3.5, "Su": 2.5, "Đia": 4.5, "Ngoai_ngu": 4.4, "Ma_mon_ngoai_ngu": "N1"}
{"sbd": "01000923", "Toan": 3.8, "Van": 3.5, "Li": 2.5, "Hoa": 2.25, "Sinh": 2.0, "Su": 3.5, "Đia": 6.25}
{"sbd": "01000929", "Toan": 5.6, "Van": 6.25, "Li": 3.5, "Hoa": 2.25, "Sinh": 3.5, "Su": 4.0, "Đia": 5.75}

Stack

Python

Numpy

Pandas

Spark

Author

Tran Minh Tuan - tuantmtb - [email protected]

BeeCost - Tiện ích mua sắm Online

BeeCost là Trợ lý mua sắm online. Giúp bạn mua hàng tiết kiệm hơn trên Shopee, Tiki, Sendo, Lazada, Adayroi. Ứng dụng được tạo từ việc phân tích hơn 50 triệu sản phẩm thương mại điện tử mỗi ngày.

Tính năng chính của tiện ích BeeCost:

  • Lịch sử giá hơn 50 triệu sản phẩm
  • So sánh giá tìm nơi bán rẻ nhất
  • Price Alert (Thông báo khi giảm giá)
  • Tìm kiếm mã giảm giá tự động

Tìm hiểu BeeCost tại Trang chủ

Download BeeCost Extension trên Google Chrome

Download BeeCost Android trên Mobile

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].