All Projects → dataset-vn → DANeS

dataset-vn / DANeS

Licence: other
DANeS is an open-source E-newspaper dataset by collaboration between DATASET JSC (dataset.vn) and AIV Group (aivgroup.vn)

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to DANeS

egret-wenda-corpus
A Public Corpus for Machine Learning
Stars: ✭ 41 (-35.94%)
Mutual labels:  corpus, corpus-data
Dialogue-Corpus
No description or website provided.
Stars: ✭ 27 (-57.81%)
Mutual labels:  corpus
Khcoder
KH Coder: for Quantitative Content Analysis or Text Mining
Stars: ✭ 126 (+96.88%)
Mutual labels:  corpus
Nlp bahasa resources
A Curated List of Dataset and Usable Library Resources for NLP in Bahasa Indonesia
Stars: ✭ 158 (+146.88%)
Mutual labels:  corpus
Code Docstring Corpus
Preprocessed Python functions and docstrings for automated code documentation (code2doc) and automated code generation (doc2code) tasks.
Stars: ✭ 137 (+114.06%)
Mutual labels:  corpus
Nlvr
Cornell NLVR and NLVR2 are natural language grounding datasets. Each example shows a visual input and a sentence describing it, and is annotated with the truth-value of the sentence.
Stars: ✭ 192 (+200%)
Mutual labels:  corpus
Dialog corpus
用于训练中英文对话系统的语料库 Datasets for Training Chatbot System
Stars: ✭ 1,662 (+2496.88%)
Mutual labels:  corpus
rclc
Rich Context leaderboard competition, including the corpus and current SOTA for required tasks.
Stars: ✭ 20 (-68.75%)
Mutual labels:  corpus
Chinese Names Corpus
中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。
Stars: ✭ 3,053 (+4670.31%)
Mutual labels:  corpus
Indonesian Nlp Resources
data resource untuk NLP bahasa indonesia
Stars: ✭ 143 (+123.44%)
Mutual labels:  corpus
Wp2txt
WP2TXT extracts plain text data from Wikipedia dump file (encoded in XML/compressed with Bzip2) stripping all the MediaWiki markups and other metadata.
Stars: ✭ 145 (+126.56%)
Mutual labels:  corpus
Gossiping Chinese Corpus
PTT 八卦版問答中文語料
Stars: ✭ 137 (+114.06%)
Mutual labels:  corpus
Weibo terminater
Final Weibo Crawler Scrap Anything From Weibo, comments, weibo contents, followers, anything. The Terminator
Stars: ✭ 2,295 (+3485.94%)
Mutual labels:  corpus
Awesome Chatbot
Awesome Chatbot Projects,Corpus,Papers,Tutorials.Chinese Chatbot =>:
Stars: ✭ 1,785 (+2689.06%)
Mutual labels:  corpus
megs
A merged version of multiple open-source German speech datasets.
Stars: ✭ 21 (-67.19%)
Mutual labels:  corpus
Cluedatasetsearch
搜索所有中文NLP数据集,附常用英文NLP数据集
Stars: ✭ 2,112 (+3200%)
Mutual labels:  corpus
Clue
中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Stars: ✭ 2,425 (+3689.06%)
Mutual labels:  corpus
Efaqa Corpus Zh
❤️Emotional First Aid Dataset, 心理咨询问答、聊天机器人语料库
Stars: ✭ 170 (+165.63%)
Mutual labels:  corpus
Probabilistic-RNN-DA-Classifier
Probabilistic Dialogue Act Classification for the Switchboard Corpus using an LSTM model
Stars: ✭ 22 (-65.62%)
Mutual labels:  corpus
german-nouns
A list of ~100,000 German nouns and their grammatical properties compiled from WiktionaryDE as CSV file. Plus a module to look up the data and parse compound words.
Stars: ✭ 101 (+57.81%)
Mutual labels:  corpus

DANeS - Bộ dữ liệu nguồn mở các đầu báo điện tử

12613 Nguồn: Technology vector created by macrovector - www.freepik.com.

DANeS là một bộ dữ liệu mở xây dựng dựa trên sự hợp tác của DATASET. JSC và AIV Group. Bộ dữ liệu gồm ~ 500.000 bài báo điện tử tiếng Việt đến từ các trang báo như: tuoitre.vn, baobinhduong.vn, baoquangbinh.vn, kinhtechungkhoan.vn, doanhnghiep.vn, vnexpress.net,... Các bài báo sẽ bao gồm tiêu đề, URL, mô tả tổng quan từng bài báo và được dán nhãn tích cực/tiêu cực/trung tính dựa trên nội dung tiêu đề.

DANeS được đưa ra để phục vụ cộng đồng và các dự án AI tại Việt Nam, với hy vọng thúc đẩy phong trào kiến tạo các bộ dữ liệu mở để giải quyết các bài toán chung của xã hội. Kho dữ liệu tập hợp số lượng lớn các đầu báo để hỗ trợ huấn luyện mô hình AI phân biệt được sắc thái văn bản dựa trên các cấp khác nhau. Bạn có thể chia sẻ dự án/ sản phẩm sử dụng mô hình và kho dữ liệu của DANeS với chúng chúng tôi qua email: [email protected]

Mục lục

  1. Cây thư mục
  2. Định dạng dữ liệu
  3. Quy trình dán nhãn
  4. Quy trình review
  5. Quy trình cập nhật
  6. Bản quyền
  7. Về chúng tôi

Cây thư mục

DANeS
  |
  |____README.md
  |
  |____README_english_ver.md
  |
  |____raw_data
  |	   |____ DANeS_batch_#1.json
  |	   |____ DANeS_batch_#2.json
  |	   |____ DANeS_batch_#3.json
  |	   |____ DANeS_batch_#4.json
  |	   |____ DANeS_batch_#5.json
  |	   |____ DANeS_batch_#6.json
  |	   |____ DANeS_batch_#7.json
  |	   |____ DANeS_batch_#8.json
  |	   |____ README.md
  |
  |____annotated_data
  |	   |____ #contains annotated data
  |
  |____model
	   |____ Train_opensource.py
	   |____ README.md
	   |____ README_english_ver.md
	   |____ LICENSE

Định dạng dữ liệu

Dữ liệu thô được lưu trữ trong thư mục raw_data dưới định dạng là tệp tin .json và được chia ra làm 8 batch. Mỗi batch bao gồm 1 mảng chứa nhiều json và mỗi json là 1 bản ghi của bộ dữ thô.

Key Type Description
text string title of the digital news
meta json metadata of the digital news
uri string link to the digital news
description string description of the digital news

Dưới đây là ví dụ về định dạng của mỗi bản ghi:

{
        "text": "Ba ra đi vào ngày nhận điểm thi, nữ sinh được hỗ trợ học phí",
        "meta": {
            		"description": "Ngày nhận được tin đỗ đại học cũng là lúc bố mất vì Covid-19, L.A dường như gục ngã. Thế nhưng, bên cạnh em đã có các mạnh thường quân hỏi han, hỗ trợ về kinh tế.",
            		"uri": "https://yan.vn/ba-ra-di-vao-ngay-nhan-diem-thi-nu-sinh-duoc-ho-tro-hoc-phi-277328.html"
        	}
}

Dữ liệu đã được gán nhãn được lưu trữ trong thư mục annotated_data dưới định dạng là tệp tin .json và được chia ra thành nhiều batch. Các batch sẽ được cập nhật theo tháng và dự kiến sẽ không có số lượng bản ghi cố định cho một lần cập nhật. Trong một batch, các bản ghi được gán nhãn được lưu trữ dưới dạng các file .json.

Key Type Include Description
id string none id of each instance
annotations array id id of class belong to specific instance
type type of annotation
value value of annotation
to_name type of the value of annotation
from_name name of the annotation
data json text, meta, uri, description contain raw data info

Dưới đây là ví dụ về định dạng của mỗi bản ghi:

{
        "id": 785436,
        "annotations": [
            {
                "id": "Eju0SNkpeb",
                "type": "choices",
                "value": {
                    "choices": [
                        "Trung tính"
                    ]
                },
                "to_name": "text",
                "from_name": "sentiment"
            },
            {
                "id": "Hoip8he_f6",
                "type": "choices",
                "value": {
                    "choices": [
                        "Đời sống",
                        "Xã hội",
                        "Hóng biến"
                    ]
                },
                "to_name": "text",
                "from_name": "topic"
            }
        ],
        "data": {
            "meta": {
                "uri": "https://toquoc.vn/cau-ca-nha-dai-nam-khoe-duoc-me-cho-di-choi-ngoi-trong-sieu-xe-rolls-royce-40-ty-ngam-co-ngoi-minh-se-thua-ke-trong-tuong-lai-222021299202526108.htm",
                "description": "(Tổ Quốc) - Được biết, siêu xe mà bà chủ Đại Nam lái chở cậu con trai quý tử đi chơi là chiếc Rolls-Royce Wraith thuộc thế hệ đầu tiên, giá thị trường trước đó khoảng 40 tỷ đồng"
            },
            "text": "\"Cậu cả\" nhà Đại Nam khoe được mẹ chở đi chơi, ngồi trong siêu xe Rolls-Royce 40 tỷ ngắm \"cơ ngơi\" mình sẽ thừa kế trong tương lai"
        }
    }

Quy trình dán nhãn

  • Bước 1: Đăng nhập.

DANeS redo 1 1

  • Bước 2: Dán nhãn.
    • Tiêu đề được phân loại sắc thái: tích cực, tiêu cực, trung tính.
    • Tiêu đề được phân loại vào các chủ đề liên quan trong 23 chủ đề: Thế giới, Chính trị, Kinh tế, Thể thao, Văn hoá, Giải trí, Công nghệ, Khoa học, Giáo dục, Đời sống, Pháp luật, Bất động sản, Xã hội, Giao thông, Môi trường, Chứng khoán, Covid-19, Hóng biến, Game, Phim ảnh, Sức khoẻ, Du lịch, Không xác định

DANeS redo 2

Quy trình kiểm soát chất lượng

  • Người kiểm tra chất lượng và kiểm tra chéo sẽ được quản lý hoặc chủ sở hữu dự án lựa chọn từ những CTV dựa trên chất lượng công việc và thái độ trong quá trình làm việc.
  • Quy trình kiểm soát chất lượng data gồm 2 bước: kiểm tra chéo và kiểm tra chất lượng
    • Mỗi người kiểm tra chéo sẽ được giao cho khoảng 20% số lượng bản ghi của người dán nhãn khác. => Nếu người kiểm tra chéo phát hiện được bản ghi không đạt chất lượng thì phải sửa lại để đạt đúng yêu cầu.
    • Người kiểm tra chất lượng, mặt khác, sẽ tiến hành check 20-50% tổng số lượng nhãn được gán của cả dự án. => Nếu người kiểm tra chất lượng phát hiện bản ghi được gán nhãn không đạt chất lượng thì có thể lựa chọn sửa lại hoặc chuyển lại cho người gán nhãn/người kiểm tra chéo gán nhãn lại.

Quy trình cập nhật

Bản quyền

Giấy phép Creative Commons
Phần dữ liệu được dán nhãn thuộc DANeS được cấp phép theo Giấy phép Creative Commons Ghi công 4.0 Quốc tế.

Với loại giấy phép này bạn có thể:

  • Sao chép, chỉnh sửa, phân phối và xây dựng sản phẩm của bạn dựa trên các dữ liệu đã công bố trong dự án này ở bất kì định dạng hoặc bất kỳ phương tiện nào.
  • Chỉnh sửa, biến đổi và xây dựng lại cho mọi mục đích, kể cả mục đích thương mại. Tuy nhiên bạn cần phải trích dẫn nguồn gốc của tài liệu này khi mà bạn sử dụng bất kỳ dữ liệu đã được dán nhãn và công bố trong bộ dữ liệu DANeS này.

Nếu bạn cần trích dẫn tới bộ dữ liệu của chúng tôi, xin hãy sử dụng:

<a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Giấy phép Creative Commons " style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/88x31.png" /></a><br />
Phần dữ liệu được dán nhãn thuộc <a xmlns:cc="http://creativecommons.org/ns#" href="https://github.com/dataset-vn/DANeS" property="cc:attributionName" rel="cc:attributionURL">DANeS</a> được cấp phép theo <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Giấy phép Creative Commons Ghi công 4.0 Quốc tế</a>.

Về chúng tôi

DATASET .JSC - (+84) 98 442 0826 - [email protected]

Sứ mệnh của DATASET là trở thành nền tảng dữ liệu "nguồn lực cộng đồng" tiên phong tại Việt Nam, hỗ trợ các cá nhân, tổ chức trong việc ứng dụng khoa học dữ liệu để giải quyết các bài toán của xã hội. Với nền tảng phần mềm mạnh mẽ và cộng đồng xử lý dữ liệu đông đảo, DATASET mong muốn đưa đến cho đối tác một giải pháp toàn diện và chất lượng, phù hợp với đặc thù của thị trường công nghệ Việt Nam và thế giới.

Website: Dataset.vn

LinkedIn: Dataset.vn - Data Crowdsourcing Platform

Facebook: Dataset.vn - Data Crowdsourcing Platform

AIV Group - (+84) 931 458 189 - [email protected]

AIV Group hướng đến việc ứng dụng những tiến bộ về công nghệ, đặc biệt là Trí tuệ nhân tạo (AI), Điện toán đám mây (Cloud Computing), Dữ liệu lớn (Big Data) để số hoá, hiện đại hoá các quy trình sản xuất và tiêu thụ thông tin đã tồn tại lâu đời trong xã hội Việt Nam, đồng thời góp phần giải quyết những vấn đề mới phát sinh trong lĩnh vực truyền thông do mặt trái của công nghệ như: vấn nạn tin giả, hình ảnh, video được cắt ghép tự động…

Website: AIV Group

Facebook: AIV Group

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].