All Projects → feryandi → Dataset Artikel

feryandi / Dataset Artikel

Licence: cc-by-sa-4.0
Repository ini berisikan kumpulan data mentah berupa artikel dari berbagai media online di Indonesia. (Raw dataset of Indonesian news articles)

Projects that are alternatives of or similar to Dataset Artikel

All About Programming
Everything about programming!!
Stars: ✭ 314 (+1107.69%)
Mutual labels:  article
Clean Mark
Convert an article into a clean text
Stars: ✭ 414 (+1492.31%)
Mutual labels:  article
Simorgh
The BBC's Open Source Single Page Application. Contributions welcome! Used on some of our biggest websites, e.g.
Stars: ✭ 550 (+2015.38%)
Mutual labels:  article
How To Stream Movies Using Nodejs
🎥 How to Stream Movies to a HTML 5 video tag using NodeJS
Stars: ✭ 336 (+1192.31%)
Mutual labels:  article
Kotlin Tutorials
【Kotlin 视频教程】国内资料较少,我录制了一套视频作为抛砖引玉~
Stars: ✭ 14 (-46.15%)
Mutual labels:  article
Html2article
Html网页正文提取
Stars: ✭ 441 (+1596.15%)
Mutual labels:  article
Weixin Spider
微信公众号爬虫,公众号历史文章,文章评论,文章阅读及在看数据,可视化web页面,可部署于Windows服务器。基于Python3之flask/mysql/redis/mitmproxy/pywin32等实现,高效微信爬虫,微信公众号爬虫,历史文章,文章评论,数据更新。
Stars: ✭ 287 (+1003.85%)
Mutual labels:  article
History Of Javascript
Project "History of JavaScript"
Stars: ✭ 819 (+3050%)
Mutual labels:  article
Php Goose
Readability / Html Content / Article Extractor & Web Scrapping library written in PHP
Stars: ✭ 392 (+1407.69%)
Mutual labels:  article
Es6 Articles
Blog Posts from Wes Bos. If you make an edit to one of these posts, my blog will automatically update.
Stars: ✭ 527 (+1926.92%)
Mutual labels:  article
Blog
刘博文(Berwin),花名“玖五”,畅销书《深入浅出Vue.js》作者、Speaker、阿里巴巴集团前端技术专家,天猫双11大促会场消防员、现负责包含天猫双11在内的超大型营销活动的终端渲染架构与专项PM。
Stars: ✭ 3,773 (+14411.54%)
Mutual labels:  article
Epub Press Clients
📦 Clients for building books with EpubPress.
Stars: ✭ 370 (+1323.08%)
Mutual labels:  article
Flingos
An educational operating system written in C#. A great stepping stone from high to low level development.
Stars: ✭ 451 (+1634.62%)
Mutual labels:  article
Flutter Widgets
This is a tutorial for all widgets in the flutter. It contain code, articles.
Stars: ✭ 315 (+1111.54%)
Mutual labels:  article
Articles Translator
📚Translate the distinct technical blogs. Please star or watch. Welcome to join me.
Stars: ✭ 606 (+2230.77%)
Mutual labels:  article
Ms17 010 Python
MS17-010: Python and Meterpreter
Stars: ✭ 305 (+1073.08%)
Mutual labels:  article
Go Clean Arch
Go (Golang) Clean Architecture based on Reading Uncle Bob's Clean Architecture
Stars: ✭ 5,128 (+19623.08%)
Mutual labels:  article
Rticles
LaTeX Journal Article Templates for R Markdown
Stars: ✭ 895 (+3342.31%)
Mutual labels:  article
Blog
blog of sivagao,每天一篇好文章~
Stars: ✭ 616 (+2269.23%)
Mutual labels:  article
Fullstack React
A simple, full-stack JavaScript single page app featuring React, Webpack, and Falcor
Stars: ✭ 503 (+1834.62%)
Mutual labels:  article

Dataset: Artikel

Proyek ini awalnya dilakukan untuk mempelajari infrastruktur Google Cloud Platform, sehingga masih banyak kekurangan dari segi data. Selain itu, terinspirasi juga dari proyek https://github.com/ParallelMazen/SaudiNewsNet yang mengumpulkan data serupa.

Proyek inisiatif untuk membuka akses kepada publik terhadap ribuan artikel berbahasa Indonesia dari berbagai sumber beserta metadata artikel tersebut. Artikel yang ada disini masih mentah (raw) dan tidak berlabel. Diharapkan akan mempermudah akses mendapatkan set mentah data artikel dari berbagai sumber untuk keperluan pembelajaran, penelitian, dan pengembangan kakas pemrosesan Bahasa Indonesia.

Akses data

Data dapat diakses pada Google Drive yang dapat diakses, diunduh, dan digunakan oleh publik. Dengan mengakses tautan tersebut, Anda telah setuju dengan Ketentuan Penggunaan Data.

Menuju Google Drive

Konten

Tipe Berkas

Pada Google Drive tersebut, terdapat dua folder yang bernamakan json dan html. Pada folder json, terdapat berkas-berkas yang berisikan artikel-artikel yang sudah melalui proses pembersihan sehingga hanya berisi konten. Pada folder html, terdapat berkas-berkas mentah berupa file html yang diambil langsung dari sumbernya.

Struktur Folder

Struktur folder akan mengikuti tanggal artikel tersebut dikeluarkan. Sturkturnya secara umum adalah sebagai berikut, {tipe}/{tahun}/{tanggal}/{hari}/{jam}/{timestamp}.{nama-media}.{hash-judul}.{tipe}

Contohnya json/2018/05/02/02/1525226400000.cnn-indonesia.fe5490cb31.json merujuk pada artikel CNN Indonesia yang ditayangkan pada tanggal 02 Mei 2018 pada pukul 2 pagi.

Statistik

Jumlah Artikel

Artikel diambil dari untuk rentang waktu 01 Januari 2018 hingga 20 Agustus 2018 untuk media-media berikut:

Media #
Detik 85,802
Kompas 60,902
Tempo 44,409
CNN Indonesia 24,965
Sindo 34,002
Republika 64,008
Poskota 17,747
Lainnya 2
Statistik Dataset

Dataset berisikan 109.192.608 token (dihitung menggunakan tokenizer NLTK, lowercase, angka dianggap unik, serta belum dibersihkan) dan 659.066 token unik. Peringkat 22 kata dengan kemunculan terbanyak adalah sebagai berikut, Statistik Kata

Grafik Kemunculan Kata

Kontak Pengelola

Jika Anda ingin menghubungi pengelola data ini silakan kontak menggunakan media berikut ini,

  • Email : feryandi [dot] n [at] gmail [dot] com

Ketentuan Penggunaan Data

  • Tidak ada batasan pada penggunaan, namun mohon gunakan secara bertanggungjawab.
  • Ikuti lisensi atau izin yang berlaku terhadap data ini (lihat: Izin Penggunaan)
  • Tidak ada pungutan biaya apapun dalam penggunaan, namun untuk mengelola data ini tetap diperlukan biaya. Jika Anda merasa terbantu, mohon lakukan donasi untuk proyek ini.

Izin Penggunaan

Creative Commons Attribution-ShareAlike 4.0 International License

[ Indonesia ]

Proyek ini dilisensikan dibawah lisensi Creative Commons Attribution-ShareAlike 4.0 International License. Kumpulan data yang dibagikan bertujuan untuk ilmu pengetahuan, pembelajaran, dan penelitian Bahasa Indonesia (komputasi maupun lingusitik), dan hanya dapat digunakan untuk hal tersebut. Kepemilikan data untuk setiap artikel dimiliki oleh media dan surat kabar yang bersangkutan dimana data tersebut diambil; dan pemilik repository ini tidak melakukan klaim kepemilikan atas konten tersebut. Jika Anda mendapati bahwa data ini telah melanggar suatu hak cipta; mohon kontak pengelola repository ini.

[ English ]

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. The dataset is shared for the sole purpose of aiding open scientific research in Bahasa Indonesia (computing or linguistics), and can only be used for that purpose. The ownership of each article within the dataset belongs to the respective newspaper from which it was extracted; and the maintainer of the repository does not claim ownership of any of the content within it. If you think, by any means, that this dataset breaches any established copyrights; please contact the repository maintainer.

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].