All Projects → PyThaiNLP → thaigov-corpus

PyThaiNLP / thaigov-corpus

Licence: other
โครงการเก็บรวบรวมข่าวสารจากเว็บไซต์รัฐบาลไทย

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to thaigov-corpus

vue-thailand-address
🇹🇭 Thai address input for Vue.
Stars: ✭ 44 (+131.58%)
Mutual labels:  thailand, thai
Awesome-Thai-Library
แหล่งรวม library ไทยๆ เกี่ยวกับ "ประเทศไทย" และ "ภาษาไทย" - Delightful Thai packages and resources
Stars: ✭ 37 (+94.74%)
Mutual labels:  thailand, thai
thai-language
computer tools for thai language
Stars: ✭ 20 (+5.26%)
Mutual labels:  corpus, thai-language
toSkoy
เเอปเเปลงพ๊ษ๊ไธญเป็นภ๊ษ๊สก๊อบ์ย (รุ่นใหฒ่ล่๊ษุฎ) (Plain English : One-way encryption algorithm for Thai language, which only Thai people could understand)
Stars: ✭ 52 (+173.68%)
Mutual labels:  thai-language, thai
vue-thailand-address-autocomplete
🇹🇭 Autocomplete ที่อยู่ในประเทศไทย
Stars: ✭ 49 (+157.89%)
Mutual labels:  thailand, thai
trafilatura
Python & command-line tool to gather text on the Web: web crawling/scraping, extraction of text, metadata, comments
Stars: ✭ 711 (+3642.11%)
Mutual labels:  corpus
gum
Repository for the Georgetown University Multilayer Corpus (GUM)
Stars: ✭ 71 (+273.68%)
Mutual labels:  corpus
Chatbot-Training-Corpus
总结了一些可以用作聊天机器人训练实作的文字语聊,包含中英文不同语言
Stars: ✭ 117 (+515.79%)
Mutual labels:  corpus
thai-date
Display date in Thai use same PHP date() and strftime() function attributes.
Stars: ✭ 14 (-26.32%)
Mutual labels:  thai
BSD
The Business Scene Dialogue corpus
Stars: ✭ 51 (+168.42%)
Mutual labels:  corpus
textbox
Text collections made available by the CLiGS group.
Stars: ✭ 19 (+0%)
Mutual labels:  corpus
nytwit
New York Times Word Innovation Types dataset
Stars: ✭ 21 (+10.53%)
Mutual labels:  corpus
howlonguntilprayuthleaves.com
นับเวลาถอยหลังถึงวันที่พลเอกประยุทธ์ จันทร์โอชา หมดวาระการเป็นนายกรัฐมนตรี
Stars: ✭ 29 (+52.63%)
Mutual labels:  thailand
guide-to-becoming
แหล่งรวบรวมข้อมูลสำหรับคนที่อยากจะพัฒนาตัวเองในด้านต่างๆจากผู้เริ่มต้นสู่ระดับเทพ
Stars: ✭ 23 (+21.05%)
Mutual labels:  thailand
torpleng
การต่อเพลงไทยที่ยาวที่สุดในประวัติศาสตร์
Stars: ✭ 39 (+105.26%)
Mutual labels:  thai
tvsub
TVsub: DCU-Tencent Chinese-English Dialogue Corpus
Stars: ✭ 40 (+110.53%)
Mutual labels:  corpus
ocr2text
Convert a PDF via OCR to a TXT file in UTF-8 encoding
Stars: ✭ 90 (+373.68%)
Mutual labels:  corpus
malay-dataset
Text corpus for Bahasa Malaysia, https://malaya.readthedocs.io/en/latest/Dataset.html
Stars: ✭ 189 (+894.74%)
Mutual labels:  corpus
thai-data
รวมข้อมูล ตำบล อำเภอ และ จังหวัด ในประเทศไทย (77 จังหวัด) อ้างอิงตาม รหัสไปรษณีย์ไทย โดยที่ไม่ใช้ Server side ได้รับแรงบันดาลใจจาก เราไม่ทิ้งกัน.com
Stars: ✭ 20 (+5.26%)
Mutual labels:  thailand
OpenConvert
Text conversion tool (from e.g. Word, HTML, txt) to corpus formats TEI or FoLiA)
Stars: ✭ 20 (+5.26%)
Mutual labels:  corpus

ThaiGov corpus

English

  • Data from Thai government website. https://www.thaigov.go.th
  • This part of PyThaiNLP Project.
  • Compiled by Mr.Wannaphong Phatthiyaphaibun
  • License Dataset is public domain.

Data format

  • 1 file, 1 news, which is extracted from 1 url.
topic
(Blank line)
content
content
content
content
content
(Blank line)
ที่มา (URL source) : http://www.thaigov.go.th/news/contents/details/NNN

Thai

  • เป็นข้อมูลที่รวบรวมข่าวสารจากเว็บไซต์รัฐบาลไทย https://www.thaigov.go.th
  • โครงการนี้เป็นส่วนหนึ่งในแผนพัฒนา PyThaiNLP
  • รวบรวมโดย นาย วรรณพงษ์ ภัททิยไพบูลย์
  • ข้อมูลที่รวบรวมในคลังข้อความนี้เป็นสาธารณสมบัติ (public domain) ตามพ.ร.บ.ลิขสิทธิ์ พ.ศ. 2537 มาตรา 7 (สิ่งต่อไปนี้ไม่ถือว่าเป็นงานอันมีลิขสิทธิ์ตามพระราชบัญญัตินี้ (1) ข่าวประจำวัน และข้อเท็จจริงต่างๆ ที่มีลักษณะเป็นเพียงข่าวสารอันมิใช่งานในแผนกวรรณคดี แผนกวิทยาศาสตร์ หรือแผนกศิลปะ [...] (3) ระเบียบ ข้อบังคับ ประกาศ คำสั่ง คำชี้แจง และหนังสือตอบโต้ของกระทรวง ทบวง กรม หรือหน่วยงานอื่นใดของรัฐหรือของท้องถิ่น [...])

สามารถติดตามประวัติการแก้ไขคลังข้อความนี้ได้ผ่านระบบ Git

จำนวนข่าว

  • วันเริ่มต้นโครงการ 14 ก.พ. 2561
  • รวบรวมครั้งล่าสุด 01.50 น. วันที่ 18 มีนาคม พ.ศ.2563

รูปแบบข้อมูล

  • 1 ไฟล์ 1 ข่าว ซึ่งดึงมาจาก 1 url
หัวเรื่อง
(บรรทัดว่าง)
เนื้อความ
เนื้อความ
เนื้อความ
เนื้อความ
เนื้อความ
(บรรทัดว่าง)
ที่มา : http://www.thaigov.go.th/news/contents/details/NNN

รายละเอียดชื่อไฟล์

  • ชื่อหมวดหมู่_จำนวนที่ของข่าว.txt
  • มีโฟลเดอร์ 1 - 24 (ไม่มีโฟลเดอร์ที่ 13)

Script

  • run.py สำหรับเก็บข้อมูลจากหน้าเว็บ โดยจะดึงหน้าเว็บจาก url http://www.thaigov.go.th/news/contents/details/NNN โดยที่ NNN คือเลขจำนวนเต็ม
    • เปลี่ยนค่าตัวแปร i ในไฟล์เป็นเลขที่ต้องการเริ่มเก็บ
  • clean.py สำหรับทำความสะอาดข้อมูลเบื้องต้น โดยจะลบช่องว่างหน้าและท้ายบรรทัด ลบบรรทัดว่าง
    • clean.py ชื่อไฟล์
    • clean.py ชื่อไฟล์1 ชื่อไฟล์2
    • clean.py *.txt

We build Thai NLP.

PyThaiNLP

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].