All Projects → undertheseanlp → word_tokenize

undertheseanlp / word_tokenize

Licence: other
Vietnamese Word Tokenize

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to word tokenize

UETsegmenter
A toolkit for Vietnamese word segmentation
Stars: ✭ 60 (+33.33%)
Mutual labels:  vietnamese, word-segmentation
Vietnamese-Accent-Prediction
A simple/fast/accurate accent prediction for non-accented Vietnamese text
Stars: ✭ 31 (-31.11%)
Mutual labels:  vietnamese, vietnamese-nlp
classification
Vietnamese Text Classification
Stars: ✭ 39 (-13.33%)
Mutual labels:  vietnamese, vietnamese-nlp
automatic speech recognition
Vietnamese Automatic Speech Recognition
Stars: ✭ 58 (+28.89%)
Mutual labels:  vietnamese, vietnamese-nlp
vietnamese-roberta
A Robustly Optimized BERT Pretraining Approach for Vietnamese
Stars: ✭ 22 (-51.11%)
Mutual labels:  vietnamese, vietnamese-nlp
google assistant vietnamese speaking
Đây là dự án độ lại loa thông minh chạy Google Assistant hỗ trợ đa ngôn ngữ trong đó có tiếng Việt, phần source code do Nguyễn Duy code lại từ Source Gốc của Google
Stars: ✭ 19 (-57.78%)
Mutual labels:  vietnamese
Userscript
Userscripts collection written by me
Stars: ✭ 92 (+104.44%)
Mutual labels:  vietnamese
JointIDSF
BERT-based joint intent detection and slot filling with intent-slot attention mechanism (INTERSPEECH 2021)
Stars: ✭ 55 (+22.22%)
Mutual labels:  vietnamese
esapp
An unsupervised Chinese word segmentation tool.
Stars: ✭ 13 (-71.11%)
Mutual labels:  word-segmentation
lstm-crf-tagging
No description or website provided.
Stars: ✭ 13 (-71.11%)
Mutual labels:  vietnamese
Monpa
MONPA 罔拍是一個提供正體中文斷詞、詞性標註以及命名實體辨識的多任務模型
Stars: ✭ 203 (+351.11%)
Mutual labels:  word-segmentation
tudien
Từ điển tiếng Việt dành cho Kindle
Stars: ✭ 38 (-15.56%)
Mutual labels:  vietnamese
community
Ông Dev Community
Stars: ✭ 64 (+42.22%)
Mutual labels:  vietnamese
vietnamese word seperate
Seperate vietnamese using lstm
Stars: ✭ 13 (-71.11%)
Mutual labels:  vietnamese
SpeakIt Vietnamese TTS
Vietnamese Text-to-Speech on Windows Project (zalo-speech)
Stars: ✭ 81 (+80%)
Mutual labels:  vietnamese
vietnamese-password-dicts
Tổng hợp danh sách mật khẩu wifi tiếng Việt sử dụng cho aircrack-ng
Stars: ✭ 40 (-11.11%)
Mutual labels:  vietnamese
vietTTS
Vietnamese Text to Speech library
Stars: ✭ 78 (+73.33%)
Mutual labels:  vietnamese
VietSentiWordNet
[VietSentiWordNet] A quick and simple method to find Opinion for Vietnamese text.
Stars: ✭ 26 (-42.22%)
Mutual labels:  vietnamese-nlp
SynThai
Thai Word Segmentation and Part-of-Speech Tagging with Deep Learning
Stars: ✭ 41 (-8.89%)
Mutual labels:  word-segmentation
TALPCo
TUFS Asian Language Parallel Corpus
Stars: ✭ 32 (-28.89%)
Mutual labels:  vietnamese

Tách từ tiếng Việt

Dự án nghiên cứu về bài toán tách từ tiếng Việt, được phát triển bởi nhóm nghiên cứu xử lý ngôn ngữ tự nhiên tiếng Việt - underthesea. Chứa mã nguồn các thử nghiệm cho việc xử lý dữ liệu, huấn luyện và đánh giá mô hình, cũng như cho phép dễ dàng tùy chỉnh mô hình đối với những tập dữ liệu mới.

Nhóm tác giả

Tham gia đóng góp

Mọi ý kiến đóng góp hoặc yêu cầu trợ giúp xin gửi vào mục Issues của dự án. Các thảo luận được khuyến khích sử dụng tiếng Việt để dễ dàng trong quá trình trao đổi.

Nếu bạn có kinh nghiệm trong bài toán này, muốn tham gia vào nhóm phát triển với vai trò là Developer, xin hãy đọc kỹ Hướng dẫn tham gia đóng góp.

Mục lục

Yêu cầu hệ thống

  • Hệ điều hành: Linux (Ubuntu, CentOS), Mac
  • Python 3.6
  • Anaconda
  • languageflow==1.1.7

Thiết lập môi trường

Tải project bằng cách sử dụng lệnh git clone

$ https://github.com/undertheseanlp/word_tokenize

Tạo môi trường mới và cài đặt các gói liên quan

$ cd word_tokenize
$ conda create -n word_tokenize python=3.6
$ pip install -r requirements.txt

Hướng dẫn sử dụng

Trước khi chạy các thử nghiệm, hãy chắc chắn bạn đã activate môi trường word_tokenize, mọi câu lệnh đều được chạy trong thư mục gốc của dự án.

$ cd word_tokenize
$ source activate word_tokenize

Sử dụng mô hình đã huấn luyện sẵn

$ python word_tokenize.py --text "Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò"
$ python word_tokenize.py --fin tmp/input.txt --fout tmp/output.txt

Huấn luyện mô hình

Huấn luyện mô hình mới

$ python util/preprocess_vlsp2013.py
$ python train.py \
    --train tmp/vlsp2013/train.txt \
    --model tmp/model.bin

Kiểm tra mô hình vừa huấn luyện

$ python word_tokenize.py \
    --fin tmp/input.txt --fout tmp/output.txt \
    --model tmp/model.bin

Kết quả thử nghiệm

Mô hình F1 (%) Thời gian train
CRF + full features 97.65

Trích dẫn

Vui lòng trích dẫn thông tin về dự án nếu bạn sử dụng mã nguồn này

@online{undertheseanlp/word_tokenize,
author ={Vu Anh, Bui Nhat Anh, Doan Viet Dung},
year = {2018},
title ={Xây dựng hệ thống tách từ tiếng Việt},
url ={https://github.com/undertheseanlp/word_tokenize}
}

Bản quyền

Mã nguồn của dự án được phân phối theo giấy phép GPL-3.0.

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].