All Projects → damzaky → sastrawijs

damzaky / sastrawijs

Licence: MIT license
Indonesian language stemmer. Javascript port of PHP Sastrawi project.

Programming Languages

javascript
184084 projects - #8 most used programming language

Projects that are alternatives of or similar to sastrawijs

awesome.id
😎 🇮🇩 Awesome Indonesia: Daftar produk, proyek, acara dan sumber daya lainnya yang dibuat oleh developer dan founder dari Indonesia.
Stars: ✭ 189 (+530%)
Mutual labels:  indonesia
CPP
Repositori untuk belajar pemrograman C++ dalam bahasa Indonesia
Stars: ✭ 27 (-10%)
Mutual labels:  indonesia
Nusantara
Nusantara adalah Script untuk mengambil data terbaru daerah di Indoensia mulai dari Propinsi hingga Desa/Kelurahan
Stars: ✭ 23 (-23.33%)
Mutual labels:  indonesia
flarum-ext-indonesian
Indonesian Language Pack for Flarum
Stars: ✭ 13 (-56.67%)
Mutual labels:  indonesia
Dart
Repositori untuk belajar pemrograman Dart dalam bahasa Indonesia
Stars: ✭ 22 (-26.67%)
Mutual labels:  indonesia
react-native-confetti
React Native component to show confetti
Stars: ✭ 46 (+53.33%)
Mutual labels:  indonesia
bellshade-website
Repositori untuk web organisasi bellshade
Stars: ✭ 56 (+86.67%)
Mutual labels:  indonesia
NontonTV
Aplikasi android untuk menonton tv streaming. Cocok untuk android box/stb.
Stars: ✭ 42 (+40%)
Mutual labels:  indonesia
reinforcement-learning-resources
A curated list of awesome reinforcement courses, video lectures, books, library and many more.
Stars: ✭ 38 (+26.67%)
Mutual labels:  indonesia
terbilang
Sebuah pustaka untuk menterjemahkan angka ke dalam bilangan Bahasa Indonesia
Stars: ✭ 46 (+53.33%)
Mutual labels:  indonesia
gramatika.app
Website of Gramatika check spelling and typo tools in Bahasa Indonesia
Stars: ✭ 72 (+140%)
Mutual labels:  indonesia
Python
Repositori untuk belajar pemrograman Python dalam bahasa Indonesia
Stars: ✭ 79 (+163.33%)
Mutual labels:  indonesia
deep-learning-resources
A curated list of deep learning resources books, courses, papers, libraries, conferences, sample code, and many more.
Stars: ✭ 101 (+236.67%)
Mutual labels:  indonesia
bot-line-indonesian-summarizer
Tugas NLP UB Filkom 2017
Stars: ✭ 20 (-33.33%)
Mutual labels:  indonesia
batamlawancorona api
Unofficial API of Batam Lawan Corona. Documentation and sample of use can be found at http://batamlawancoronaapi.herokuapp.com/docs/
Stars: ✭ 22 (-26.67%)
Mutual labels:  indonesia
kodepos
📮 Indonesian postal code search API by place name, village or city.
Stars: ✭ 32 (+6.67%)
Mutual labels:  indonesia
kulgram
Kulgram Laravel Indonesia.
Stars: ✭ 36 (+20%)
Mutual labels:  indonesia
Java
Repositori untuk belajar pemrograman Java dalam bahasa Indonesia
Stars: ✭ 45 (+50%)
Mutual labels:  indonesia
belajar-ngoding-bhs-indo
Sebuah "awesome list" daftar bahan belajar pemrograman (dan hal-hal terkait) dalam bahasa Indonesia.
Stars: ✭ 35 (+16.67%)
Mutual labels:  bahasa-indonesia
HTML-CSS
Repositori untuk belajar pemrograman web menggunakan HTML dan CSS dalam bahasa Indonesia
Stars: ✭ 146 (+386.67%)
Mutual labels:  indonesia

SastrawiJs

Node version Build Status

SastrawiJs is a javascript package for doing stemming in Indonesian language. It is based from Sastrawi for PHP by Andy Librian. For more information in english, see README.

SastrawiJs adalah package javascript untuk melakukan stemming pada bahasa Indonesia. Dikembangkan dari Sastrawi untuk PHP yang dibuat oleh Andy Librian.

Stemming

Dari Wikipedia, stemming adalah proses untuk mengubah kata berimbuhan menjadi kata dasar. Contohnya :

  • menahan => tahan
  • pewarna => warna

Instalasi

Untuk browser/client javascript

<script src="stemmer.js"></script>
<script src="tokenizer.js"></script>

Untuk node.js

npm install sastrawijs

Lalu di dalam file

var sastrawi = require("sastrawijs");

Contoh Penggunaan

Web/client

var sentence =
  "Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan";
var stemmed = [];
var stemmer = new Stemmer();
var tokenizer = new Tokenizer();
words = tokenizer.tokenize(sentence);
for (word of words) {
  stemmed.push(stemmer.stem(word));
}
console.log(stemmed);

Node

var sentence =
  "Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan";
var stemmed = [];
var stemmer = new sastrawi.Stemmer();
var tokenizer = new sastrawi.Tokenizer();
words = tokenizer.tokenize(sentence);
for (word of words) {
  stemmed.push(stemmer.stem(word));
}
console.log(stemmed);

Selain menggunakan kamus kata dasar default, user juga dapat membuat kamus kata dasar sendiri.

var custom = ["hancur", "benar", "apa", "siapa", "jubah",
    "baju", "beli", "celana", "hantu", "jual", "buku", "milik", "kulit",
    "sakit", "kasih", "buang", "suap", "nilai", "beri", "rambut", "adu",
    "suara", "daerah", "ajar", "kerja", "ternak", "asing", "raup", "gerak",
    "puruk", "terbang", "lipat", "ringkas", "warna", "yakin", "bangun",
    "fitnah", "vonis", "baru", "ajar", "tangkap", "kupas", "minum", "pukul",
    "cinta", "dua", "jauh", "ziarah", "nuklir", "gila", "hajar", "qasar",
    "udara", "populer", "warna", "yoga", "adil", "rumah", "muka", "labuh",
    "tarung", "tebar", "indah", "daya", "untung", "sepuluh", "ekonomi",
    "makmur", "telah", "serta", "percaya", "pengaruh", "kritik", "seko",
    "sekolah", "tahan", "capa", "capai", "mula", "mulai", "petan", "tani",
    "aba", "abai", "balas", "balik", "peran", "medan", "syukur", "syarat",
    "bom", "promosi", "proteksi", "prediksi", "kaji", "sembunyi", "langgan",
    "laku", "baik", "terang", "iman", "bisik", "taat", "puas", "makan",
    "nyala", "nyanyi", "nyata", "nyawa", "rata", "lembut", "ligas",
    "budaya", "karya", "ideal", "final", "taat", "tiru", "sepak", "kuasa",
    "malaikat", "nikmat", "lewat", "nganga", "allah"];
var stemmer = new Stemmer(custom);

Pustaka

Algoritma

  1. Algoritma Nazief dan Adriani
  2. Asian J. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. (PDF dan Amazon)
  3. Arifin, A.Z., I.P.A.K. Mahendra dan H.T. Ciptaningtyas. 2009. Enhanced Confix Stripping Stemmer and Ants Algorithm for Classifying News Document in Indonesian Language, Proceeding of International Conference on Information & Communication Technology and Systems (ICTS). (PDF)
  4. A. D. Tahitoe, D. Purwitasari. 2010. Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia dengan Metode Corpus Based Stemming, Institut Teknologi Sepuluh Nopember (ITS) – Surabaya, 60111, Indonesia. (PDF)
  5. Tambahan aturan stemming dari kontributor Sastrawi.

Kamus Kata Dasar

Proses stemming oleh Sastrawi sangat bergantung pada kamus kata dasar. Sastrawi menggunakan kamus kata dasar dari kateglo.com dengan sedikit perubahan.

Lisensi

Sebagaimana Sastrawi untuk PHP, SastrawiJs juga disebarkan dengan lisensi MIT. Untuk lisensi kamus kata dasar dari Kateglo adalah CC-BY-NC-SA 3.0.

Di Bahasa Pemrograman Lain

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].