All Projects → swanhtet1992 → ReSegment

swanhtet1992 / ReSegment

Licence: other
Burmese (Myanmar) syllable level segmentation with regex.

Programming Languages

java
68154 projects - #9 most used programming language
swift
15916 projects
HTML
75241 projects
ruby
36898 projects - #4 most used programming language
python
139335 projects - #7 most used programming language
javascript
184084 projects - #8 most used programming language

Projects that are alternatives of or similar to ReSegment

Focal Tversky Unet
This repo contains the code for our paper "A novel focal Tversky loss function and improved Attention U-Net for lesion segmentation" accepted at IEEE ISBI 2019.
Stars: ✭ 247 (+929.17%)
Mutual labels:  segmentation
Shadowless
A Fast and Open Source Autonomous Perception System.
Stars: ✭ 29 (+20.83%)
Mutual labels:  segmentation
argus-tgs-salt
Kaggle | 14th place solution for TGS Salt Identification Challenge
Stars: ✭ 73 (+204.17%)
Mutual labels:  segmentation
Awesome Tensorlayer
A curated list of dedicated resources and applications
Stars: ✭ 248 (+933.33%)
Mutual labels:  segmentation
subpixel-embedding-segmentation
PyTorch Implementation of Small Lesion Segmentation in Brain MRIs with Subpixel Embedding (ORAL, MICCAIW 2021)
Stars: ✭ 22 (-8.33%)
Mutual labels:  segmentation
DocuNet
Code and dataset for the IJCAI 2021 paper "Document-level Relation Extraction as Semantic Segmentation".
Stars: ✭ 84 (+250%)
Mutual labels:  segmentation
Cellpose
a generalist algorithm for cellular segmentation
Stars: ✭ 244 (+916.67%)
Mutual labels:  segmentation
SegCaps
A Clone version from Original SegCaps source code with enhancements on MS COCO dataset.
Stars: ✭ 62 (+158.33%)
Mutual labels:  segmentation
GIBBON
The Geometry and Image-Based Bioengineering add-On for MATLAB
Stars: ✭ 132 (+450%)
Mutual labels:  segmentation
MITK-Diffusion
MITK Diffusion - Official part of the Medical Imaging Interaction Toolkit
Stars: ✭ 47 (+95.83%)
Mutual labels:  segmentation
Pointrend Pytorch
A PyTorch implementation of PointRend: Image Segmentation as Rendering
Stars: ✭ 249 (+937.5%)
Mutual labels:  segmentation
Ffn
Flood-Filling Networks for instance segmentation in 3d volumes.
Stars: ✭ 252 (+950%)
Mutual labels:  segmentation
point-cloud-segmentation
TF2 implementation of PointNet for segmenting point clouds
Stars: ✭ 33 (+37.5%)
Mutual labels:  segmentation
Sinet
Camouflaged Object Detection, CVPR 2020 (Oral & Reported by the New Scientist Magazine)
Stars: ✭ 246 (+925%)
Mutual labels:  segmentation
blindassist-ios
BlindAssist iOS app
Stars: ✭ 34 (+41.67%)
Mutual labels:  segmentation
Awesome Carla
👉 CARLA resources such as tutorial, blog, code and etc https://github.com/carla-simulator/carla
Stars: ✭ 246 (+925%)
Mutual labels:  segmentation
dd-ml-segmentation-benchmark
DroneDeploy Machine Learning Segmentation Benchmark
Stars: ✭ 179 (+645.83%)
Mutual labels:  segmentation
android tflite
GPU Accelerated TensorFlow Lite applications on Android NDK. Higher accuracy face detection, Age and gender estimation, Human pose estimation, Artistic style transfer
Stars: ✭ 105 (+337.5%)
Mutual labels:  segmentation
segm-lstm
[deprecated] reference code for string segmentation using LSTM(tensorflow)
Stars: ✭ 19 (-20.83%)
Mutual labels:  segmentation
BCNet
Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers [CVPR 2021]
Stars: ✭ 434 (+1708.33%)
Mutual labels:  segmentation

ReSegment

This is Burmese syllable level segmentation by using the power of regex. The original regex is based on sylbreak by Ko Ye Kyaw Thu.

After testing with various news articles, these are the additional improvements:

  • Added support for numbers. (၁၀၀ကျပ် will be segmented into ['၁၀၀', 'ကျပ်'])
  • Added support for words with special killers. This scenario can be see mostly in English names like ဘတ်ဇ်ခရောရှ့်ဂတ် -> ['ဘတ်ဇ်', 'ခ', 'ရောရှ့်', 'ဂတ်'] and ဂျော့ချ်ဘုရှ် -> ['ဂျော့ချ်', 'ဘုရှ်'].
  • Added support for updated tone mark and killer rule. (သ + င + ့ + ် or သ + င + ် + ့ will be able to segment correctly into ['သင့်'])

TEST

Text: ဝန်ကြီးချုပ်ဦးဖြိုးမင်းသိန်း ခွင့်ထပ်တိုင် ရန်ကုန်တိုင်းလွှတ်တော်မှာ YBS စနစ်ပြုပြင်ပြောင်းလဲဖို့ တင်သွင်းတဲ့အဆိုအတည်ပြုဖို့၊ မပြုဖို့ ဆုံးဖြတ်မယ့်မနက်ဖြန်လွှတ်တော်အစည်းအဝေးကိုလည်း ဝန်ကြီးချုပ်ဦးဖြိုးမင်းသိန်းက ခွင့်ထပ်တိုင်ခဲ့ကြောင်းသိရပါတယ်

Result: ['ဝန်', 'ကြီး', 'ချုပ်', 'ဦး', 'ဖြိုး', 'မင်း', 'သိန်း', ' ', 'ခွင့်', 'ထပ်', 'တိုင်', ' ', 'ရန်', 'ကုန်', 'တိုင်း', 'လွှတ်', 'တော်', 'မှာ', ' YBS ', 'စ', 'နစ်', 'ပြု', 'ပြင်', 'ပြောင်း', 'လဲ', 'ဖို့', ' ', 'တင်', 'သွင်း', 'တဲ့', 'အ', 'ဆို', 'အ', 'တည်', 'ပြု', 'ဖို့', '၊', ' ', 'မ', 'ပြု', 'ဖို့', ' ', 'ဆုံး', 'ဖြတ်', 'မယ့်', 'မ', 'နက်', 'ဖြန်', 'လွှတ်', 'တော်', 'အ', 'စည်း', 'အ', 'ဝေး', 'ကို', 'လည်း', ' ', 'ဝန်', 'ကြီး', 'ချုပ်', 'ဦး', 'ဖြိုး', 'မင်း', 'သိန်း', 'က', ' ', 'ခွင့်', 'ထပ်', 'တိုင်', 'ခဲ့', 'ကြောင်း', 'သိ', 'ရ', 'ပါ', 'တယ်']


Text: စီအိုင်အေက နှိပ်စက်စစ်ဆေးမှု တွေလုပ်ခဲ့ အမေရိကန်-ဗဟိုထောက်လှမ်းရေး ဌာန CIA ဟာ သမ္မတဟောင်း ဂျော့ချ်ဘုရှ် လက်ထက် စက်တင်ဘာ ၁၁ ရက် တိုက်ခိုက်ခံရမှု နောက်ပိုင်း စစ်ဆေးမှုတွေလုပ်ရာမှာ နှိပ်စက်ညှင်းပန်းမှုတွေ ကျူးလွန်ခဲ့ဖူးတယ်လို့ စီအိုင်အေရဲ့ အကြီးအကဲဟောင်း ဘတ်ဇ်ခရောရှ့်ဂတ်က ဘီဘီစီကို ပြောခဲ့ပါတယ်။

Result: ['စီ', 'အိုင်', 'အေ', 'က', ' ', 'နှိပ်', 'စက်', 'စစ်', 'ဆေး', 'မှု', ' ', 'တွေ', 'လုပ်', 'ခဲ့', ' ', 'အ', 'မေ', 'ရိ', 'ကန်', '-', 'ဗ', 'ဟို', 'ထောက်', 'လှမ်း', 'ရေး', ' ', 'ဌာ', 'န', ' CIA ', 'ဟာ', ' ', 'သမ္မ', 'တ', 'ဟောင်း', ' ', 'ဂျော့ချ်', 'ဘုရှ်', ' ', 'လက်', 'ထက်', ' ', 'စက်', 'တင်', 'ဘာ', ' ', '၁၁', ' ', 'ရက်', ' ', 'တိုက်', 'ခိုက်', 'ခံ', 'ရ', 'မှု', ' ', 'နောက်', 'ပိုင်း', ' ', 'စစ်', 'ဆေး', 'မှု', 'တွေ', 'လုပ်', 'ရာ', 'မှာ', ' ', 'နှိပ်', 'စက်', 'ညှင်း', 'ပန်း', 'မှု', 'တွေ', ' ', 'ကျူး', 'လွန်', 'ခဲ့', 'ဖူး', 'တယ်', 'လို့', ' ', 'စီ', 'အိုင်', 'အေ', 'ရဲ့', ' ', 'အ', 'ကြီး', 'အ', 'ကဲ', 'ဟောင်း', ' ', 'ဘတ်ဇ်', 'ခ', 'ရောရှ့်', 'ဂတ်', 'က', ' ', 'ဘီ', 'ဘီ', 'စီ', 'ကို', ' ', 'ပြော', 'ခဲ့', 'ပါ', 'တယ်', '။']


Text: တောင်ကိုရီးယား အခြေစိုက် Posco Daewoo နှင့် သြစတြေးလျအခြေစိုက် Woodside တို့ အကျိုးတူ ပူးပေါင်းဆောင်ရွက်နေသည့် ရခိုင်ကမ်းလွန်ရှိ AD-7

Result: ['တောင်', 'ကို', 'ရီး', 'ယား', ' ', 'အ', 'ခြေ', 'စိုက်', ' Posco Daewoo ', 'နှင့်', ' ', 'သြ', 'စ', 'တြေး', 'လျ', 'အ', 'ခြေ', 'စိုက်', ' Woodside ', 'တို့', ' ', 'အ', 'ကျိုး', 'တူ', ' ', 'ပူး', 'ပေါင်း', 'ဆောင်', 'ရွက်', 'နေ', 'သည့်', ' ', 'ရ', 'ခိုင်', 'ကမ်း', 'လွန်', 'ရှိ', 'AD-7']


Text: ၂၀၁၈ခုနှစ်အာရှအားကစားပြိုင်ပွဲတွင် အားကစားနည်းအရေအတွက် တိုးမြင့်လာခဲ့

Result: ['၂၀၁၈', 'ခု', 'နှစ်', 'အာ', 'ရှ', 'အား', 'က', 'စား', 'ပြိုင်', 'ပွဲ', 'တွင်', ' ', 'အား', 'က', 'စား', 'နည်း', 'အ', 'ရေ', 'အ', 'တွက်', ' ', 'တိုး', 'မြင့်', 'လာ', 'ခဲ့']


Text: ပိဿာချိန်၁၀သားရှိသောကြက်သားများချက်ပြုတ်ကျွေးမွေးလှူဒါန်းသွားသည့်အတွက်ကျေးဇူးတင်ပါသည်။

Result: ['ပိ', 'ဿာ', 'ချိန်', '၁၀', 'သား', 'ရှိ', 'သော', 'ကြက်', 'သား', 'များ', 'ချက်', 'ပြုတ်', 'ကျွေး', 'မွေး', 'လှူ', 'ဒါန်း', 'သွား', 'သည့်', 'အ', 'တွက်', 'ကျေး', 'ဇူး', 'တင်', 'ပါ', 'သည်', '။']

NOTE

This is just a simple proof of concept repo. Although I have tested the regex with various news articles, errors may still exist. Therefore, the code is provided “AS IS” without any warranty of any kind.

Contributors

Java and Javascript versions are contributed by chanmratekoko so that you don't have to convert the regex on your own. 🤠

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].