All Projects → brown-uk → Dict_uk

brown-uk / Dict_uk

Licence: gpl-3.0
Project to generate POS tag dictionary for Ukrainian language

Programming Languages

groovy
2714 projects

Projects that are alternatives of or similar to Dict uk

Emoji Ime Dictionary
日本語で絵文字入力をするための IME 追加辞書 📙 Google 日本語入力などで日本語から絵文字への変換を可能にする IME 拡張辞書です
Stars: ✭ 172 (-54.01%)
Mutual labels:  dictionaries
SoftUni-Software-Engineering
SoftUni- Software Engineering
Stars: ✭ 47 (-87.43%)
Mutual labels:  dictionaries
MyGoldenDict
My personal goldendict-dictionaries collection
Stars: ✭ 13 (-96.52%)
Mutual labels:  dictionaries
Nspell
📝 Hunspell compatible spell-checker
Stars: ✭ 195 (-47.86%)
Mutual labels:  dictionaries
UnPack.jl
`@pack!` and `@unpack` macros
Stars: ✭ 74 (-80.21%)
Mutual labels:  dictionaries
laravel-profane
Profanity Validator for Laravel
Stars: ✭ 79 (-78.88%)
Mutual labels:  dictionaries
Sdcv
Stars: ✭ 171 (-54.28%)
Mutual labels:  dictionaries
Fd Dictionaries
hand-written dictionaries from the FreeDict project
Stars: ✭ 268 (-28.34%)
Mutual labels:  dictionaries
Giotto
Theme manager for your app: apply styles to anything you want through a plist file
Stars: ✭ 18 (-95.19%)
Mutual labels:  dictionaries
immersive
Language learning mpv script for looking up words within mpv and generating Anki cards
Stars: ✭ 43 (-88.5%)
Mutual labels:  dictionaries
Dirstalk
Modern alternative to dirbuster/dirb
Stars: ✭ 210 (-43.85%)
Mutual labels:  dictionaries
Paroleitaliane
Liste di parole italiane
Stars: ✭ 227 (-39.3%)
Mutual labels:  dictionaries
Splain
small parser to create more interesting language/sentences
Stars: ✭ 15 (-95.99%)
Mutual labels:  dictionaries
Xdxf makedict
XDXF — a dictionary format, that stores word definitions that are free from representation
Stars: ✭ 177 (-52.67%)
Mutual labels:  dictionaries
awesome-hokchew
A curated list of resources about the Hokchew / Foochow language. 閩東語福州話的資源整合列表。
Stars: ✭ 16 (-95.72%)
Mutual labels:  dictionaries
Addict
The Python Dict that's better than heroin.
Stars: ✭ 2,141 (+472.46%)
Mutual labels:  dictionaries
unitex-lingua
Unitex/GramLab Language Resources
Stars: ✭ 17 (-95.45%)
Mutual labels:  dictionaries
Dotmap
Dot access dictionary with dynamic hierarchy creation and ordered iteration
Stars: ✭ 273 (-27.01%)
Mutual labels:  dictionaries
DawgSharp
DAWG String Dictionary in C#
Stars: ✭ 72 (-80.75%)
Mutual labels:  dictionaries
mdict
node.js mdict (*.mdx, *.mdd) file reader
Stars: ✭ 39 (-89.57%)
Mutual labels:  dictionaries

Це — великий електронний словник української мови (ВЕСУМ).

This is a project to generate POS tag dictionary for Ukrainian language.

Опис

Словник містить слова та їхні парадигми з відповідними тегами, а також іншу інформацію,
зокрема:
* додаткові теги: slang, rare, bad...
* пропоновані заміни для покручів
* зв’язок між базовими та порівняльними формами прикметників
* керування відмінками для прикметників

Для всіх файлів в data/dict цей проект генерує всі можливі словоформи з тегами частин мови
за допомогою правил афіксів у каталозі data/affix.

Докладніша інформація в теці doc/

Вимоги до програмних засобів

  • java (JDK >= 8)
  • 5Гб вільної пам'яті

Застосування

зі словником можна робити дві речі:
  1. згенерувати всі можливі словоформи для слів, що вже є в словнику (див. параграф «Як запускати» нижче)
  2. генерувати форми для довільних слів в інтерактивному режимі: докладніше

Як встановити

  • Встановити java (JDK 8 або новішу)
  • (Лише для Windows) встановити і запустити git bash
  • Клонувати проект: git clone https://github.com/brown-uk/dict_uk.git
  • Зайти в теку проекту: cd dict_uk

Як запускати

`./gradlew expand`

або для Windows:

`bin/expand_win.sh`

На виході:
  • out/dict_corp_vis.txt - словник у візуальному форматі (з відступами, згрупований за лемами) для перегляду, аналізу і опрацьовування
  • out/dict_corp_lt.txt - словник у табличному форматі для використання в ПЗ, зокрема з цього файлу генеруємо словник morfologik, що використовується в LanguageTool
  • out/words.txt - список всіх відомих словоформ
  • out/words_spell.txt - список всіх відомих словоформ, правильних з погляду правопису
  • out/lemmas.txt - список лем

Ліцензія

Дані словника доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (https://creativecommons.org/licenses/by-nc-sa/4.0/)

Програмні засоби вільно розповсюджується за умов ліцензії GPL версії 3.

Зауваження: похідні проекти мають свої ліцензії

Окрім цього матеріали цього проєкту дозволено використовувати у проєктах https://voice.mozilla.org/uk і https://common-voice.github.io/sentence-collector/#/ відповідно до їх ліцензій.

Copyright (c) 2020 Андрій Рисін ([email protected]), Василь Старко, команда БрУК

Похідні проекти

Description

For all files in data/dict the project generates all possible word forms with POS tags
by using affix rules from files in data/affix.

Required software

  • java (JDK >= 8)
  • 5G of free RAM

How to run

`./gradlew expand`

or on Windows:

`bin/expand_win.sh`

Output:
  • out/dict_corp_vis.txt - Dictionary in visual (indented) format for review, analysis or conversion
  • out/dict_corp_lt.txt - Dictionary in flat format (is used for preparing morfologik dictionary that can be used by LanguageTool)
  • out/words.txt - list of all unique known words
  • out/words_spell.txt - words valid for spelling
  • out/lemmas.txt - list of unique lemmas

Building under docker

sudo docker build -t brown-uk/dict_uk .
sudo docker run -d --name dict_uk brown-uk/dict_uk /bin/bash
sudo docker cp dict_uk:/src/out/ ./out
sudo chown -R $USER: ./out
sudo docker stop dict_uk

License

Dictionary data are distributed under "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (https://creativecommons.org/licenses/by-nc-sa/4.0/)

Software is distributed under GPLv3.

Note: derivative projects have different licenses

Besides that materials in this project are allowed to be used in https://voice.mozilla.org/uk and https://common-voice.github.io/sentence-collector/#/ according to their licenses.

Copyright (c) 2021 Andriy Rysin ([email protected]), Vasyl Starko, BrUK team

Просимо посилатися на ресурс так:

Рисін А., Старко В. Великий електронний словник української мови (ВЕСУМ). 2005-2021. URL: https://github.com/brown-uk/dict_uk

Rysin, A., Starko, V. Large Electronic Dictionary of Ukrainian (VESUM). 2005-2021. Available at: https://github.com/brown-uk/dict_uk

Derivative Projects

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].