All Projects → brown-uk → corpus

brown-uk / corpus

Licence: other
Браунський корпус української мови

Programming Languages

groovy
2714 projects
python
139335 projects - #7 most used programming language
Batchfile
5799 projects

Браунський корпус української мови

Завдання

Створити відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань. Корпус побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown.

Структура репозиторію

  • misc - допоміжні файли
  • data - фрагменти текстів, зібрані для корпусу
    • good - перевірені фрагменти, написані літературною українською мовою
    • so-so - перевірені фрагменти, що містять помилки
    • bad - перевірені фрагменти, що зовсім не відповідають вимогам (наприклад, усне мовлення)
    • unprocessed - фрагменти, що чекають на перевірку
  • doc - документація: вимоги до фрагментів та рішення щодо мовних питань
  • scripts - допоміжні скрипти: обчислення статистики та список доданих творів

Команда

  • Василь Старко
  • Андрій Рисін
  • Ольга Гавура
  • Наталія Чейлитко
  • Мар’яна Романишин
  • Настасія Осідач
  • Катерина Альошкіна
  • Катерина Бобровник
  • Христина Кулак
  • Оксана Кунікевич
  • Тетяна Матвєєва
  • Ірина Возна
  • Ян Бутельський

Ліцензія

Дані корпусу доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (http://creativecommons.org/licenses/by-nc-sa/4.0/)

Інші проекти

  • ВЕСУМ - Великий електронний словник української мови
  • LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови
  • lang-uk - проект, метою якого є покращення комп'ютерної обробки україномовних текстів
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].