All Projects → EticaAI → linguistic-datasets-portuguese

EticaAI / linguistic-datasets-portuguese

Licence: Unlicense license
Linguistic Datasets for Portuguese: Lista de conjuntos de dados linguísticos para língua portuguesa com licença flexíveis: banco de dados, lista de palavras, sinônimos, antônimos, dicionário temático, tesauro, linked data, semântica, ontologia e representação de conhecimento

Projects that are alternatives of or similar to linguistic-datasets-portuguese

poet-assistant
Android app with rhyming dictionary, thesaurus, and dictionary, with text-to-speech functionality to read your poem.
Stars: ✭ 64 (+39.13%)
Mutual labels:  dictionary, thesaurus
You Dont Know Js
📗📒 (PT-Br translation) JS Book Series.
Stars: ✭ 3,683 (+7906.52%)
Mutual labels:  portugues, portuguese
uoj-potigol
Soluções dos problemas do Beecrowd usando a linguagem Potigol
Stars: ✭ 45 (-2.17%)
Mutual labels:  portugues, portuguese
TextFeatureSelection
Python library for feature selection for text features. It has filter method, genetic algorithm and TextFeatureSelectionEnsemble for improving text classification models. Helps improve your machine learning models
Stars: ✭ 42 (-8.7%)
Mutual labels:  natural-language, nlp-resources
mw-thesaurus.el
Merriam-Webster Thesaurus in Emacs
Stars: ✭ 84 (+82.61%)
Mutual labels:  dictionary, thesaurus
alfred-powerthesaurus
Search Powerthesaurus synonyms and antonyms from Alfred
Stars: ✭ 81 (+76.09%)
Mutual labels:  dictionary, thesaurus
word2vec-pt-br
Implementação e modelo gerado com o treinamento (trigram) da wikipedia em pt-br
Stars: ✭ 34 (-26.09%)
Mutual labels:  portugues, portuguese
NLP-Natural-Language-Processing
Projects and useful articles / links
Stars: ✭ 149 (+223.91%)
Mutual labels:  natural-language, nlp-resources
leximaven
A command line tool for searching word-related APIs.
Stars: ✭ 20 (-56.52%)
Mutual labels:  dictionary, thesaurus
waylan android
A dictionary concept for Android ~ Making words and their meanings available through a natural and beautiful experience
Stars: ✭ 13 (-71.74%)
Mutual labels:  dictionary, thesaurus
Ieml
IEML semantic language - a meaning-representation system based on semantic primitives and a regular grammar. Basic semantic relationships between concepts are automatically computed from syntactic similarities.
Stars: ✭ 41 (-10.87%)
Mutual labels:  dictionary, natural-language
kictor
A dictionary based on the console, 一个基于控制台的词典工具
Stars: ✭ 15 (-67.39%)
Mutual labels:  dictionary
priority-queue-dictionary
A Pythonic indexed priority queue
Stars: ✭ 74 (+60.87%)
Mutual labels:  dictionary
Spell4Wiki
Spell4Wiki is a mobile application to record and upload audio for Wiktionary words to Wikimedia commons. Also act as a Wiki-Dictionary.
Stars: ✭ 17 (-63.04%)
Mutual labels:  dictionary
MouseTooltipTranslator
chrome extension - When mouse hover on text, it shows translated tooltip using google translate
Stars: ✭ 93 (+102.17%)
Mutual labels:  dictionary
dic-nico-intersection-pixiv
ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
Stars: ✭ 49 (+6.52%)
Mutual labels:  dictionary
csv2plist.py
Convert a .csv to .plist array for usage with iOS / OSX app development
Stars: ✭ 29 (-36.96%)
Mutual labels:  dictionary
EN-FA-CS-Dictionary
💬 An English-Persian Dictionary of Computer Science and Artificial Intelligence
Stars: ✭ 97 (+110.87%)
Mutual labels:  dictionary
skos-play
SKOS-Play allows to print SKOS files in HTML or PDF. It also embeds xls2rdf to generate RDF from Excel.
Stars: ✭ 58 (+26.09%)
Mutual labels:  thesaurus
double-metaphone
Fast Double Metaphone algorithm
Stars: ✭ 70 (+52.17%)
Mutual labels:  natural-language

Linguistic Datasets for Portuguese: conjuntos de dados linguísticos para português (pt-AO, pt-BR pt-MZ e pt-PT)

Lista de conjuntos de dados linguísticos para português com licenças flexíveis: banco de dados, lista de palavras, sinônimos, antônimos, dicionário temático, tesauro, linked data, semântica, ontologia e representação de conhecimento.

(English description) List of linguistic datasets for Portuguese with flexible licenses: database, wordlist, synonyms, antonyms, thematic dictionaries, thesaurus, linked data, semantic, ontology and knowledge representation.

O objetivo desse projeto, inspirado pelo espírito de FOSS, é listar fontes de representações de conhecimento que, ao depender da língua e das culturas locais, não podem ser importadas. Requerem atenção especial, de caráter multidisciplinar, e que idealmente já deveria estar prontas e aceitavelmente validadas: quando não existem, na melhor das hipóteses, podem forçar serem feitas por não especialista e prejudicar qualidade, e na pior, até impedir a produção de tecnologias inovadoras.


Lista

Conjuntos de dados linguísticos requerem muito mais atenção e trabalho humano especializado do que tradicionalmente se vê em dados abertos. Pense em megabytes, não gigabytes. Boa parte dos conjuntos de dados listados são praticamente engenharia reversa da representação de conhecimento e que, mesmo sem usar licença específica mais para datasets (PDDL, CDLA, ODC, ...) tem uma licença em que você pode usar.

Conjunto de dados Data Licença Etiquetas Descrição
languagetool-org: regras PT ativo LGPLv2.1 (muitas-tags), pt-AO, pt-BR pt-MZ e pt-PT languagetool-org é verificador de estilo e gramática para mais de 25 idiomas
languagetool-org: falsos cognatos ativo LGPLv2.1 falsos-cognatos, traducao Falsos cognatos (Inglês: false friends) são termos que parecem uma coisa, mas na verdade, são outra. Muito pertinente na tradução de textos
openWordnet-PT ativo CC-BY-4.0 wordnet, owl, rdf, sparql, pt-BR OpenWordnet-PT: an open Brazilian Wordnet
Stopwords Portuguese (PT) 2016-10-10 Várias stopwords, palavras-vazias Lista de listas de palavras-vazias com 560 termos únicos
VERO-pt-BR 2013-12-17 LGPLv3, MPL verificacao-ortografica, verificacao-gramatical, hifenizacao, libreoffice, openoffice, pt-BR Espelho não-oficial da base de dados do VERO (VERificador Ortografico do LibreOffice)
DicSin pt-BR 2010-05-28 GPLv2? dicionario, sinonimo, antonimo, pt-BR DicSin: Dicionário de sinônimos e antônimos no idioma português brasileiro
br.ispell 2003-03-25 GPLv2 dicionario, verificacao-ortografica, ispell, aspell, myspell, pt-BR Espelho não-oficial dos dados de br.ispell

Pergunta em aberto: sabendo que conjunto de dados linguísticos são úteis para todos (principalmente o próprio governo e pequenas e médias empresas e organizações) o que pode ser feito com os que nem existem ou os que o uso mais comum implica em pirataria?

Lista de desejos

Aviso: a lista a seguir não foi revisada quanto a utilidade e viabilidade.

Etiquetas Inspirações Descrição
afinn-111, analise-de-sentimento AFINN-111, EN Uma lista de palavras etiquetada com uma valência positiva ou negativa adaptada a um ou mais dialetos da língua portuguesa, que use como inspiração (não necessariamente uma tradução) do artigo A new ANEW: Evaluation of a word list for sentiment analysis in microblogs
analise-de-sentimento, sarcasmo MIT, emojis, bullying Considerar a possibilidade de estimular análise de sentimento (ou padrões para identificar sarcasmo) considerando emojis e outros estilos de escrita muito específicos. Potencialmente útil em pesquisas futuras para reduzir falsos positivos de linguagem ofensiva ou discurso de ódio. Um projeto internacional é deepmoji.mit.edu / GitHub do DeepMoji
termos-ofensivos, palavrao Wikipedia, HateBase PT Palavrões, Palavra de baixo calão, termos ofensivos:
  • Preferencialmente com classificações adicionais (por região, tipo de palavrão, intensidade)
  • Permitir exportação para lista de palavras simples (útil em filtros de spam)
  • Pode exibir uma abordagem colaborativa, atualizável por usuários finais
  • Muito útil para gerar outros conjuntos de dados
termos-ofensivos, discurso-de-odio Wikipedia, HateBase PT Conjunto de dados que ajudem a identificar especificamente discurso de ódio possui interesse especial dentro de termos ofensivos
weasel-word languagetool weasel words Lista de palavras com termos evasivos. Pode ser interessante interessante até para análise de discursos políticos. Veja: Finding Hedges by Chasing Weasels: Hedge Detection Using Wikipedia Tags and Shallow Linguistic Features

Justificativa

Uma forma de classificar conjunto de dados que se provam úteis separar em duas categorias:

  1. Validados o suficiente para uso como ferramenta em pesquisa acadêmica nível internacional
  2. Os aceitáveis para uso no dia a dia pela indústria

A coexistência de ambos é boa para sociedade. Como podemos estimular mais ainda? Um problema a nível internacional é que há baixa interação, mesmo dentro de universidades, das áreas de computação com as de estudo da língua, psicologia, sociologia e afins. Será que podemos estimular uma abordagem diferente em nossos países?

TODO: adicionar mais informação da justificativa (fititnt, 2018-05-21 03:08 BRT)

Contato

Licença

Public Domain

Na medida do possível sob a lei, Emerson Rocha renunciou todos os direitos autorais e direitos conexos ou vizinhos a este trabalho para o domínio público.

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].