All Projects → KB-AI-Research → KB-ALBERT

KB-AI-Research / KB-ALBERT

Licence: Apache-2.0 license
KB국민은행에서 제공하는 경제/금융 도메인에 특화된 한국어 ALBERT 모델

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to KB-ALBERT

Clue
中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Stars: ✭ 2,425 (+1027.91%)
Mutual labels:  transformers, language-model, albert
backprop
Backprop makes it simple to use, finetune, and deploy state-of-the-art ML models.
Stars: ✭ 229 (+6.51%)
Mutual labels:  transformers, language-model
wechsel
Code for WECHSEL: Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models.
Stars: ✭ 39 (-81.86%)
Mutual labels:  transformers, language-model
KoBERT-Transformers
KoBERT on 🤗 Huggingface Transformers 🤗 (with Bug Fixed)
Stars: ✭ 162 (-24.65%)
Mutual labels:  transformers, korean-nlp
KoELECTRA-Pipeline
Transformers Pipeline with KoELECTRA
Stars: ✭ 37 (-82.79%)
Mutual labels:  transformers, korean-nlp
COCO-LM
[NeurIPS 2021] COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining
Stars: ✭ 109 (-49.3%)
Mutual labels:  transformers, language-model
language-planner
Official Code for "Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents"
Stars: ✭ 84 (-60.93%)
Mutual labels:  transformers, language-model
minicons
Utility for analyzing Transformer based representations of language.
Stars: ✭ 28 (-86.98%)
Mutual labels:  transformers, language-model
Tokenizers
💥 Fast State-of-the-Art Tokenizers optimized for Research and Production
Stars: ✭ 5,077 (+2261.4%)
Mutual labels:  transformers, language-model
Haystack
🔍 Haystack is an open source NLP framework that leverages Transformer models. It enables developers to implement production-ready neural search, question answering, semantic document search and summarization for a wide range of applications.
Stars: ✭ 3,409 (+1485.58%)
Mutual labels:  transformers, language-model
Spark Nlp
State of the Art Natural Language Processing
Stars: ✭ 2,518 (+1071.16%)
Mutual labels:  transformers, albert
Transformer-Implementations
Library - Vanilla, ViT, DeiT, BERT, GPT
Stars: ✭ 34 (-84.19%)
Mutual labels:  transformers
PLBART
Official code of our work, Unified Pre-training for Program Understanding and Generation [NAACL 2021].
Stars: ✭ 151 (-29.77%)
Mutual labels:  language-model
nlp-papers
Must-read papers on Natural Language Processing (NLP)
Stars: ✭ 87 (-59.53%)
Mutual labels:  transformers
Nlp Architect
A model library for exploring state-of-the-art deep learning topologies and techniques for optimizing Natural Language Processing neural networks
Stars: ✭ 2,768 (+1187.44%)
Mutual labels:  transformers
LegalQA
Korean LegalQA using SentenceKoBART
Stars: ✭ 77 (-64.19%)
Mutual labels:  korean-nlp
Fengshenbang-LM
Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文AIGC和认知智能的基础设施。
Stars: ✭ 1,813 (+743.26%)
Mutual labels:  transformers
Pytorch Sentiment Analysis
Tutorials on getting started with PyTorch and TorchText for sentiment analysis.
Stars: ✭ 3,209 (+1392.56%)
Mutual labels:  transformers
Nn
🧑‍🏫 50! Implementations/tutorials of deep learning papers with side-by-side notes 📝; including transformers (original, xl, switch, feedback, vit, ...), optimizers (adam, adabelief, ...), gans(cyclegan, stylegan2, ...), 🎮 reinforcement learning (ppo, dqn), capsnet, distillation, ... 🧠
Stars: ✭ 5,720 (+2560.47%)
Mutual labels:  transformers
gpl
Powerful unsupervised domain adaptation method for dense retrieval. Requires only unlabeled corpus and yields massive improvement: "GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval" https://arxiv.org/abs/2112.07577
Stars: ✭ 216 (+0.47%)
Mutual labels:  transformers

KB-ALBERT

KB국민은행에서 제공하는 경제/금융 도메인에 특화된 한국어 ALBERT 언어모델

Introduction

KB-ALBERT 언어모델이란

  • KB-ALBERT는 Google 에서 제안한 ALBERT(A Lite BERT) 아키텍처를 기반으로 대량의 한국어를 학습시킨 사전학습 언어모델입니다.

    • ALBERT는 BERT 계열의 PLM(Pretrained Language Model) 아키텍쳐의 일종으로 경량화 설계가 특징입니다.
    • 대량의 언어데이터로 학습된 언어모델이 있으면 비교적 적은 양의 학습데이터로도 Task에 맞게 finetuning 학습이 가능합니다.
  • KB-ALBERT는 금융권 한국어 뿐만아니라 일반적인 한국어 Task를 학습하는 경우에도 우수한 성능을 보입니다.

    NSMC (Acc) KorQuAD (EM/F1) 금융MRC (EM/F1) Size
    Bert base multi-lingual 87.32 68.43 / 88.43 39.48 / 64.74 681M
    KB-ALBERT-CHAR-v2 89.62 84.14 / 92.13 50.12 / 68.21 36M

사용 방법

  • 모델의 사용법 및 예제는 하위 디렉토리에 있는 README.md 파일을 참고해주세요.
  • KB-ALBERT는 비영리를 목적으로만 사용할 수 있습니다.
  • 모델을 사용하고자 하시는 분들은 아래 메일로 소속, 이름, 사용용도를 간단히 작성하셔서 발송해 주세요.

Version History

  • v1 (kb-albert-char-v1) 공개
  • v2 (kb-albert-char-v2) 공개

구 버전 모델 관련 코드는 이후 삭제될 수 있습니다.

License

  • KB-ALBERT의 모델 파일코드는 별개의 라이선스 정책이 적용됩니다.
  • 이 저장소의 코드는 Apache-2.0 라이선스 하에 공개되어 있습니다. 라이선스 전문은 LICENSE 파일에서 확인하실 수 있습니다.
  • 모델 파일은 비영리목적으로 요청한 분들께만 개별적으로 보내드립니다. 모델 파일의 라이선스 정책은 모델과 함께 전달해드립니다.

(참고) 다른 곳에서 공개한 한국어 PLM도 참고해보세요.

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].