All Projects → wainshine → Medical-Names-Corpus

wainshine / Medical-Names-Corpus

Licence: Apache-2.0 License
医疗语料库。医疗机构名语料库。药品本位码。

Projects that are alternatives of or similar to Medical-Names-Corpus

Company Names Corpus
公司名语料库。机构名语料库。公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。
Stars: ✭ 868 (+3238.46%)
Mutual labels:  corpus, dataset, dict
Chinese Names Corpus
中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。
Stars: ✭ 3,053 (+11642.31%)
Mutual labels:  corpus, dataset, dict
Species-Names-Corpus
物种名称语料库。植物名,动物名。
Stars: ✭ 23 (-11.54%)
Mutual labels:  corpus, dataset, dict
Dataset List
lists of text corpus and more (mainly Japanese)
Stars: ✭ 84 (+223.08%)
Mutual labels:  corpus, dataset
Insuranceqa Corpus Zh
🚁 保险行业语料库,聊天机器人
Stars: ✭ 821 (+3057.69%)
Mutual labels:  corpus, dataset
Coarij
Corpus of Annual Reports in Japan
Stars: ✭ 55 (+111.54%)
Mutual labels:  corpus, dataset
Isic Archive Downloader
A script to download the ISIC Archive of lesion images
Stars: ✭ 153 (+488.46%)
Mutual labels:  medical, dataset
Awesome Hungarian Nlp
A curated list of NLP resources for Hungarian
Stars: ✭ 121 (+365.38%)
Mutual labels:  corpus, dataset
Pubmed Rct
PubMed 200k RCT dataset: a large dataset for sequential sentence classification.
Stars: ✭ 101 (+288.46%)
Mutual labels:  corpus, medical
Dialog corpus
用于训练中英文对话系统的语料库 Datasets for Training Chatbot System
Stars: ✭ 1,662 (+6292.31%)
Mutual labels:  corpus, dataset
Clue
中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Stars: ✭ 2,425 (+9226.92%)
Mutual labels:  corpus, dataset
Nlp chinese corpus
大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
Stars: ✭ 6,656 (+25500%)
Mutual labels:  corpus, dataset
Cluepretrainedmodels
高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型
Stars: ✭ 493 (+1796.15%)
Mutual labels:  corpus, dataset
Fakenewscorpus
A dataset of millions of news articles scraped from a curated list of data sources.
Stars: ✭ 255 (+880.77%)
Mutual labels:  corpus, dataset
Prosody
Helsinki Prosody Corpus and A System for Predicting Prosodic Prominence from Text
Stars: ✭ 139 (+434.62%)
Mutual labels:  corpus, dataset
Indonesian Nlp Resources
data resource untuk NLP bahasa indonesia
Stars: ✭ 143 (+450%)
Mutual labels:  corpus, dataset
Ua Gec
UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language
Stars: ✭ 108 (+315.38%)
Mutual labels:  corpus, dataset
Medmnist
[ISBI'21] MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis
Stars: ✭ 338 (+1200%)
Mutual labels:  medical, dataset
Awesome chinese medical nlp
中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/模型/论文/etc
Stars: ✭ 623 (+2296.15%)
Mutual labels:  medical, dataset
Gossiping Chinese Corpus
PTT 八卦版問答中文語料
Stars: ✭ 137 (+426.92%)
Mutual labels:  corpus, dataset

医疗语料库(Medical-Names-Corpus)

业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。

不定期更新。只删词,不加词。

可用于中文分词、药品名识别。


医疗机构名语料库(Medical-Org-Names-Corpus)

包含大量不可信实体(如莆田系、无营业执照等),能力有限无法识别,请自行查证。

数据大小:260万。

语料来源:多个词典汇总。

数据清洗:未清洗。


药品本位码(Medical-ID-Corpus)

数据大小:18万。

语料来源:多个词典汇总。

数据清洗:未清洗。


请勿提交涉政issue:

惹不起呀,谢谢~

语料中还存有的,会在后续的更新中逐步删除掉。


更新时间:

新增18万药品本位码。 -2019.09.28

删除部分badcase。 -2020.12.13

新增260万泛医疗机构名。 -2021.05.30


@萌名NameMoe 整理

2021.05.30

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].