wainshine / Medical-Names-Corpus

Licence: Apache-2.0 License

医疗语料库。医疗机构名语料库。药品本位码。

Projects that are alternatives of or similar to Medical-Names-Corpus

Company Names Corpus

公司名语料库。机构名语料库。公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。

Stars: ✭ 868 (+3238.46%)

Mutual labels: corpus, dataset, dict

Chinese Names Corpus

中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。

Stars: ✭ 3,053 (+11642.31%)

Mutual labels: corpus, dataset, dict

Species-Names-Corpus

物种名称语料库。植物名,动物名。

Stars: ✭ 23 (-11.54%)

Mutual labels: corpus, dataset, dict

Dataset List

lists of text corpus and more (mainly Japanese)

Stars: ✭ 84 (+223.08%)

Mutual labels: corpus, dataset

Insuranceqa Corpus Zh

🚁 保险行业语料库，聊天机器人

Stars: ✭ 821 (+3057.69%)

Mutual labels: corpus, dataset

Coarij

Corpus of Annual Reports in Japan

Stars: ✭ 55 (+111.54%)

Mutual labels: corpus, dataset

Isic Archive Downloader

A script to download the ISIC Archive of lesion images

Stars: ✭ 153 (+488.46%)

Mutual labels: medical, dataset

Awesome Hungarian Nlp

A curated list of NLP resources for Hungarian

Stars: ✭ 121 (+365.38%)

Mutual labels: corpus, dataset

Pubmed Rct

PubMed 200k RCT dataset: a large dataset for sequential sentence classification.

Stars: ✭ 101 (+288.46%)

Mutual labels: corpus, medical

Dialog corpus

用于训练中英文对话系统的语料库 Datasets for Training Chatbot System

Stars: ✭ 1,662 (+6292.31%)

Mutual labels: corpus, dataset

Clue

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard

Stars: ✭ 2,425 (+9226.92%)

Mutual labels: corpus, dataset

Nlp chinese corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

Stars: ✭ 6,656 (+25500%)

Mutual labels: corpus, dataset

Cluepretrainedmodels

高质量中文预训练模型集合：最先进大模型、最快小模型、相似度专门模型

Stars: ✭ 493 (+1796.15%)

Mutual labels: corpus, dataset

Fakenewscorpus

A dataset of millions of news articles scraped from a curated list of data sources.

Stars: ✭ 255 (+880.77%)

Mutual labels: corpus, dataset

Prosody

Helsinki Prosody Corpus and A System for Predicting Prosodic Prominence from Text

Stars: ✭ 139 (+434.62%)

Mutual labels: corpus, dataset

Indonesian Nlp Resources

data resource untuk NLP bahasa indonesia

Stars: ✭ 143 (+450%)

Mutual labels: corpus, dataset

Ua Gec

UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language

Stars: ✭ 108 (+315.38%)

Mutual labels: corpus, dataset

Medmnist

[ISBI'21] MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis

Stars: ✭ 338 (+1200%)

Mutual labels: medical, dataset

Awesome chinese medical nlp

中文医学NLP公开资源整理：术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/模型/论文/etc

Stars: ✭ 623 (+2296.15%)

Mutual labels: medical, dataset

Gossiping Chinese Corpus

PTT 八卦版問答中文語料

Stars: ✭ 137 (+426.92%)

Mutual labels: corpus, dataset

View All Similar Projects ➔

医疗语料库（Medical-Names-Corpus）

业余项目“萌名NameMoe（一个基于语料库技术的取名工具）”的副产品。

不定期更新。只删词，不加词。

可用于中文分词、药品名识别。

医疗机构名语料库（Medical-Org-Names-Corpus）

包含大量不可信实体（如莆田系、无营业执照等），能力有限无法识别，请自行查证。

数据大小：260万。

语料来源：多个词典汇总。

数据清洗：未清洗。

药品本位码（Medical-ID-Corpus）

数据大小：18万。

语料来源：多个词典汇总。

数据清洗：未清洗。

请勿提交涉政issue：

惹不起呀，谢谢～

语料中还存有的，会在后续的更新中逐步删除掉。

更新时间：

新增18万药品本位码。 -2019.09.28

删除部分badcase。 -2020.12.13

新增260万泛医疗机构名。 -2021.05.30

@萌名NameMoe 整理

2021.05.30

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].

Cheap and reliable Node.js hosting starts at $3/month, and $1/month static HTML hosting

wainshine / Medical-Names-Corpus

Labels

Projects that are alternatives of or similar to Medical-Names-Corpus

医疗语料库（Medical-Names-Corpus）