All Projects → thunlp → Thuocl

thunlp / Thuocl

Licence: mit
THUOCL(THU Open Chinese Lexicon)中文词库

Projects that are alternatives of or similar to Thuocl

Osfcc
一个收集可用于中文字体排印的开源字体集合。
Stars: ✭ 314 (-29.12%)
Mutual labels:  chinese
Cnn handwritten chinese recognition
CNN在线识别手写中文。
Stars: ✭ 365 (-17.61%)
Mutual labels:  chinese
Chineseutil
PHP 中文工具包,支持汉字转拼音、拼音分词、简繁互转、数字、金额大写;QQ群:17916227
Stars: ✭ 413 (-6.77%)
Mutual labels:  chinese
Awesome Deno Cn
🦖 长期维护!中文圈下与 Deno 相关的 Awesome 资源全图谱
Stars: ✭ 327 (-26.19%)
Mutual labels:  chinese
Weapp Poem
诗词墨客 - 最全中华古诗词小程序
Stars: ✭ 349 (-21.22%)
Mutual labels:  chinese
Padavan
padavan 简体中文 & 路由器适配
Stars: ✭ 385 (-13.09%)
Mutual labels:  chinese
Swift Algorithm Club Cn
swift-algorithm-club的翻译。使用Swift学习算法和数据结构。
Stars: ✭ 304 (-31.38%)
Mutual labels:  chinese
rasa chatbot
A Chinese task oriented chatbot in IVR(Interactive Voice Response) domain, implement by rasa. This is a demo with toy dataset, more data should be added for performance.
Stars: ✭ 428 (-3.39%)
Mutual labels:  chinese
Cope
A modern IDE for writing classical Chinese poetry 格律诗编辑程序
Stars: ✭ 362 (-18.28%)
Mutual labels:  chinese
Raft Zh cn
Raft一致性算法论文的中文翻译
Stars: ✭ 4,684 (+957.34%)
Mutual labels:  chinese
Zhvoice
Chinese voice corpus. 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字。
Stars: ✭ 327 (-26.19%)
Mutual labels:  chinese
Weekly Github Digest
📰 A published weekly with a Thursday publication date.
Stars: ✭ 338 (-23.7%)
Mutual labels:  chinese
Gpt2 Chinese
Chinese version of GPT2 training code, using BERT tokenizer.
Stars: ✭ 4,592 (+936.57%)
Mutual labels:  chinese
Minecraft Mod Language Package
A language package for Minecraft Mods.
Stars: ✭ 322 (-27.31%)
Mutual labels:  chinese
Zhparser
zhparser is a PostgreSQL extension for full-text search of Chinese language
Stars: ✭ 418 (-5.64%)
Mutual labels:  chinese
Python Pinyin
汉字转拼音(pypinyin)
Stars: ✭ 3,618 (+716.7%)
Mutual labels:  chinese
Chaizi
漢語拆字字典
Stars: ✭ 384 (-13.32%)
Mutual labels:  chinese
Chinese Calendar
📅 中国农历(阴历)与阳历(公历)转换与查询工具
Stars: ✭ 428 (-3.39%)
Mutual labels:  chinese
Deep Learning Resources
由淺入深的深度學習資源 Collection of deep learning materials for everyone
Stars: ✭ 422 (-4.74%)
Mutual labels:  chinese
Jetbrains In Chinese
JetBrains 系列软件汉化包 关键字: Android Studio 3.5 汉化包 CLion 2019.3 汉化包 DataGrip 2019.3 汉化包 GoLand 2019.3 汉化包 IntelliJ IDEA 2019.3 汉化包 PhpStorm 2019.3 汉化包 PyCharm 2019.3 汉化包 Rider 2019.3 汉化包 RubyMine 2019.3 汉化包 WebStorm 2019.3 汉化包
Stars: ✭ 3,912 (+783.07%)
Mutual labels:  chinese

THUOCL

目录

词库介绍

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点:

  1. 包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用。

  2. 词库经过多轮人工筛选,保证词库收录的准确性。

  3. 开放更新,将不断更新现有词表,并推出更多类别词表。欢迎专业人士加入,协作建设开放词库,有意者请致信[email protected]

该词库可以用于中文自动分词,提升中文分词效果。建议搭配本组研制开发的THULAC工具包使用,提升特定领域中文分词的效果。

词库格式及词频统计语料库

词库每一行由两部分组成,分别是词和DF值(存在此单词的文档个数),中间由Tab间隔。

词频统计语料库:

  1. CSDN博客 时间:2014.07-2016.07 文档数:3785976
  2. 新浪新闻 时间:2008.01-2016.11 文档数:8421097
  3. 搜狗语料 文档数:729008561

词库清单

  • IT

    • 词表简介:本词表包含了大量IT类词汇。
    • 词条样例:文件备份、虚拟地址、C++编程、事务调度、强连通缩点。
    • 词条数量:16000条
    • 词频统计语料库:CSDN博客
    • 更新时间:2016-12-24
    • 贡献者:马云山、韩世依、张钰晖
    • 下载链接:点此下载
  • 财经

    • 词表简介:本词表包含了大量财经类词汇。
    • 词条样例:年期、调整方案、全面收购、差价、萎缩。
    • 词条数量:3830条
    • 词频统计语料库:新浪新闻
    • 更新时间:2016-12-24
    • 贡献者:韩世依、张钰晖、马云山
    • 下载链接:点此下载
  • 成语

    • 词表简介:本词表包含了大量成语词汇。
    • 词条样例:故作高深、有理有据、用之不竭、人微言轻、因地制宜、求贤若渴。
    • 词条数量:8519条
    • 词频统计语料库:新浪新闻
    • 更新时间:2016-12-24
    • 贡献者:韩世依、张钰晖、马云山
    • 下载链接:点此下载
  • 地名

    • 词表简介:本词表包含了大量地名词汇。
    • 词条样例:浙江、上海、澳大利亚、珠穆朗玛峰、湘潭县、大甲镇。
    • 词条数量:44805条
    • 词频统计语料库:搜狗语料
    • 更新时间:2017-06-01
    • 贡献者:韩世依、张钰晖、马云山
    • 下载链接:点此下载
  • 历史名人

    • 词表简介:本词表包含了大量历史名人类词汇。
    • 词条样例:陆游、荀彧、诸葛亮、孙权、张伯伦。
    • 词条数量:13658条
    • 词频统计语料库:新浪新闻
    • 更新时间:2016-12-24
    • 贡献者:韩世依、张钰晖、马云山
    • 下载链接:点此下载
  • 诗词

    • 词表简介:本词表包含了大量诗词名句。
    • 词条样例:更上一层楼、犹抱琵琶半遮面、路漫漫其修远兮、任尔东西南北风。
    • 词条数量:13703条
    • 词频统计语料库:新浪新闻
    • 更新时间:2017-01-20
    • 贡献者:张钰晖、韩世依、马云山
    • 下载链接:点此下载
  • 医学

    • 词表简介:本词表包含了大量医学类词汇。
    • 词条样例:患者、充血、皮疹、冬虫夏草。
    • 词条数量:18749条
    • 词频统计语料库:新浪新闻
    • 更新时间:2017-01-20
    • 贡献者:张钰晖、韩世依、马云山
    • 下载链接:点此下载
  • 饮食

    • 词库简介:本词库包含了大部分饮食类词汇。
    • 词条样例:土豆、火锅、意大利面、果佳、猴头菇。
    • 词条数量:8974条
    • 词频统计语料库:搜狗语料
    • 更新时间:2017-04-20
    • 贡献者:王盟源、吴佼玉、黄伟杰,林永天
    • 下载链接:点此下载
  • 法律

    • 词库简介:本词库包含了大部分法律类词汇。
    • 词条样例:版权、有关部门、有限责任公司、土地审裁处法官、日本庄园制度。
    • 词条数量:9896条
    • 词频统计语料库:搜狗语料
    • 更新时间:2017-04-28
    • 贡献者:王盟源、吴佼玉、黄伟杰,林永天
    • 下载链接:点此下载
  • 汽车

    • 词库简介:本词库包含了大部分汽车类词汇。
    • 词条样例:轿车、车展、东风本田、前挡风玻璃、四川丰田。
    • 词条数量:1752条
    • 词频统计语料库:搜狗语料
    • 更新时间:2017-05-15
    • 贡献者:王盟源、吴佼玉、黄伟杰,林永天
    • 下载链接:点此下载
  • 动物

    • 词库简介:本词库包含了大部分动物类词汇。
    • 词条样例:信鸽、梅花鹿、街鸽、四方藤、斑尾林鸽。
    • 词条数量:17287条
    • 词频统计语料库:搜狗语料
    • 更新时间:2017-06-01
    • 贡献者:王盟源、吴佼玉、黄伟杰,林永天
    • 下载链接:点此下载

开源协议

  1. THUOCL面向国内外大学、研究所、企业、机构以及个人免费开放,可用于研究与商业。
  2. 欢迎对该工具包提出任何宝贵意见和建议。请发邮件至[email protected]
  3. 如果您在THUOCL基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了清华大学开放中文词库”,并按如下格式引用:
中文: 韩世依, 张钰晖, 马云山, 涂存超, 郭志芃, 刘知远, 孙茂松. THUOCL:清华大学开放中文词库. 2016.
英文: Shiyi Han, Yuhui Zhang, Yunshan Ma, Cunchao Tu, Zhipeng Guo, Zhiyuan Liu, Maosong Sun. THUOCL: Tsinghua Open Chinese Lexicon. 2016.

作者

贡献者: Shiyi Han (韩世依,北京航空航天大学本科生), Yuhui Zhang(张钰晖,清华大学本科生), Yunshan Ma(马云山), Cunchao Tu(涂存超,清华大学博士生), Zhipeng Guo(郭志芃,清华大学本科生).

指导老师: Zhiyuan Liu(刘知远,清华大学助理教授), Maosong Sun(孙茂松,清华大学教授).

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].