All Projects → thunlp → THUCKE

thunlp / THUCKE

Licence: MIT license
THU Chinese Keyphrase Extraction Toolkit

Programming Languages

C++
36643 projects - #6 most used programming language
Makefile
30231 projects

Projects that are alternatives of or similar to THUCKE

Chinese Chatbot
中文聊天机器人,基于10万组对白训练而成,采用注意力机制,对一般问题都会生成一个有意义的答复。已上传模型,可直接运行,跑不起来直播吃键盘。
Stars: ✭ 124 (+6.9%)
Mutual labels:  chinese-nlp
Lac
百度NLP:分词,词性标注,命名实体识别,词重要性
Stars: ✭ 2,792 (+2306.9%)
Mutual labels:  chinese-nlp
Chinese-Minority-PLM
CINO: Pre-trained Language Models for Chinese Minority (少数民族语言预训练模型)
Stars: ✭ 133 (+14.66%)
Mutual labels:  chinese-nlp
Segmentit
任何 JS 环境可用的中文分词包,fork from leizongmin/node-segment
Stars: ✭ 139 (+19.83%)
Mutual labels:  chinese-nlp
Thuctc
An Efficient Chinese Text Classifier
Stars: ✭ 179 (+54.31%)
Mutual labels:  chinese-nlp
Fancy Nlp
NLP for human. A fast and easy-to-use natural language processing (NLP) toolkit, satisfying your imagination about NLP.
Stars: ✭ 233 (+100.86%)
Mutual labels:  chinese-nlp
Chinese nlu by using rasa nlu
使用 RASA NLU 来构建中文自然语言理解系统(NLU)| Use RASA NLU to build a Chinese Natural Language Understanding System (NLU)
Stars: ✭ 99 (-14.66%)
Mutual labels:  chinese-nlp
ltp4j
ltp4j: Language Technology Platform For Java
Stars: ✭ 165 (+42.24%)
Mutual labels:  chinese-nlp
Weatherbot
一个基于 Rasa 的中文天气情况问询机器人(chatbot), 带 Web UI 界面
Stars: ✭ 186 (+60.34%)
Mutual labels:  chinese-nlp
ChineseNounPhraseExtraction
使用词性模板抽取中文语料中的名词短语
Stars: ✭ 18 (-84.48%)
Mutual labels:  chinese-nlp
Information Extraction Chinese
Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取
Stars: ✭ 1,888 (+1527.59%)
Mutual labels:  chinese-nlp
Fastnlp
fastNLP: A Modularized and Extensible NLP Framework. Currently still in incubation.
Stars: ✭ 2,441 (+2004.31%)
Mutual labels:  chinese-nlp
esapp
An unsupervised Chinese word segmentation tool.
Stars: ✭ 13 (-88.79%)
Mutual labels:  chinese-nlp
Gossiping Chinese Corpus
PTT 八卦版問答中文語料
Stars: ✭ 137 (+18.1%)
Mutual labels:  chinese-nlp
Electra with tensorflow
This is an implementation of electra according to the paper {ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators}
Stars: ✭ 13 (-88.79%)
Mutual labels:  chinese-nlp
Thulac Python
An Efficient Lexical Analyzer for Chinese
Stars: ✭ 1,619 (+1295.69%)
Mutual labels:  chinese-nlp
Nlp4han
中文自然语言处理工具集【断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查】
Stars: ✭ 206 (+77.59%)
Mutual labels:  chinese-nlp
berserker
Berserker - BERt chineSE woRd toKenizER
Stars: ✭ 17 (-85.34%)
Mutual labels:  chinese-nlp
Chinese-automatic-speech-recognition
Chinese speech recognition
Stars: ✭ 147 (+26.72%)
Mutual labels:  chinese-nlp
Fengshenbang-LM
Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文AIGC和认知智能的基础设施。
Stars: ✭ 1,813 (+1462.93%)
Mutual labels:  chinese-nlp

THUCKE: 中文关键词抽取工具包

目录

项目介绍

THUCKE(THU Chinese Keyphrase Extraction)由清华大学自然语言处理与社会人文计算实验室研制推出的中文关键词抽取工具包。采用WAM(Word Alignment Model)模型,引入翻译的方法,将关键词和正文作为翻译对,使用IBM-Model1进行训练,获得“关键词-正文词”翻译概率表,综合该翻译概率表和TFIDF方法,进行关键词抽取。 训练语料采用网易新闻最近的新闻近40000条,并且我们将不断更新语料库,训练新的模型,在模型下载界面可以选择不同版本模型。

编译安装:

在当前目录执行make,编译完成会在当前目录生成可执行文件thucke

使用方法

1.下载模型文件(下载地址):

将模型下载并解压到./res/,解压后目录结构应为:

- res
  - thucke_models
  - thulac_models

2.参数介绍:

参数 解析
-i 需要提取关键词的文本文件路径
-n 需要提取关键词的最大个数
-m 模型文件路径

3.运行示例:

3.1 准备抽取文本

使用演示文本test1.txt或test2.txt,或者使用自己的文本替换该文件内容

3.2.运行工具

执行./thucke -i ./test1.txt -n 5 -m ./res

3.3 输出结果为json格式

{
  "result": [
    {
      "keyword": "财政",
      "score": 1000
    },
    {
      "keyword": "企业",
      "score": 875
    },
    {
      "keyword": "政策",
      "score": 625
    },
    {
      "keyword": "减税",
      "score": 541
    },
    {
      "keyword": "支出",
      "score": 374
    }
  ],
  "timeuse": 0.10199,
  "info": "success",
  "status": 0
}

3.4 结果内容介绍:

key value
result 返回结果:keyword(关键词),score(对应评分,结果按评分排序,最高分1000))
timeuse 运行时间/s,仅为关键词抽取时间,不包括模型加载时间
status 返回状态码
info 状态码注释

与其它关键词抽取工具结果对比

我们与其它常见的关键词抽取工具(jieba)进行对比,采用了两篇新闻作为抽取文本,抽取的结果对比如下:

1.测试文本test1.txt

THUCKE 评分(最高1000) jieba-TFIDF 评分(最高1) jieba-TextRank 评分(最高1)
耳机 1000 耳机 0.2455 耳机 1.0
辐射 521 蓝牙 0.2163 蓝牙 0.7364
人体 391 苹果 0.1688 苹果 0.7210
表示 376 AirPods 0.1488 表示 0.5163
使用 318 iPhone7 0.1339 使用 0.4901
iPhone7 318 辐射 0.1067 没有 0.4808
手机 304 Plus 0.1042 辐射 0.4750
AirPods 289 无线耳机 0.1042 传送 0.3215
电波 217 健康 0.0743 人体 0.3186
研究 202 传送 0.0722 问题 0.2980

2.测试文本test2.txt

THUCKE 评分(最高1000) jieba-TFIDF 评分(最高1) jieba-TextRank 评分(最高1)
财政 1000 减税 0.2445 经济 1.0
企业 875 财政政策 0.1313 减税 0.8912
政策 625 企业 0.1033 企业 0.8254
减税 541 税收收入 0.0968 增长 0.6250
支出 374 经济 0.0875 增加 0.5322
增长 291 数据 0.0780 扩大 0.4892
税收 250 降费 0.0731 税收 0.4434
政府 250 负担 0.07198 数据 0.4217
增加 250 税收 0.0698 财政 0.4134
扩大 208 税率 0.0693 财政政策 0.4092

THUCKE工程介绍

  - Makefile //makefile配置文件
  - README.md //文档
  - head //头文件
    - thulac //thulac分词和词性标注相关头文件
    - thucke //thucke关键词抽取相关头文件
        - articleSpliter.h //输入文本分割相关
        - keyword.h //关键词相关
        - trie.h //trie树相关
  - res //资源文件,主要是模型文件放置目录
  - src //源代码存放目录
      - thucke.cpp //主程序入口,如需进行任何形式的改造,从此文件开始
      - keywordLoad.cpp //模型加载
      - articleSpliter.cpp //输入文本切分预处理
      - thulac_segment.cpp //分词和词性标注
      - keywordExtract.cpp //关键词抽取核心算法实现 
      - trie.cpp //trie搜索树实现
  - test1.txt //测试文本1
  - test2.txt //测试文本2

THUCKE模型介绍

  1. THUCKE采用WAM方法,将新闻标题和新闻内容作为翻译对,生成“标题词语”-“内容词语”翻译概率矩阵,综合该词语翻译概率矩阵和tfidf,对给定文本进行关键词抽取,算法详细情况请查看“相关论文”部分;
  2. 训练语料采用从网易新闻爬取的最近一段时间的新闻数据大概40000条,因此该关键词抽取模型对于新闻类文本效果较好;
  3. 下载的模型除了thucke关键词抽取模型之外,还包含thulac分词词性标注模型,thulac同为thunlp推出的中文词法分析工具包,具有分词和词性标注功能;
  4. THUCKE将一直不断更新训练数据,生成最新的模型,同时保留旧模型,可以根据需要进行下载。

开源协议

  1. THUCKE面向国内外大学、研究所、企业以及个人用于研究目的免费开放源代码。

  2. 如有机构或个人拟将THUCKE用于商业目的,请发邮件至[email protected]洽谈技术许可协议。

  3. 欢迎对该工具提出任何宝贵意见和建议,请发邮件至[email protected]提出意见和建议。

  4. 如果您在THUCKE基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了清华大学THUCKE”,并按如下格式引用:

    • Zhiyuan Liu, Xinxiong Chen, Maosong Sun. A Simple Word Trigger Method for Social Tag Suggestion. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2011).

相关论文

  • Zhiyuan Liu, Xinxiong Chen, Maosong Sun. A Simple Word Trigger Method for Social Tag Suggestion. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2011).[pdf]
  • Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun. Automatic Keyphrase Extraction by Bridging Vocabulary Gap. The 15th Conference on Computational Natural Language Learning (CoNLL 2011).[pdf]

作者

  • Zhipeng Guo(郭志芃,本科生), Yunshan Ma(马云山,本科生), Zhiyuan Liu(刘知远,助理教授), Maosong Sun(孙茂松,教授)
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].