All Projects → hiDaDeng → ChineseTextAnalysisResouce

hiDaDeng / ChineseTextAnalysisResouce

Licence: MIT license
中文文本分析相关资源汇总

Projects that are alternatives of or similar to ChineseTextAnalysisResouce

Graphbrain
Language, Knowledge, Cognition
Stars: ✭ 294 (+314.08%)
Mutual labels:  text-analysis, knowledge-graph
Capricorn
提供强大的NLP能力, low-code实现chatbot
Stars: ✭ 14 (-80.28%)
Mutual labels:  knowledge-graph
Mapeathor
Translator of spreadsheet mappings into R2RML, RML or YARRRML
Stars: ✭ 27 (-61.97%)
Mutual labels:  knowledge-graph
gakg
GAKG is a multimodal Geoscience Academic Knowledge Graph (GAKG) framework by fusing papers' illustrations, text, and bibliometric data.
Stars: ✭ 21 (-70.42%)
Mutual labels:  knowledge-graph
Processor
Ontology-driven Linked Data processor and server for SPARQL backends. Apache License.
Stars: ✭ 54 (-23.94%)
Mutual labels:  knowledge-graph
biograkn
BioGrakn Knowledge Graph
Stars: ✭ 169 (+138.03%)
Mutual labels:  knowledge-graph
KBRD
Towards Knowledge-Based Recommender Dialog System @ EMNLP 2019
Stars: ✭ 123 (+73.24%)
Mutual labels:  knowledge-graph
neno
NENO is a note-taking app that helps you create your personal knowledge graph.
Stars: ✭ 65 (-8.45%)
Mutual labels:  knowledge-graph
knime-textprocessing
KNIME - Text Processing Extension (Labs)
Stars: ✭ 17 (-76.06%)
Mutual labels:  text-analysis
KGReasoning
Multi-Hop Logical Reasoning in Knowledge Graphs
Stars: ✭ 197 (+177.46%)
Mutual labels:  knowledge-graph
kg-reeval
ACL 2020: A Re-evaluation of Knowledge Graph Completion Methods
Stars: ✭ 117 (+64.79%)
Mutual labels:  knowledge-graph
calamus
A JSON-LD Serialization Libary for Python
Stars: ✭ 21 (-70.42%)
Mutual labels:  knowledge-graph
yang-db
YANGDB Open-source, Scalable, Non-native Graph database (Powered by Elasticsearch)
Stars: ✭ 92 (+29.58%)
Mutual labels:  knowledge-graph
morph-kgc
Powerful RDF Knowledge Graph Generation with [R2]RML Mappings
Stars: ✭ 77 (+8.45%)
Mutual labels:  knowledge-graph
news-graph
Key information extraction from text and graph visualization
Stars: ✭ 83 (+16.9%)
Mutual labels:  knowledge-graph
cskg
CSKG: The CommonSense Knowledge Graph
Stars: ✭ 86 (+21.13%)
Mutual labels:  knowledge-graph
harika
Offline-, mobile-first graph note-taking app focused on performance with the knowledgebase of any scale
Stars: ✭ 111 (+56.34%)
Mutual labels:  knowledge-graph
CaRE
EMNLP 2019: CaRe: Open Knowledge Graph Embeddings
Stars: ✭ 34 (-52.11%)
Mutual labels:  knowledge-graph
semantic-python-overview
(subjective) overview of projects which are related both to python and semantic technologies (RDF, OWL, Reasoning, ...)
Stars: ✭ 406 (+471.83%)
Mutual labels:  knowledge-graph
Knowledge Graph Wander
A collection of papers, codes, projects, tutorials ... for Knowledge Graph and other NLP methods
Stars: ✭ 26 (-63.38%)
Mutual labels:  knowledge-graph

中文文本分析相关资源汇总

Python库

项目 地址 简介
jieba分词 https://github.com/fxsjy/jieba 中文分词库
multistop https://github.com/hidadeng/multistop 停用词表,支持中英法德等15种语言
cnsenti https://github.com/hidadeng/cnsenti 中文文本情感分析、情绪分析库
tomotopy https://github.com/bab2min/tomotopy 最快的主题模型,C的速度
cntext https://github.com/hidadeng/cntext 中文文本情感分析、情绪分析库
快速构建专属领域中文情感词典 https://github.com/hidadeng/wordexpansion 使用SO_PMI互信息算法简单快速构建不同领域(手机、汽车等)的专业情感词典
eventextraction https://github.com/hidadeng/eventextraction 计算文本逻辑性
中文复杂事件的概念与显式模式 https://github.com/hidadeng/eventextraction 中文复合事件的概念与显式模式,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
中文信息抽取工具 https://github.com/fighting41love/cocoNLP 从中文文本数据中抽取出结构化的信息,如时间、手机号、运营商、邮箱、地址、人名、身份证
图片识别 https://github.com/breezedeus/cnocr 识别出图片中的中文文本
label-studio多媒体标注工具 https://github.com/heartexlabs/label-studio 可对文本、图片、音频和视频数据进行标注
中文可读性 https://github.com/cdimascio/py-readability-metrics 可读性算法包括Flesch-Kincaid Grade Level, Gunning Fog, ARI, Dale Chall, SMOG
Synonyms https://github.com/huyingxi/Synonyms 用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。
SpaCy 中文模型 https://github.com/howl-anderson/Chinese_models_for_SpaCy SpaCy 中文模型
Scattertext可视化 https://github.com/JasonKessler/scattertext 能否分析出某个类别的文本与其他文本的用词差异;简单修改后可支持中文
HarvestText文本挖掘和预处理工具 https://github.com/blmoistawinde/HarvestText 文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、句法分析等),无监督或弱监督(种子词)方法
开源金融大数据 https://github.com/PKUJohnson/OpenData 股票、基金、期货、宏观等金融数据。还有非金融数据,如空气质量、高考录取分、院线票房等非金融数据
中日韩分词 https://github.com/jeongukjae/python-mecab 中日韩分词工具
汉字数字(中文数字)-阿拉伯数字转换工具 https://github.com/Wall-ee/chinese2digits 最好的汉字数字(中文数字)-阿拉伯数字转换工具。
中文地址提取工具 https://github.com/shibing624/addressparser 中文地址提取工具,支持中国三级区划地址(省、市、区)提取和映射,支持地址热力图绘制。
中文公司名称分词工具 https://github.com/shibing624/companynameparser 中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。


语料(数据)

资源名 地址 介绍
微信公众号语料库 https://github.com/SophonPlus/ChineseNlpCorpus 搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
中文公司名语料库 https://github.com/wainshine/Company-Names-Corpus 公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。
微信公众号语料库 https://github.com/nonamestreet/weixin_public_corpus 数据量3G;纯文本,每行一篇,JSON格式。name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。
多语言音频数据 https://voice.mozilla.org/en/datasets 多种语言音频数据,包括来自42,000名贡献者超过1,400小时的语音样本,涵github
知识问答 https://github.com/liuhuanyong/MiningZhiDaoQACorpus 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。
中文任务基准测评 https://github.com/CLUEbenchmark/CLUE 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜
中文突发事件语料库 https://github.com/shijiebei2009/CEC-Corpus 中文突发事件语料库(Chinese Emergency Corpus)-上海大学-语义智能实验室


知识图谱

项目名 地址 简介
awesome-knowledge-graph https://github.com/husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料
文档图谱信息可视化 https://github.com/liuhuanyong/TextGrapher 输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。
事件三元组抽取 https://github.com/liuhuanyong/EventTriplesExtraction 基于依存句法与语义角色标注的事件三元组抽取
中文人物关系抽取 https://github.com/liuhuanyong/PersonRelationKnowledgeGraph 中文人物关系图谱构建; 基于知识库的数据回标 基于远程监督与bootstrapping方法的人物关系抽取 ;基于知识图谱的知识问答等应用
证券知识图谱 https://github.com/lemonhu/stock-knowledge-graph 利用网络上公开的数据构建一个小型的证券知识图谱/知识库
大规模中文知识图谱数据 https://github.com/ownthink/KnowledgeGraphData 1.4亿中文知识图谱,百度网盘(链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp )注:解压密码是:https://www.ownthink.com/
京东商品知识图谱 https://github.com/liuhuanyong/ProductKnowledgeGraph 基于京东网站的1300种商品上下级概念,约10万商品品牌,约65万品牌销售关系,商品描述维度等知识库,基于该知识库可以支持商品属性库构建,商品销售问答,品牌物品生产等知识查询服务,也可用于情感分析等下游应用.
重大事件抽取 https://github.com/liuhuanyong/ImportantEventExtractor 针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要新闻。


如果

如果您是经管人文社科专业背景,编程小白,面临海量文本数据采集和处理分析艰巨任务,可以参看《python网络爬虫与文本数据分析》视频课。作为文科生,一样也是从两眼一抹黑开始,这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂o( ̄︶ ̄)o,

  • python入门
  • 网络爬虫
  • 数据读取
  • 文本分析入门
  • 机器学习与文本分析
  • 文本分析在经管研究中的应用

感兴趣的童鞋不妨 戳一下《python网络爬虫与文本数据分析》进来看看~



更多

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].