All Projects → ljw9609 → SentimentAnalysis

ljw9609 / SentimentAnalysis

Licence: MIT license
基于新浪微博数据的情感极性分析

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to SentimentAnalysis

Sinaweibo Emotion Classification
新浪微博情感分析应用
Stars: ✭ 118 (+174.42%)
Mutual labels:  svm, weibo
Sarcasm Detection
Detecting Sarcasm on Twitter using both traditonal machine learning and deep learning techniques.
Stars: ✭ 73 (+69.77%)
Mutual labels:  sentiment-analysis, svm
Stock Analysis
Regression, Scrapers, and Visualization
Stars: ✭ 255 (+493.02%)
Mutual labels:  sentiment-analysis, svm
Textclf
TextClf :基于Pytorch/Sklearn的文本分类框架,包括逻辑回归、SVM、TextCNN、TextRNN、TextRCNN、DRNN、DPCNN、Bert等多种模型,通过简单配置即可完成数据处理、模型训练、测试等过程。
Stars: ✭ 105 (+144.19%)
Mutual labels:  sentiment-analysis, svm
Weibo Analyst
Social media (Weibo) comments analyzing toolbox in Chinese 微博评论分析工具, 实现功能: 1.微博评论数据爬取; 2.分词与关键词提取; 3.词云与词频统计; 4.情感分析; 5.主题聚类
Stars: ✭ 430 (+900%)
Mutual labels:  sentiment-analysis, weibo
sentiment-analysis-using-python
Large Data Analysis Course Project
Stars: ✭ 23 (-46.51%)
Mutual labels:  sentiment-analysis, svm
dzetsaka
dzetsaka : classification plugin for Qgis
Stars: ✭ 61 (+41.86%)
Mutual labels:  svm
svm
Tutorial: Support Vector Machine from scratch using Python3
Stars: ✭ 32 (-25.58%)
Mutual labels:  svm
tf-sentiment-docker
A docker image for sentiment analysis on tensorflow
Stars: ✭ 15 (-65.12%)
Mutual labels:  sentiment-analysis
Moss
A GitHub client app developed with Flutter, which supports Android iOS Web. More feature: BaiduMap+Amap UI+DiDi+Weibo!
Stars: ✭ 76 (+76.74%)
Mutual labels:  weibo
Real Time DataMining Software
携程/榛果民宿实时评论挖掘软件,包含数据的实时采集/数据清洗/结构化保存/ UGC 数据主题提取/情感分析/后结构化可视化等技术的综合性演示 Demo。基于在线民宿 UGC 数据的意见挖掘项目,包含数据挖掘和 NLP 相关的处理,负责数据采集、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线 UGC 进行数据挖掘并可视化,demo 视频演示见链接。
Stars: ✭ 43 (+0%)
Mutual labels:  sentiment-analysis
pandas twitter
Analyzing Trump's tweets using Python (Pandas + Twitter workshop)
Stars: ✭ 81 (+88.37%)
Mutual labels:  sentiment-analysis
TLA
A comprehensive tool for linguistic analysis of communities
Stars: ✭ 47 (+9.3%)
Mutual labels:  sentiment-analysis
text-classification-cn
中文文本分类实践,基于搜狗新闻语料库,采用传统机器学习方法以及预训练模型等方法
Stars: ✭ 81 (+88.37%)
Mutual labels:  svm
Emotion and Polarity SO
An emotion classifier of text containing technical content from the SE domain
Stars: ✭ 74 (+72.09%)
Mutual labels:  sentiment-analysis
union
union login for wechat,weibo,qq,alipay with go
Stars: ✭ 23 (-46.51%)
Mutual labels:  weibo
soroka
Узнай, хорошо или плохо говорят о тебе или твоей фирме в Интернете! Наша "Сорока" с искусственным интеллектом принесёт тебе это на своём хвосте.
Stars: ✭ 16 (-62.79%)
Mutual labels:  sentiment-analysis
arabic-sentiment-analysis
Sentiment Analysis in Arabic tweets
Stars: ✭ 64 (+48.84%)
Mutual labels:  sentiment-analysis
info-retrieval
Information Retrieval in High Dimensional Data (class deliverables)
Stars: ✭ 33 (-23.26%)
Mutual labels:  svm
twitter-sentiment-analysis
Streaming tweets with spark, language detection & sentiment analysis, dashboard with Kibana
Stars: ✭ 100 (+132.56%)
Mutual labels:  sentiment-analysis

SentimentAnalysis

Build Status license

基于新浪微博数据的情感极性分析,使用机器学习算法训练模型,使用的分类方法包括朴素贝叶斯、SVM。

用法


'''
    初始化: SimpleNLP(method, doc, datalist)
    参数说明: method - 使用的分类方法 - 数字: 1 = Naive Bayes, 2 = SVM
             doc - 输入的文本 - 文本: None = 不使用文本
             datalist - 输入的语句列表 - 列表: None = 不使用语句列表        
'''

doc = ```杰森我爱你!加油你是最棒的!```
datalist = ['来自东方的神秘力量', '无聊']
nlp = SimpleNLP(1, doc, datalist)

# 分词
seg_doc = nlp.seg_doc()
seg_datalist = nlp.seg_datalist()
print('分词-doc: ' + seg_doc)
print('分词-datalist: ' + seg_datalist)

# 统计词频
word_frequency = npl.get_keyword_datalist()
print('词频: ' + word_frequency)

# 情感分析
sentiment_doc = nlp.sentiment_analysis_doc()
sentiment_datalist = nlp.sentiment_analysis_datalist()
print('情感分析-doc: ' + sentiment_doc)
print('情感分析-datalist: ' + sentiment_datalist)

# 结果
分词-doc: [['杰森', '加油', '棒', '我爱你']]
分词-datalist: [['神秘', '东方', '力量'], ['无聊']]

词频: {'神秘': 1, '东方': 1, '力量': 1, '无聊': 1}

情感分析-doc: 0.9995647915879173
情感分析-datalist: [0.9993912569032992, 0.09090909090909094]

实现功能

  • 分词(使用jieba分词库)
  • 词频统计
  • 情感分析
    • 朴素贝叶斯(使用朴素贝叶斯算法训练模型)
    • 支持向量机(使用了sklearn工具)
  • 特征值提取(使用卡方检验算法)

详细说明

(1)特征值提取

对应文件: feature_extraction.py

主要作用:

  • 输入文本和对应的标签值
  • 使用卡方检验计算每个关键词的相关性
  • 根据需要输出有效关键词列表

核心算法: 卡方检验,排名越高代表特征相关度越高

举例: 考察特征词"喜欢"和类别"positive"的相关性

特征选择 属于"positive" 不属于"positive" 总计
包含"喜欢" A B A + B
不包含"喜欢" C D C + D
总数 A + C B + D N

则卡方("喜欢", "positive") = N(AD - BC)^2 / (A+C)(B+D)(A+D)(B+C)

(2)支持向量机

对应文件: svm.py

主要作用:

  • 输入惩罚系数C、关键词列表和训练数据
  • 根据训练数据,构建词向量
  • 根据词向量和训练集标签,利用sklearn工具进行拟合
  • 输入测试词列表,预测分类

核心算法: 词向量构建、支持向量机

(3)朴素贝叶斯

对应文件: naiveBayes.py

主要作用:

  • 输入训练数据集、关键词列表
  • 构建分类模型
  • 输入测试词列表,利用朴素贝叶斯算法计算各类别概率

核心算法: 朴素贝叶斯

License

MIT

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].