MAC-Lab实验室陈倩同学在期刊Transactions on Asian and Low-Resource Language Information Processing(TALLIP)上发表论文,论文题目为《User-based Hierarchical Network of Sina Weibo Emotion Analysis》。
新浪微博的情感分析对政府机构调查民意和企业跟踪市场需求都有很大的推动作用。现有的新浪微博情感分析工作大多专注于挖掘单个微博所包含的信息,而忽略了微博文本中上下文信息的缺乏所导致的信息提取不准确的问题。受人类从微博文本中判断用户情绪状态的启发,本文创建了基于活跃用户的微博文本五类情绪分类数据集,并提出了基于用户的层次网络(UBHN)用于微博情绪分析。首先,利用信息提取模块(InE)中设置的多头注意机制和卷积神经网络对单个微博文本进行分析,充分提取文本中包含的情感信息;同时,通过相关信息捕获模块(RIC)中设置的移动窗口,获取同一用户在一段时间内发布的其他微博文本,捕获微博文本之间的有效关联信息;然后,将上述获得的双文本表示进行串联,通过信息交互层再次检索相关信息,更新文本表示;最后,分类器输出每个微博文本对应的五类情感标签。通过实验和结果分析,验证了该模型的有效性。
我们的主要贡献如下:
1)基于活跃用户创建了包含时间序列信息的微博文本五类情感分类数据集。它不仅有利于情绪分析,还可用于情绪时序分析;
2)提出了一种基于用户视角的微博情感分析分层注意模型,该模型包括对词序列进行有效建模的自注意网络和通过移动窗口进行信息交互的分层注意网络。在充分获取当前文本信息的基础上,通过同一用户的其他微博文本对当前文本的上下文信息进行补充;
3)在数据集上的实验表明,该模型比基线模型具有更好的分类性能。
本文建立了基于活跃用户的微博文本五类情感分类数据集,提出了一种基于用户的层次网络(UBHN)用于微博情感分析。我们的模型利用多头注意机制对词序列进行有效的建模,充分提取出每个微博文本的情感信息。同时设置移动窗口,获取同一用户在一定时间段内的其他微博文本,获取微博文本之间的有效关联信息。从用户的角度出发,从两个维度捕捉微博文本的情感信息,提高微博文本情感分析的准确性。实验结果表明,该模型优于现有的基线模型。未来,我们将继续从用户的角度探索更多的社交媒体用户情感分析方法。除了本文提出的方法外,还可以从用户的社交网络中获得有效的情绪信息,同一用户的情绪波动也可能具有周期性变化的特征,这也有助于对微博文本的情绪分析。
TALLIP为自然语言处理领域CCF C类期刊,SCI检索。在亚洲语言、非洲、澳大利亚、大洋洲和美洲低资源语言以及相关学科的信息计算和处理领域发表高质量的论文。