随着互联网技术的飞速发展,人们越来越习惯通过网络发布信息和获取信息,也更加习惯在互联网上发表一些包含自己感情或者意见的信息。因此,各种各样的表达情感的文本信息在网络上广泛分布,例如个人博客、新浪微博、贴吧、知乎、Twitter、Facebook这样的社交网站中,这些信息有关于某些产品的评论、对当下热门新闻事件的参与讨论及对任何事件的情感或看法等。尽管人们可以方便得通过网络发布和参看这些信息,但是面对如此海量的源数据,如果不加以整理和归纳,人们无法从中获取任何有价值的信息,分析这些信息所表达的情感倾向并将情感可视化分析正是在这一背景下应运而生的。
这些情感信息的发布和传播对我们了解公共事件的影响力及人们对事件的反应起到了指示器的作用,能够预测某一事件是向好的方向发展还是向坏的方向发展。同时这些情感信息对于用户来说是非常重要的,不仅可以给出人们在网络世界的情感快照,而且对不同层面的人来说都有潜在的经济学和社会学的价值,举例来说,消费者在购买某件商品,特别是在网上购物时,很自然得会去看之前的用户对此商品或服务的评价信息,并作为参考,以此来最终决定是否购买此商品。商家在生产某件商品之前,会调查用户对该公司及其产品的喜好及意见,以制订合理的生产计划,避免产生不必要的开支。国家在制订某项方针政策后,可在试行阶段通过人们在网络上发布的关于此项政策的情感信息,以了解人民大众的总体情感倾向,以此进一步确定此项方针政策是否需要改进还是继续推行,从而使国家制定的政策更加合理有效。
面对如此大量的非结构化的情感数据,,如何将情感分类结果以一种更加直观、更加有效的方式提供给用户,由于情感数据随着时间有着动态变化的特点,所以在研究情感分析结果可视化时要充分考虑到这一点,需要再图形中呈现出随时间的动态演变趋势。而且,情感分类的各个类别之间并没有绝对的界线,也就是情感存在强弱之分,也需要在可视化图形中充分体现这一点。
随着网络上各类情感意见的急速增长,研究这些情感意见的可视化也收到越来越多的学者的关注,下面将介绍几种比较有效的图形化的方式。这些图形可视化方式各有特色,也有各自的应用场所,在大量数据集的展现方面效果显著。
一、 时序文本内容可视化
(一) ThemeRiver可视化
2002年Harve等人研究出了一种新的图形可视化方式,即ThemeRiver图。该图描述的是大量文档集中主题随着时间的变化,这种在内容框架中的即时主题变化使用户可以识别关系模式及事件发展趋势。例如,一件外部时间主题强度的突然变化可能预示着一种因果关系,而这种关系模式在其他形式的可视化中并不能够很容易得得到。该图使用河流的比喻来表达一些关键的概念,具体来说,就是用河流的定向流动、河流的组成成分和河流的宽度变化分别表示文档的收集时间、所选主题的内容和强度变化。河流中带颜色的水流代表着单个主题,并且该水流垂直宽度的加宽或变窄与该主题的加强或减弱保持一致。通过ThemeRiver图,用户不仅能够识别单个祖逖模式,而且能识别大量主题与时间的关系,揭示数据中主题的发展趋势、内在联系、异常波动和内部结构。
图 1:媒体新闻主题变化ThemeRiver可视化分析图
图1反映了1990年7月到8月初相关媒体新闻中的主题变化,该图由河中部的主题内容、河底部的时间线及和河上部的相关标记信息组成。从该图中可以看到8月初整个河流看度有所增加,这极有可能是因为“kuwait”、“irap”、“saddam”和“Baghdad”等主题强度的增加,而这些信息与1990年8月2日伊拉克入侵科威特是对应的。图中有一些像“oil”这样的连续主题流,这表明“oil”这一话题在整个时间段都是一个相对普遍的话题,并且在这场侵略战争中强度显著增加。在侵略战争爆发前五周时,“iraq”、“saddam”和“baghdad”等主题在河流都是很窄的,但是在前两走时,这些主题的强度激增,直到战争爆发前一周和战争过程中,这些主题强度都达到最高。在某些情况下,需要进一步研究并未包括在主题流中的事件后,才能解释该图中某些祖逖的突然出现或消失的原因。此外,ThemeRiver图在这些事件后附加了一些标记以便于理解,在该图的上部分可以看到。
TextFlow是ThemeRiver的一种拓展,不仅表达了主题的变化,还表达了各个主题随着时间的分裂与合并,如某个主题在某个时间分成了两个主题,或多个主题在某个时间合并成了一个主题。
图 2:TextFlow主题变化图
二、 情感分析可视化
文本情感可视化技术大多以展示基于时间轴的信息流为主,例如今日头条上的新闻、微博信息流、商品的用户评价等等。通过时间序列图动态显示情绪变化。图3是Twitter数据集的时间序列图反映各个不同事件对Twitter网民情绪影响,其中正向的值代表积极情绪,负向则是消极情绪。但是这种简单的可视化方法太过于抽象,以至于难以表现出这些情绪转换出现的原因。
图 3:Twitter数据集时间序列情绪变化图
从应用层面来看,文本情感分析最具有价值也是最便于直接利用的领域是对于顾客评论的分析,尤其是当网购已成为人们不可或缺的消费渠道时,人们会非常直接在各个电商平台上对所购买的商品做出正负面评价。实际上,现在已有很多情感可视化系统正是专门针对这一场景设计的。
图4是某顾客对某款打印机评论的可视化分析结果,以热力图的方式同时展示了评论量和情感。其中每一行代表一种品类的打印机,每一列则是打印机的某一属性,红色表示消极情绪,蓝色则代表积极情绪,颜色的深浅程度代表该情绪的高低,每一个方格中的方块大小表示评论数量。这种可视化方式,不仅合理地将情绪极性数据同产品的各个维度结合在一起,还简洁、高区分度地呈现出:情感极性。
图 4:客户反馈信息情感分歧热力图
Rohrdantz曾发表一套完整的用户评论情感可视系统,集合了文本挖掘、情感分析与科室化技术,帮助系统使用者提取文本中有意义的信息,例如情感变化、数据密度、关键词等等。以下图5热力图展示了时间轴上的情感变化,以日历的形式展现整体时间线上的情感分析结果。其中每一个像素点代表一个文本,绿色表示积极情绪,红色表示消极情绪,黄色为中性情绪。
图 5:情感变化热力图
同时该系统为了更好得表现情感变化、数据密度以及关键词上下文,还提供了如下时间密度图。图6是抽取了5万条包含关键词“password”的评论形成的时间密度图,每一条评论以竖线的形式展现,依然以红色表示消极情绪、绿色为积极勤学、灰色为中性的方式来表示情绪,而竖线的高度代表了计算结果的可靠性,越高代表可靠性越高。当选中每一条竖线时,可以追溯到具体的评论内容,评论内容中出现的名词形容词也会用具体的情绪颜色作出标注,而最下方的曲线表示数据密度。
图 6:情感变化密度图
社交媒体(以文本形式为主的帖子或状态)的可视化被大量得运用在舆情分析上,例如政府了解民宗对于某些政策或者事件的意见,企业收集网民对于公司产品的看法。这样的舆情分析的难点在于互联网上人们的想法传播非常迅速,而公众意见也存在多样性的特点。
可以通过桑基图的方式展现社交媒体中多个主题的意见传播状况。其中桑基图最明显的特征是,始末分支宽度总各相等,即所有主支宽度的总和应与所有分出去的分支宽度的综合相等,保持能力能量的平衡,可以动态得反映数据得流动状况。
图 7:社交媒体意见传播桑基图
图7中红色和绿色仍然代表了意见的积极和消极状态。右面四个图是左图中ABCD点传播的具体展示,其中A和D 是媒体用户“福克斯新闻”的传播路径图,而B和C是普通用户的传播图。使用节点链接图来突出显示密度图上单个扩散路径,显示了关于扩散的更多细节。
文本情感可视化是一个非常有趣的领域,仍在不断发展中,目前还没有一套特别完备的标准。而目前的情感可视化技术大多是应用驱动的,并没有特别清晰的分类。相信这一方向将会是未来的研究热点。
三、 情感分析可视化在数字货币认知指数构建中的应用
随着数据获取技术和文本分析技术的发展,舆情指数的构造方法也越来越高效且贴近实际,目前基于网络平台获取大量真实用户评价并利用文本挖掘研究其中情感倾向从而构造舆情指数的方法被学术界和工业界广泛采用。
基于网络爬虫技术,采集权威主流媒体、网络新媒体、自媒体和数字货币媒体等提供的大数据信息,构建数字货币认知指数,全面客观反映社会群体对数字货币和区块链在舆情传播、关注程度和情感倾向等方面的总体认知情况及变化动态。研究周期为2017年1月至2018年4月,包含2017年全年和2018年第一季度数字货币的认知状况,有助于展望2018年的发展趋势。
在研究人们对数字货币情感倾向及其差异的方面,本文采用了情感分歧热力图的方式来展现人们对数字货币的情感倾向及差异。
图 8:数字货币文章及评论情感变化分析图
颜色的变化以及深浅程度代表该情绪的高低。越接近1,颜色越趋近于红色,说明情绪偏积极、消极、中性的可能性越大,情绪越积极或越消极,或坚持保持中立。评分越低,颜色越趋近于蓝色,情绪比较和缓。上下折线图表示文章数和评论数的变化。消极文章的情绪较为平稳,积极文章情感偏向平稳。而积极评论的情绪从较为激烈的情感趋于和缓。消极评论的情绪消极程度降低,说明评论情绪激烈程度都有所下降,消极和积极的情绪都趋于和缓。而无论中性文章还是中性评论,中性情绪波动不大。
图 9:数字货币文章及评论情感差异程度分析图
颜色的变化以及深浅程度以及深浅程度代表文章和评论内部的消极、中性和积极情感的内部差异程度。越接近于0,说明差异程度越小。可以明显看出消极评论差异程度,由深红色逐渐变为浅红色,说明消极评论之间的情感差异程度在逐渐变小。消极文章的差异程度变化不大。积极文章的情感差异程度随时间变化,波动比较明显,在逐渐变小。积极评论的情感差异程度变化较为明显,2017年3月以及2018年3月的差异程度最大。中性文章之间的情感差异较小。中性评论之间的情感差异较小,但存在小幅波动。
参考文献
[1] 朱文君.Twitter情感分类及可视化的研究[D],武汉理工大学.
[2] Nan Cao,Weiwei Cui. Introduction to Text Visualization,57-97.
[3] Havre S, Hetzler E, Whitney P, et al. Themeriver: Visualizing thematic changes in large document collections[J]. IEEE transactions on visualization and computer graphics, 2002, 8(1): 9-20.