老哥学习网 - www.lg9.cn 2024年05月04日 01:35 星期六
当前位置 首页 >诗词歌赋 >

复杂网络与可视化研究所 基于复杂网络可视化模型的专题新闻演化研究

发布时间:2019-06-03 06:56:36 浏览数:

  [摘 要] 本文是基于复杂网络的思想,根据card(1999)提出的信息可视化参考模型构建的专题新闻文本集信息可视化的概念模型和形式化模型,以温州动车事故专题新闻文本集为例,对专题新闻按照时间段分为三个时期,并对不同时期进行信息可视化分析,分析总结新闻演化过程。分析得出,随着时间的变化,新闻集中的关注点发生变化,而且关注点会逐渐变得分散,新闻的关注度也逐渐减少。
  [关键词] 专题新闻; 信息可视化; 演化
  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 24. 047
  [中图分类号] G203 [文献标识码] A [文章编号] 1673 - 0194(2012)24- 0077- 02
  1 引 言
  随着计算机网络的出现,信息技术迅速发展,人类进入了信息爆炸的时代。信息爆炸的一个重要表现就是新闻信息飞速增加。新闻传播的更新速度和传播效率不断加快,这种加快导致新闻数量不断增大,各种信息非常分散。为了能快捷地了解新闻的演化过程,直观地观察信息之间的复杂关系,需要一门结合科学可视化、数据挖掘、图像技术、图形学、人机交互和认知科学等诸多学科理论或方法的新学科,这就是20世纪80年代末诞生的可视化技术。
  复杂网络的主要思想是将真实系统中各部分之间的联系看作一个复杂网络,以网络的形式来抽象地描述真实系统中各部分之间的关系,强调系统结构的拓扑特征,从而使人们更好地了解现实世界系统的本质特征。一个典型的网络是由许多节点与连接节点之间的边组成的。节点代表系统中的实体,边则表示节点之间的作用关系。
  2 复杂网络可视化模型
  2.1 信息实体的提取
  本文采用人工方式选择及提取新闻文本信息实体,按照专题新闻文本信息实体的定义和选择新闻文本信息实体的原则与方法可以将专题新闻文本中不同要素的信息实体按不同粒度提取出来,形成信息实体库。新闻文本信息实体之间的存在的各种关系,即信息实体之间形成的有意义的系统的联系,即为信息实体之间的联系。本文中两个信息实体出现在相同新闻文本中的新闻文本数量即为这两个信息实体之间的关联权重。
  2.2 模型构建
  可视化模型包含3个要素:信息实体、信息实体关联和信息实体网络。新闻文本信息实体的实质就是能代表新闻文本内容的基本信息单位。新闻文本信息实体关联也就是新闻文本信息实体之间形成的有意义的系统的联系。信息实体网络是由用户信息需求、信息实体和信息实体关联构成的。
  通过数据变换从专题新闻文本集中提取信息实体,经过可视化映射过程,信息实体及信息实体关联转换为可视化的结构。最后进行视图变换利用可视化显示技术将所得的信息实体网络用直观的、易于理解的图形方式显示出来。
  2.3 复杂网络可视化模型的分析
  网络度是描述网络中某一节点连接其他节点程度的概念,定义文本网络中的度是与某个节点有联系的节点的总数,通过可视化结果分析,度大的节点出现在句子中的次数越多,则该词的重要程度越高,是文中的关键实体。
  最短路径是用来测量网络结构中距离最好的方法,路径是由从一个节点到另一个节点的不重复边构成,与网络度和网络节点强度不同的是,它不仅考虑了节点的近邻节点,还考虑了间接节点。最短路径是衡量实体连通性好坏的标准,最短路径越短,实体节点在文章中起到的作用越重要。
  聚类系数反映网络的紧密程度,整个网络的聚类系数是所有节点的聚类系数的平均值,聚类系数则反映文章内容的紧密程度。这项特征值的分析主要是对文本的内容进行评价,聚类系数越大,文本复杂网络的紧密程度越好,也就是文本内容在表述上更紧密与紧凑。
  3 实证分析
  本次收集的新闻文本报道时间从2011年7月23日20:34分至2012年4月13日8:05。本文利用谷歌快讯推送含有“温州”、“动车”关键词的新闻,共搜集到新闻总量为892条。由于样本量太大,进行了抽取。依照不同新闻时间抽取不同数量的新闻文本。本次抽取新闻共100条。
  3.1 总体网络分析
  利用UCINET将动车事故新闻文本集信息实体网络的关联矩阵转化为直观的信息实体网络图,如图1所示。灾后重建新闻文本集信息实体网络图直观地展示了所收集的100个灾后重建新闻文本中的主要信息。
  在全局网中,度数排名前五的非时间关键词为:“温州”、“北京”、“国务院”、“温家宝”、“召开记者会”。
  在全局网中,平均最短路径为1.019。表明全局网各节点之间的连贯性和凝聚力较好。
  在全局网中,基于距离的聚类系数为0.990。聚类系数非常大,证明复杂网络的紧密程度较好。
  3.2 演化分析
  按照温州动车事故新闻文本数量的变化,把此事件分为3个部分,如图2所示,可是分为爆发期、转折期与平稳期3个阶段。
  第一阶段新闻爆发时期,从2011年7月23日开始到7月28日,共抽取76条新闻,87个信息实体。爆发期网络中,度数排名前五的非时间节点为“温州”、“温家宝”、“召开记者会”、“动车”、“北京”。此网络的平均最短路径为1.033,基于距离的聚类系数为0.983。表明此网络的连贯性和凝聚力较好,紧密程度较好。
  第二阶段新闻转折时期,从2011年7月29日开始到7月31日,共抽取11条新闻,22个信息实体。转折期网络中,度数排名前五的非时间节点为“温州”、“北京”、“签订赔偿协议”、“家属”、“国务院”。此网络的平均路径为1.905,较爆发期网络有所增长,表明网络的连通性和凝聚力变弱。基于距离的聚类系数为0.591,较网络一减少,表明网络变得比较分散。
  第三阶段新闻平稳期,从2011年8月1日开始到2012年4月13日,共抽取13条新闻,33个信息实体。平稳期网络中,度数排名前五的非时间节点为“北京”、“国务院”、“事故处理”、“安监局”、“调查结束”。平稳期网络的平均最短路径为2.313,基于距离的聚类系数为0.504。   3.3 结果与讨论
  通过对新闻事件按时间分成不同时期,对不同时期的信息实体建立可视化模型,对不同时期的网络图进行对比研究,可以从网络的拓扑结构、节点的度、平均最短路径以及基于距离的聚类系数方面分析出新闻演化的过程。
  专题新闻不同时期的关注点不同。通过对温州动车事故的实证研究可以看出,不同时期的节点度数排名有很大不同。爆发期关注点集中在“温州”,即事件的发生地。平稳期关注点集中在“北京”,即事件的处理中心。
  专题新闻不同时期的关注度不同。通过对温州动车事故的实证研究可以看出,不同时期的网络平均最短路径与聚类系数不同,由爆发期到转折期再到平稳期,网络的平均最短路径不断增大,基于距离的聚类系数不断减小。意味着网络的凝聚性越来越小,网络逐渐变得分散。这一方面是由于新闻的关注点逐渐变得分散,另一方面是由于新闻的数量逐渐变少,表明新闻的关注度逐渐变少。
  4 结 语
  新闻是人们获取各种各样信息的主要方式,也是最容易获得的公共信息。通过信息可视化构建专题新闻演化的信息实体网络,展示新闻演化过程,不仅能节省人们的大量的阅读时间而且能提高人们的信息获取能力,发现隐藏在新闻中的潜藏信息,有利于为管理决策提供依据。本文从网络构建的角度出发,构建了专题新闻演化信息可视化模型,并对温州动车事故专题新闻文本集进行了实证研究,利用复杂网络展示专题新闻演化过程。
  但是仍然存在以下不足需要进一步研究:
  (1) 信息实体的选取方法。本文主要根据新闻要素说提出从时间、地点、主体、事件4个方面提取信息实体以代表专题新闻文本中的主要信息。但是这4个方面只是代表了新闻文本中的主要信息,而新闻文本中的其他信息则丢失了,无法在专题新闻文本集可视化视图中展示出来。因此需要进一步研究如何选择信息实体以代表专题新闻文本集中的全部信息,减少信息的丢失。
  (2) 信息实体的提取方法。本文采取的手工提取信息实体的方法,由于不同信息处理者对信息的获取、处理的能力不同,或者由于新闻文本写作的不规范导致新闻要素的缺失,会造成对于同一篇新闻文本不同信息处理者提取的信息实体不同的结果,特别是对于语义描述性信息实体(事件)的影响更大。所以需要进一步探讨如何客观地提取信息实体,使信息实体的提取结果更能准确地表示新闻文本集中的信息。
  (3) 深入分析新闻演化可视化结果。本文只是对演化的结果进行了简单分析,没有利用网络分析方法深入研究所构建的不同时期信息实体网络的特性。有必要对专题新闻不同时期信息实体网络的特性进行深入研究以期发现新的不同时期网络特性,进一步分析新闻的演化过程。
  主要参考文献
  [1] S H Strogatz. Exploring Complex Networks [J]. Nature, 2001(410): 268-276.
  [2] 刘红红,安海忠,高湘昀. 基于文本复杂网络的内容结构特征分析[J]. 现代图书情报技术,2011(1):69-73.
  [3] 赵蓉英. 论知识网络的结构[J]. 图书情报工作,2007,51(9):6-10.
  [4] S P Borgattl,M T Everett,etc. 社会网络分析软件UCINET[D]. 加州:加州大学,2002.

推荐访问:可视化 演化 模型 专题

相关文章:

Top