封面题字: 杨 辛
主办单位:北京大学
顾 问:王义遒 林钧敬 张 彦
编委会主任:陈宝剑
副主任:陈占安 徐善东 王逸鸣
户国栋
委 员(以姓氏笔画为序):
王天兵 王艳超 冯支越 匡国鑫
孙 华 关海庭 陈建龙 刘 卉
刘海骅 宇文利 吴艳红 李 杨
陈征微 金顶兵 查 晶 祖嘉合
夏学銮 蒋广学 霍晓丹 魏中鹏
刘书林(《思想理论教育导刊》常务副主编)
杨守建(《中国青年研究》副主编)
彭庆红(《思想教育研究》常务副主编)
谢成宇(《学校党建与思想教育》社长)
屈晓婷(《北京教育(德育)》副主编)
夏晓虹(《高校辅导员》常务副主编)
周文辉(《学位与研究生教育》社长)
李艺英(《北京教育(高教)》社长)
郑 端(《思想理论教育导刊》编辑部主任)
陈九如(《高校辅导员学刊》副主编)
毛殊凡(《中国高校社会科学》总编室主任)
主 编:王艳超
编 辑:许 凝 马丽晨 朱俊炜
王 剑 吕 媛 李婷婷
李 涛 侯欣迪 杨晓征
宋 鑫 张会峰 陈秋媛
马 博 陈珺茗 陈 卓
审 校:青年理论办公室
摘要:文章围绕文本情感分析技术分析其功能和应用,并与高校网站群内容监控工作相结合,提出了一种情感分析技术在高校网站群舆情监控系统中的应用方案。该方案有助于快速发现负面舆情内容,满足高校管理部门对网站群内容监测和舆情热点追踪的基本需求,为保障高校网站群信息内容安全提供技术支持。
关键词:情感分析;舆情监控;内容监测
随着互联网技术飞速发展及日益成熟,平板电脑、智能手机等移动互联网终端设备和无线网在高校校园已基本普及,随之而来是信息安全工作的任务越来越重,牢牢把握互联网舆论阵地的主动权,营造网上舆论宣传的强势,将成为信息内容安全的工作重心。网络舆情是信息安全的重要内容,正面和负面的信息在网上的传播都非常迅速,正面的舆情信息能够帮助管理机构作出正常的决策,负面舆情如果不适时加以控制可能会对高校带来巨大的不利影响。目前,高校所属网站数据量大,而文本表达语义丰富多变,简单的关键词过滤、人工值班已经不能适应发展管理的需要,高效的、专门定制的内容舆情监控系统亟待建设。
一、相关研究回顾
网络舆情的分析研究在国内外属于新课题,主要包括两个方面内容:一是如何有效获取互联网舆情信息,得到有价值的舆情研究对象;二是怎样对互联网舆情信息进行处理、分析、监测和预警。这两个方面的研究涉及多个领域,其中技术层面包括文本分类、情感倾向性分析等计算机自然语言处理技术。
(一)文本分类
文本分类是自然语言处理的一个基本任务,基本功能是试图推断出给定文本(句子、文档等)的标签或标签集合。文本分类主要包括文本的表示方法、特征的选择和提取、分类器的选择与训练等过程。
最早的文本语义表示方法采用词袋表示模型,词袋模型常用特征包括词语、n元词组等,是人工抽取定义的。但是由于浅层表示稀疏常常导致匹配效果不佳,所以通用性较低,近期相关研究都使用深度神经网络基于词向量对文本表示建模,深度神经网络对事物的建模或抽象表现能力更强。
文本分类中特征向量的高维性和稀疏性,对文本数据进行维数压缩极为重要。传统的文本分类方法中特征选择根据某个衡量标准选择保留最优特征,如文档频率、信息增益、互信息等;特征提取方面,主成分分析、线性判别分析和概念索引分析等方法也先后引入到文本分类的领域中来[1]。近期热门的深度学习分类模型会训练自动的特征提取模型,不需要人工定义[2]。
基于机器学习的有监督分类方法占据了统治地位。该方法无需领域专家,但分类速度和正确率都令人满意,且通常具有良好的领域移植性。机器学习的文本分类方法可以理解为根据待分类数据的某些特征与预先已标注类别的数据的特征进行匹配,依据一定的评价标准选择最优的匹配结果完成分类任务。
(二)情感分析
1997年,美国于年教授首次提出了“Affectivecomputing”的概念,定义情感计算是有关情感、情感的产生来源及情感的影响等方面的计算[3]。文本的情感计算是指应用自然语言处理、计算语言学、文本分析技术对情感语料中的主观情绪表示或抽取,并确定文本的总体情感倾向或态度,也被称为情感倾向性分析(SentimentalOrientationAnalysis)、情感分类(SentimentClassification)等[4]。
文本情感分析技术可以分为基于词典的技术和基于机器学习的技术两大类。
基于词典的技术中,情感词典是文本情感分析的基础,情感词典包含了极性和强度标注。文本情感分析对文本中包含的词语查询情感词典得到对应的极性,最终计算出整段文本的情感。
利用机器学习方法进行文本情感分析是近年来的研究热点。它基于标注了情感的训练数据,通过训练文本情感分析模型,完成情感分析。BoPang等最早将机器学习的方法引入到倾向性分析中,分别用了贝叶斯分类器、最大熵模型、支持向量机等方法对电影评论进行分类,试验结果支持向量机效果最佳。近期前沿研究围绕深度学习模型展开,Kim基于卷积神经网络模型建立了一个端到端的句子级别分类模型应用于情感分类[5]。
二、舆情监控系统的关键技术
舆情监控系统是针对网络舆情进行采集、跟踪和分析处理的信息系统。Cheng等人基于语义内容识别技术建立了一个舆情监控和分析框架。高校网站群舆情监控系统是实现针对高校管辖网站群的舆情监控。系统整合信息技术,实现网站群舆情监控功能,满足网络舆情管理部门对网络舆情监测和舆情专题追踪的需求,为管理部门全面掌握网络舆情、争取处置主动权提供有效分析依据和数据信息支持。
本节将设计舆情监控系统实现。系统主要功能流程包括信息搜集、数据预处理、数据分析三个模块。流程图如下所示。
图1:舆情监控系统流程示意图
首先是信息搜集模块,用于从网站群等监控目标网页抓取内容信息。其次是数据预处理,将对网页内容进行抽取、转换、清洗,并对文本内容进行必要的预处理。然后是核心的数据分析模块,实现舆情内容分类、舆情倾向性分析功能。最后是用户访问的数据分析结果展示模块。下面将对其中涉及的关键技术逐一说明。
(一)信息搜集模块
舆情监控系统首先要有信息搜集采集功能。网站的舆情价值与其对网民的开放程度是成正比的,公众参与度越高,舆情价值越大。用这个标准衡量,网络舆情的主要载体是微博、论坛、博客及其他具有新闻评论功能的网站,这些构成了网络舆情的主要信息源。
高校网站群中舆情信息来源包括:
校内论坛:这是目前反映校内师生民意的最佳场所。论坛中,可以以话题为线索展开讨论,重要事件发生时往往具有联动效应,也会聚集林林总总的评论;
高校新闻网:新闻网站是高校对外公开信息的官方网站,也是重大事件的校方立场的表达场所。用户发表的新闻评论也是舆情信息的重要来源;
二级单位网站:教学研究单位、管理服务部门的网站包括新闻报道等,是二级单位官方立场的表达场所,如包含评论功能也是舆情监控需要关注的重点;
其他:除了上述核心信息来源外,高校网站群舆情还可能来自二级单位下的分支机构相关网站等。
信息采集工具须对上述舆情信息源的搜集提供完善的解决方案。信息采集工具一般基于网络爬虫技术。网络爬虫技术的工作原理是通过一个Crawler自动程序从一个URL种子集开始,循环执行以下流程:从待抓取URL队列中去除一个URL,把对应文档下载下来,并分析该页面获取新的未获取过的URL加入到待抓取URL队列中。网络爬虫技术能够满足网络舆情数据自动采集的需求。
根据抓取范围,网络爬虫可以分为基于全网的网络爬虫、基于主题的网络爬虫和基于原搜索的网络爬虫。基于全网的网络爬虫对整个互联网中的页面进行信息采集,涉及面广,但数据可利用率较低。基于主题的网络爬虫,也可称为聚焦爬虫,其工作原理是根据预先定义的主题信息,有针对性和选择性地采集数据,过滤无关页面,其优点是数据有针对性、利用率高,但由于页面相关性判断需要耗费较多时间所以采集速度较慢。基于原搜索的网络爬虫则通过不同的成员搜索引擎来获取数据。实际中,可以多种技术结合使用。
(二)数据预处理模块
1.网页内容提取
网站页面上存储的数据一般是以HTML文本为载体的Web页面数据,是半结构化的、异构的开放性数据。这些数据主要包含两部分内容,一部分是网页展示出来的内容数据,也就是网页正文,另一部分是与网页主题不相关的数据,例如网页的导航、版权信息、广告等,是网页噪音。网页舆情分析是对网页正文进行分析,因此需要过滤网页噪音,提取网页正文。
根据方法原理,网页提取技术可分为基于启发式的提取算法和基于机器学习的提取算法。基于启发式的提取算法,是通过识别HTML语言标签,结合网页DOM树,根据制定的启发式规则,完成正文信息提取。基于机器学习的提取算法,则是训练分类器模型来判断HTML中的某个节点内容是否是正文。
2.中文分词技术
与拉丁语系的文本不同,中文并不使用空格作为词语间的分隔符。比如当我们说“WelovePekingUniversity”,这句英文使用了两个空格来分割四个英文词汇;如果用中文做同样的表述,就是“我们爱北京大学”,其中不包含任何空格。因而,处理中文数据时,我们需要进行分词,可以将语句切分成有独立意义的词。经过多年的发展,中文分词技术已经从基于词典的字符串匹配技术发展到了基于统计的有监督学习模型,分词正确率也达到了实际可信的水平。常用的中文分词工具有StanfordNLP[6]、jieba[7]等。
(三)数据分析模块
数据分析功能模块是网站群舆情监控系统的核心,负责对预处理后的网页内容监控数据以及相应的基础库进行进一步的加工和处理,提供数据统计分析功能,实现舆情发现和监控。
1.需求分析
具体来说,舆情监控和分析需要满足以下三方面的功能:
舆论热点和主题发现:一般来说,利用舆情信息采集工具可以收集到来自论坛、评论、新闻中的大量原始素材,但是,如何在大量原始素材中自动发现热点问题,特别是在热点形成时能够第一时间发现,是舆情分析的难点。
舆论热点和主题跟踪:网络环境下,热点问题的产生、发展、高潮、减弱、消退是一个动态的发展过程,如何准确反映热点问题的发展状态和趋势,对于舆情引导和决策应对具有重要意义。
舆情敏感问题的监控:对于用户所关注的领域或者事件,如何进行有效监控和预警。
对此,结合情感分析技术,舆情监控和分析需要解决两类问题,一是如何对用户关注的舆情内容建立科学的分类体系并进行有效的自动分类;二是如何根据舆情自动分类的结果评估和分析当前的宏观舆情态势,并给出预警信号。
2.舆情内容分类
根据舆情内容分类表,对网站内容话题进行分类,使得系统能快速有效地定位敏感舆情内容。具体实现包括三步。
(1)以舆情分类为基础,收集整理舆情关键词词表,建立训练数据
当前我国已有的维稳事件分类[8]包含类别如表1所示。结合高校管理特点,我们可以从教学、科研、服务、校园生活等方面,根据实际情况对舆情内容分类进行调整。
表1:舆情内容分类表
(2)基于深度学习模型,训练供舆情监控系统使用的文本分类模型
传统的文本分类方法,文本表示是高纬的、稀疏的,需要人工设计特征工程,且特征表达能力相对较弱。近年来,深度学习模型在自然语言处理领域取得了巨大成功,一个重要原因就是将文本表示出稠密而连续的向量。基于深度学习模型进行文本分类,首先建立词向量矩阵,再利用卷积神经网络或者循环神经网络等模型自动获取特征表达能力,端到端地建立文本分类模型。基于深度学习的文本分类模型示意图如图2所示,包含词向量、深度神经网络和分类预测三个相对独立的步骤。
词向量:词向量技术是指将词转化成分布式表示,用一个定长的连续稠密向量来表示词语,使得在语义空间中,语义相近的词在向量空间中的距离更近,反之则更远。Mikolov提出的skip-gram模型将词向量计算复杂度降低,其基本思想是对每一个词,取其前后固定大小的窗口作为词语上下文,并把窗口内所有词的词向量求平均来预测当前词[9]。
深度神经网络:自然语言处理领域的深度神经网络模型主要是指卷积神经网络模型和循环神经网络模型。卷积神经网络主要利用空间相对关系减少参数数目以提高训练性能,其本质是多层卷积运算。循环神经网络是专门设计用于处理序列数据的神经网络架构,它利用时间相对关系减少参数数目以提高训练性能。这两种深度神经网络都可以用于文本分类模型中[10]。
分类预测:预测阶段一般采用归一化指数函数(Softmax函数)进行最后的预测。
图2:基于深度神经网络的文本分类应用示意图
3.舆情情感分析
舆情情感分析就是对网络文本按照情感进行分类,分析该文本是属于对事物的积极或消极意见。文本倾向性分类(SentimentClassification)正是解决上述问题的关键技术。文本倾向性分类的方法有传统和基于深度学习两种。
传统的文本倾向性分类方法对于每个话题、每个网页文本的情感进行分析和挖掘,基本步骤是:先提取情感文本的特征表示,然后根据所选取的特征集,使用机器学习算法完成倾向性分类任务。这里倾向性分析跟文本内容分类一样,采用向量空间模型表示,特征集采用N-gram特征集,即从文本中抽取无序的词语组成集合,构成倾向性表达文本的特征集。与文本内容分类不同,倾向性分析模块的特征保留形容词、副词、动词,得到词语序列,对词语序列设定一个窗口来选取情感词和评价词,以及其上下文的实例,作为倾向性判断特征。
基于深度学习的方法则将情感分析看作是一个基于深度神经网络模型的分类问题。因此,此模块与内容分类模块实现过程类似,需要建立训练数据集,构建分类模型框架,再训练模型用于情感分析预测。
4.舆情预警分析
舆情预警分析需要从计量的角度对网络信息的演变和特征进行描述和分析,主要采用数字、统计学等定量方法对网上的信息组织、存储、分布、相互引证进行定量描述和统计分析,揭示数量特征和内在规律。一般而言,网络舆情的演化有三个阶段,初始传播阶段、迅速扩散阶段和消退阶段。对应到网站群舆情监控就是话题出现、话题量密集增加和话题消失三个阶段。舆情预警分析就是自动探测出近期密集增加的舆情内容。
主流的热点话题发现与追踪采用文本聚类技术实现,但在网页数量大、内容庞杂、干扰因素多等情况下,很难精准聚合热点内容。考虑到网络舆情监控与维稳工作密切相关,所以系统建立时可针对维稳工作主题过滤网页再进行文本聚类,从而实现相关内容的整理和展示。K-means算法是最为经典的基于划分的聚类方法,是经典的数据挖掘算法。它的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
三、反思与总结
网络已经成为高校信息流动的重要渠道。高校管辖的网站群是师生们获取校内新闻和热点事件的重要来源,也是发表评论、表达观点的重要场所。舆情监控作为信息安全的重要内容,也越来越受到关注。本系统立足于高校实际,围绕网站舆情信息的收集获取、基于文本分类的舆情内容挖掘,舆情信息的倾向性分析、舆情监控范围内的内容预警等方面进行研究和设计,完成了高校网站群舆情监控系统的设计框架。
由于自然语言处理技术的发展迅速,舆情监控系统中的关键技术仍然有很多内容需要深入研究、进一步改进,系统的功能还需要补充和完善。另外,随着智能手机和微信公众号分发平台的广泛应用,舆情的监控将从开放的网站群逐渐转移到移动内容平台,也是未来可以探讨的重点方向。
作者简介:陈 晨 北京大学网信办管理办公室副主任 助理研究员
闫保桦 北京大学网信办综合办公室主任 助理研究员
参考文献:
[1]宗成庆.统计自然语言处理[M].北京:清华大学出版社,2013:8.
[2YoonKim.2014.Convolutionalneuralnetworksforsentenceclassification.InProceedingsof
the2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pages1746–1751,Doha,Qatar.
[3]PicardRW.Affectivecomputing[M].MITPress,Cambridge,MA,1997.
[4]Sentimentanalysis[EB/OL].http://en.wikiPedia.org/wiki/Sentiment_analysis.
[5]KimY.ConvolutionalNeuralNetworksforSentenceClassification[J].empiricalmethodsinnatural
languageprocessing,2014:1746-1751.
[6]https://nlp.stanford.edu/.
[7]https://pypi.org/project/jieba/.
[8]维稳词库——影响社会稳定(舆情发现),http://www.datatang.com/data/46616.
[9]Mikolov,T.,etal.,DistributedRepresentationsofWordsandPhrasesandtheirCompositional
ity.neuralinformationprocessingsystems,2013:p.3111-3119.
[10DuyuTang,BingQin,andTingLiu.2015.Documentmodelingwithgatedrecurrentneuralnetworkfo
rsentimentclassification.InProceedingsofthe2015ConferenceonEmpiricalM
ethodsinNaturalLanguage.