摘要
针对隐式关联关系挖掘不充分、未考虑时序演化因素等问题,提出时序演化特征挖掘的特定域社会事件检测方法。将数据按时间划分切片,通过考虑不同来源的重复事件记录对检测的影响,构造实体交互图,降低数据库误差影响;改进多关系图卷积网络,依据交互关系更新历史演化序列的图结构信息,通过注意力机制关注重要特征,得到序列单元全局表示,实现隐式关联的充分挖掘;基于循环神经网络提取时序演化特征,得到序列全局表示,实现时序演化因素的挖掘。实验结果表明,该方法能够适用于特定域社会事件检测任务,较现有方法效果更优。
Abstract
In view of the insufficient mining of implicit associative relationships and the problem of neglecting the temporal evolution factor, a domain-specific social event detection method via temporal evolution feature mining was proposed. The data was sliced by time and an entity interaction graph was constructed by considering the impact of duplicate event records from different sources on detection, in order to reduce the influence of database errors. Multi-relational graph convolutional network was improved, and the graph structure information of historical evolution sequence was updated by interaction relationships. Attention mechanism was used to learn core features to obtain global embedding of sequence units. Implicit association was mined sufficiently. Based on recurrent neural network, temporal evolution features were extracted to obtain the global embedding and the temporal evolution factor was mined effectively. Experiment results show that the proposed method can be applied to domain-specific social event detection task, which is better than existing methods.
社会事件是指在某个时间、地点聚集的群体性活动[1]。大数据时代,从复杂多元的互联网获取信息已经成为人们了解社会的重要手段,但信息质量良莠不齐,如何从中检测感兴趣的社会事件,对跟踪事件发展、处置突发情况具有十分重要的意义。相关任务按是否针对特定类型事件可分为开放域(open domain)与特定域(domain-specific)事件检测 [2-4]。开放域事件检测不针对特定事件,通常利用时间或信号突变,将趋势事件与非趋势事件区分开来。特定域事件检测针对感兴趣的特定事件(如抗议示威、地震等),利用机器学习、数据挖掘等技术实现,挖掘的是感兴趣事件的发生机理,检测的结果不涉及其他类型事件。因此,特定域社会事件检测的实际应用价值更大[5]。考虑到群体抗议事件往往具有突发性,且发生后会冲击社会稳定、影响民众生活,本论文以该类事件为例,研究特定域社会事件检测。
相关研究按所用数据形式和来源不同可分两类:
一是面向非结构化数据的检测方法,其主要利用新闻文本或社交帖文作为输入数据。例如,Sakaki等[6]提出一种基于支持向量机(support vector machine,SVM)的方法,识别有关日本地震的推文,并通过实验证实了所提方法的有效性。Lee等[7]构建半监督卷积神经网络对推文中提到的不良药物事件进行检测。蒋沂桔[8]通过多头注意力机制的图卷积网络与门控机制将语义与依存关系嵌入融合,实现多类型事件检测。Afyouni等[1]设计了混合学习模型Deep-Eware,通过引入用于事件发现的纯增量方法,集成KeyBERT语义关键字生成工具,在Twitter上验证了在线检测性能。Carta等[9]提出了面向金融的事件检测方法,通过专用词典实现词嵌入,设计分层聚类算法实现检测。这类方法通常基于文本嵌入或其他特征表示,局限主要包括:①容易受到文本中包含的非感兴趣事件信息干扰;②未考虑利用感兴趣事件发生前各类征候事件及其演化过程;③检测结果中通常缺少事发时间、地点、参与者等关键要素,还需进行命名实体识别、时间解析、地理位置估计等复杂后处理,才能推断出这些信息。
二是面向结构化数据的检测方法,主要利用GDELT[10](global data on event,location and tone)、ICEWS[11](integrated conflict early warning system)等事件库中结构化记录识别感兴趣的事件。如GDELT可通过直接检索(retrieving databases directly,RED)实现事件检测。Keneshloo等[12]首次基于GDELT使用频繁子图方法对巴西等国的政治危机进行检测。Qiao等[13]完善频繁子图挖掘算法(detection method based on frequent subgraphs,FSM),利用频繁子图构造感兴趣事件的特征选择集,以此进行特征表示,通过SVM实现抗议事件检测。Azeemi等[14]分别通过对地理位置与标题编码嵌入,实现了多类型感兴趣事件的检测,本质是基于短文本嵌入。不难看出,虽然面向结构化数据方法研究较少,但优势明显:①可用特征更丰富,结构化数据通常提供参与者、时间、地点、主题、其他附件等信息,能为检测提供更多数据支撑;②以字段为桥梁容易将结构化记录关联汇聚起来,便于挖掘感兴趣事件的关联与演化过程。然而不足也较为明显:①隐式关联挖掘不充分。隐式关联是指未直接决定事件发生的参与者间交互演化关系,如在融入了周边节点与边信息的关键子图中,每个节点融入的周边交互关系均间接决定了事件的最终发生。而显式关联则是直接决定事件发生的核心交互演化模式,其并没有融入周边交互信息,如上述频繁子图。由于现有研究挖掘的是频繁子图,且没有利用特征挖掘与表示能力更强的深度学习技术,因此无法充分挖掘隐式关联。②未考虑时序演化因素。由于事件通常基于酝酿演化而最终发生,因此其随时间的变化特征也需纳入考虑。
随着深度学习的迅猛发展,图注意力网络[15]、多关系图卷积网络[16-17]等图神经网络通过聚合周边节点与边信息实现特征更新,在挖掘要素依赖关系上具有显著优势。对于多关系交互演化模式,基于组合的多关系图卷积网络[17](composition-based multi-relational graph convolutional networks,CompGCN)在实验中表现出色,因此能够将该网络接入分类器实现检测。
基于上述调研分析,本论文以群体抗议事件为例,提出时序演化特征挖掘的特定域社会事件检测方法(detecting domain-specific social events via temporal evolution feature mining,TEFM),利用图神经网络来建模和挖掘演化特征,实现高精度检测。具体地,选用当前开放程度最高、数据时效性最强、学术影响力最大的GDELT作为数据来源;设计了交互关系挖掘与基于注意力机制的图表示算法,解决了隐式关联关系挖掘不充分的问题;设计了时序演化挖掘算法,考虑了时序演化因素对检测的影响;在构建的数据集上设计系列实验,以验证检测方法的有效性。
1 问题建模
考虑到特定域社会事件检测基于社会事件是经酝酿演化而最终发生的假设,研究目标是通过对感兴趣事件发生前参与群体的交互行为进行挖掘,判断当下时刻感兴趣事件发生的概率,本文将该问题建模为一个有监督的二分类问题。这样建模的优势在于能够充分利用事件发生前参与群体的交互演化关系推断事件发生概率,相比于事件记录层面的检索、分类(如SVM)或聚类更符合逻辑,这是由于结构化数据存在以下不足:①对其他无关新闻事件或者历史事件的大量提及;②数据库在机器翻译、事件抽取、事件编码中引入的误差;③非感兴趣事件的类别错划,如抗议类事件中,国家间的声张(declaration)等也常被归类为抗议事件。因此,对该问题的建模方式概括如下:给定目标地域在当下时刻T的历史事件集合E(T-l+1,T),通过将其按天划分时间切片得到GT-l+1,GT-l+2,···,GT,构建时间跨度为l的历史演化序列XT={GT-l+1,GT-l+2,···,GT}作为模型输入,模型的输出为目标地域在当下T时刻发生群体性抗议事件的概率P(YT|XT)。总结起来,本文关注的是,利用特定地域(如某个城市)在特定时间T之前的历史演化序列作为输入,判断该地在时间T发生感兴趣社会事件(如群体性抗议事件)的可能性,形式化定义为:
(1)
对上述定义给出实例化阐述:实体交互图GT是由目标地域在时间戳T日的事件元组(
)构建的多关系有向图GT=(V(S,O),R,T),其中S表示全部事件元组交互行为的发起方(施动者)集合,O表示全部事件元组交互行为的接受方(受动者)集合,V表示由S与O组成的集合,R表示对应于S与O的全部事件元组交互行为集合。由于S与O之间可能存在多个交互,因此GT是异构图。图1展示了实体交互图示例,不同颜色代表不同节点,出于美观考虑,图中对边类型未加注区分。

历史演化序列XT是由时间戳T前跨度为l的全部实体交互图按时间先后组成的序列,蕴含感兴趣事件在时间跨度l内的隐式演化特征。图2展示了感兴趣事件在时间戳T的历史演化序列。由于构成历史演化序列各单元数据的不同,因此序列上各实体交互图的结构也不一致。

图1实体交互图示例(局部)
Fig.1Example of entity interaction graph (part)

图2历史演化序列
Fig.2Historical evolution sequence
2 算法模型与分析
TEFM主要包括交互特征挖掘层、图表示层、时序演化特征挖掘层与输出层,总体架构如图3所示,步骤包括:将历史演化序列输入交互特征挖掘层,更新序列单元的节点与边信息;将更新后的序列单元通过图表示层,得到其全局表示;将上述全局表示按照时间顺序堆叠为序列嵌入再输入时序演化特征挖掘层,获取序列的全局表示;将上述序列的全局表示映射为事件发生的概率。

图3模型总体框架
Fig.3Overall model framework
2.1 交互特征挖掘层
第一步,将数据集的全部事件记录以天为时间切片划分实验数据,以参与者信息为桥梁、交互关系为连接,构建当日实体交互图GT。第二步,依据时间跨度l向前获取相应个数的实体交互图,并按照时间顺序组建历史演化序列XT。第三步,使用Xavier初始化方法[18]为数据集中所有的参与者(节点)与事件类型(边)分别生成初始化嵌入与,其中n1与n2分别为节点与边在数据集中的种类数量,d为初始化嵌入的特征维度,初始化过程严格记录种类索引。第四步,模块层对序列中每个实体交互图的结构信息进行特征更新,充分捕获邻居节点与边的信息,挖掘交互关系。这一部分的主体结构为CompGCN,由于构建的实体交互图是单向传播的,因此有必要去除对反向与自循环边的更新,以符合任务实际,减少参数使用。图4展示了时间戳T日实体交互图GT的局部更新计算过程,黑色实线为图中蓝色节点的聚合更新过程,灰色实线为图中各节点的交互关系,x1、x2、x3为周边节点的特征,z1、z2、z3为周边邻接关系的特征。定义v∈Nindex是GT中的蓝色节点,Nindex为模块层输入GT的全部头尾节点索引组合集合,rall∈Rindex是v的所有邻接关系,Rindex为模块层输入GT中全部边索引集合,N(v)是节点v在关系rall下的邻接节点集合,hv是节点v的表示,则节点v在聚合邻接节点与边的过程如下:

图4交互特征挖掘过程
Fig.4Process of interaction feature mining

(2)
式中,u、r分别为v的邻居集合中的节点与相应的边,W是投影矩阵。hu是综合考虑了节点u和关系r的影响而通过某种组合方式结合在一起的向量表示,具体的组合方式如下:
(3)
式中,φ(xu,zr)表示基于循环相关性的组合方式,xu是u的初始特征表示,zr是r的初始特征表示。节点特征更新后,边也同步更新,计算过程如下:
(4)
式中,Wrel是将边映射到节点空间的映射变换矩阵,便于对节点与边统一计算。更新后的节点嵌入与边嵌入分别表示为与。
至此,模块层对交互关系的挖掘学习过程全部结束,更新后的节点与边均隐含着邻居节点与边的知识信息(隐式关联关系),在一定程度上能够表征参与群体的交互行为,是形成实体交互图全局表示的基础。
2.2 图表示层
在更新节点嵌入与边嵌入之后,需要将GT进行融合得到其全局表示。而GT内的事件元组存在一定的重复记录,其主要来自两个方面,即数据库自身以及不同的新闻源。前者多是由于数据库在采集过程中因网页内容提取算法、机器翻译等带来的误差,通常在数据获取过程中筛选去除;后者虽然事件元组相同,但新闻来源不同,是事件重要性的侧面反映,因此需要将其考虑其中。
图5展示了图表示层的工作原理。首先,模块层获取输入交互特征挖掘层的头、尾节点索引与边索引,分别构建索引张量iS、iO与ir。其次,依据节点与边的索引张量分别从更新后的节点嵌入与边嵌入获取对应的特征表示,同时将其中相同索引的特征表示相加,得到S0、O0与R0。再次,对照与的维度和位置对S0、O0与R0进行放缩,将未在GT中出现的节点与边进行遮挡(即置为0特征),出现的则按照位置对应覆盖,得到与。最后,引入自注意力机制[19]分别学习头、尾节点与边的自身间注意力关系,以便更好突出重要事件元组的作用。具体计算过程如下:
(5)
式中,表示3个不同的权重矩阵,A为自注意力网络的输入,d1为矩阵维度,分别是由输入得到的查询矩阵、键矩阵与值矩阵。由此得到经自注意力网络更新后的输出A′:

(6)
式中,为放缩因子,避免在反向传播中梯度过小。公式中除去V的部分表示自注意力权重矩阵,对其按行求模并归一化得到一维权重分数,进而得到A′的一维全局表示向量:

(7)
式中,为头、尾节点与边经自注意力网络的最终输出。当式(5)中A为S1时,pi为头节点输出pS;当A为O1、R1的情况以此类推。模块层的最终输出为上述输出的拼接向量,即时间戳T日实体交互图GT的最终全局表示向量,记为p,计算公式如下:

图5图全局表示计算过程
Fig.5Process of graph global embedding
(8)
经图表示层的计算后,上述过程为序列单元全局表示中的各节点与边均计算出了不同的贡献值,突出了重要头、尾节点与边对全局表示的贡献度,能够实现显式关联关系的精细挖掘。
2.3 时序演化特征挖掘层
模块层输入是由历史演化序列XT中每个实体交互图的全局表示按时间切片先后顺序堆叠构成,记为XT。模块层的核心是由一层双向长短期记忆网络(bidirectional long short-term memory,Bi_LSTM)构成的循环神经网络[20],在序列建模上具有一定优势,兼具长短时记忆功能,避免在训练过程出现梯度消失或爆炸问题,工作示意如图6所示。

图6时序演化特征挖掘层
Fig.6Temporal feature evolution mining layer
模块层首先将更新后的历史演化序列XT输入循环神经网络,经过序列学习得到网络的双向输出h+chain与h-chain。而后将上述两个输出拼接得到h作为时序演化特征挖掘层的最终输出。
2.4 输出层
将上述输出接入全连接网络,经sigmoid函数映射为事件发生概率,至此完成模型前向传播。对于模型优化,通过比较检测概率值与真实标签的差距实施评估优化,具体是采用基于L2正则化的二元交叉熵(binary cross entropy,BCE)。
3 实验与分析
3.1 数据集构建
考虑到数据的权威性,选取维基百科中明确记录且在全球主流媒体曾广泛报道、关注度高的事件词条,并适当扩展时间范围,通过限定地理位置、时间等检索条件从GDELT中获取数据至本地,具体如算法1所示。
算法1 数据获取算法
Alg.1 Data acquisition algorithm

得到的数据集包括:2020年发生在美国明尼苏达州的“抗议乔治·弗洛伊德之死”(US);2020至2021年发生在印度新德里的“农民抗议”(IN);2022年围绕俄乌冲突发生在基辅的抗议(UKR)。其中,US因抗议主要发生在5至7月,且遍布美国多地,故补充了俄亥俄州、加利福尼亚州以及佐治亚州的数据。数据集时间跨度情况如表1所示。
表1数据集时间跨度情况
Tab.1Time interval of datasets

在正负例定义方面,根据每日抗议事件的发生情况作为正负例区分的依据。具体地,统计事件类型编码为抗议类的事件记录频率阈值,大于阈值的当日记正例,反之记负例。阈值的设定参考在维基百科中有明确记录的感兴趣事件,统计事件发生当日事件类型编码为14的事件记录出现频率,由频率的均值最终确定。具体如图7所示,图中展示了US实验数据集的正负例划分情况,图中的蓝色虚线表示设定的阈值。
表2展示了数据集在划分正负例后的详细情况,数据按天存储,不含数据集时间跨度之外用于构造序列的数据。因此,在构建历史演化序列时还需依据序列长度向前增加相应的数据。

图7正负例划分示例
Fig.7Division of positive and negative examples
表2数据集详细情况
Tab.2Details of datasets

3.2 评价指标、对比方法及实验超参数
1)评价指标:选择准确度(accuracy,ACC)和F1_score(F1)衡量模型的检测性能。
2)对比方法:
①RED:直接通过筛选事件类型检索感兴趣事件,数据的时间跨度为1 d,无须设置参数。
②FSM[13]:一种利用频繁子图特征工程构造特征选择集并以此进行特征表示的二分类方法。正负例的最小支持度均设为0.1,SVM惩罚系数设为C=1,核函数设置为kernel=′linear′,数据时间跨度为1 d,其余为默认设置。
③CompGCN[17]:一种多关系图卷积神经网络,通过平均池化形成全局表示,最终输出事件概率。学习率learning_rate为0.001,训练模型输入的批次大小batch_size为10,节点与边嵌入的组合方式为循环相关corr,丢弃率dropout rate为0.3,采用Adam优化器[21]更新模型参数,训练最大轮次epoch为50,CompGCN层数设置为1层、输入与输出维度均为100,数据时间跨度为1 d。
3)模型调优的目的是找到效果最佳的模块组合,具体为:
①TEFM_G:用双向门控循环单元(bidirectional gated recurrent unit,GRU)挖掘时序演化特征。
②TEFM_L:用单向长短期记忆网络(long short-term memory,LSTM)挖掘时序演化特征。
③TEFM:用Bi_LSTM挖掘时序演化特征。
4)参数设置:序列长度设为9 d,其余设置同CompGCN,代码运行的随机种子设置为41 505。
5)实验环境:本文实验均在一台CPU配置为Inter(R)Core(TM)i5-1135G7@2.40 GHz的计算机上完成,运行的软件环境为Windows 10+Python 3.10+Pytorch 1.11.0,运行的软硬件环境均一致。
3.3 对比实验
为验证所提方法性能,设计了对比实验。3种基线方法用于测试模型性能,3种时序特征学习器用于调优时序学习模块。实验方式为对每个数据集分别采用五折交叉验证的方法进行评估测试,指标结果为五次实验的平均值。实验结果(包含五折实验的平均值与标准差)如表3所示。
表3各模型在不同数据集上的检测性能
Tab.3Detection performance of each model on different datasets

注:表中带有下划线的数据为3组基线模型中表现最好的数据,加粗数据为3组调优时序学习模块中表现最好的数据。
纵向上看,TEFM算法性能优于对比算法。RED方法是通过对当日的实验数据检索实现事件检测,如当日存在抗议类的事件记录则判定事件发生,反之视为不发生,但因数据库获取结构化事件记录的过程存在一定的误差,易造成虚警率过高。FSM算法通过其改进的频繁子图算法挖掘得到正负例频繁子图集(显式关联),通过取并集后去除交集得到特征选择集,并以此进行特征表示,实现事件检测。该算法在一定程度上降低了数据库的误差,但这种基于特征工程的方法是基于规则挖掘特征的,显式关联能够被有效挖掘,隐式关联无法挖掘,此外由于社会事件往往是演化发展的,时序演化因素也是一个需要考虑的重要影响因素。CompGCN通过接入全局表示模块能够实现对多关系异构图的图分类任务,进而实现事件检测,在一定程度上挖掘到了隐式关联关系,提升了检测性能,但因没有通过注意力机制关注关键特征,没有考虑时序演化因素,检测能力不及所提算法。所提TEFM算法通过构造实体交互图降低了数据库自身的误差与冗余,通过改进的CompGCN网络实现显式与隐式关联的融合挖掘,通过基于注意力机制的图表示层得到较高质量的图全局表示,通过挖掘合适时间跨度的演化序列实现了最终的事件检测任务,解决了以往研究的不足。横向上看,TEFM算法在2019至2022年间6个城市的数据上均表现出稳定、优异的效果,验证了所提方法的有效性。
另外,为了使模型具有更好的检测性能,本文设计了时序特征学习器的调优实验,分别基于3种典型的循环神经网络构建时序演化特征挖掘层。实验结果表明,3种时序特征学习器相差不明显,这是因为在以往的研究中已经表明LSTM和GRU的性能近乎持平。Bi_LSTM普遍比LSTM检测性能高一些,是由于得到了前向与后向两个方向的特征。Bi_LSTM与Bi_GRU相比,检测性能总体上稍胜一筹,这是由于Bi_LSTM相比于Bi_GRU多了一个门控单元,拟合效果稍好。
3.4 泛化实验
为了检验泛化性能,本文在调优时序特征学习器(Bi_LSTM)的基础上,共设3组实验。由于数据集在时间上存在先后,即UKR>IN>US,因此3对实验组分别为US-IN、US-UKR、IN-UKR,其中每组前面的数据集为训练集,每组后面的数据集为测试集,参数设定与评价指标保持不变,结果如图8所示。
由实验结果可知,所提模型具有较强的泛化能力。第一,模型整体上表现较好,在各组实验中均取得较好的效果,反映出模型的泛化性较强。这说明社会事件在发展与演化过程中存在相似性,验证了通过从历史数据挖掘实体交互与时序演化特征实施事件检测的可行性,这与此前研究结论一致。第二, US-UKR与IN-UKR表现相对偏低,分析原因可知,相应实验组均包含UKR。UKR主要内容是围绕俄乌冲突在乌克兰首都基辅发生的抗议,而与之对应的训练集均为和平时期对政府或公共组织表达抗议,抗议内容存在偏差,导致抗议事件发生的交互模式存在一定的差别,进而导致方法的泛化效果有所降低。

图8泛化分析实验
Fig.8Generalization analysis experiment
3.5 参数敏感分析实验
参数敏感度以及消融等性能分析实验将使用不同的数据集进行训练与测试。这是由于性能分析的目的是检验模型在贴近真实场景下的性能,而真实场景通常在不同的数据集上进行训练与测试,因此使用不同的数据集进行训练与测试,以达实验目的。
3.5.1 历史演化序列长度实验
本节将序列长度设置在3~15 d不等(间隔为2 d),分组与参数设定同3.4节,结果如图9所示。
模型在序列长度为7~11 d的检测性能最佳。由于所提方法是基于历史演化序列挖掘的方法,理论上序列的长短会对检测性能产生一定影响。可以看到,序列长度过小会由于序列特征较少而导致特征学习不充分,进而导致检测性能下降;序列长度过大则会将距离事件发生时间较远的无关信息引入,影响模型对关键区分特征的学习,进而导致检测性能下降。
3.5.2 时序演化特征挖掘层层数实验
为验证时序演化特征挖掘层层数对检测性能的影响,本节将Bi_LSTM的层数分别设置为1~7层不等(间隔为2),共设3组实验,分组与参数设定情况同泛化实验,实验结果如图10所示。

图9序列长度分析实验
Fig.9Sequence length analysis experiment
实验结果表明,时序演化特征挖掘层层数对检测性能影响不大,实验组指标均表现出随层数增加而下降的趋势,总体上1层实验指标相对最佳。一方面,由于实验数据集的样本数量相对有限,因此通过加深层数并不能拟合得到更好的实验结果;另一方面,随着层数的增加,时序演化特征挖掘层的复杂度相对增加,由于数据样本相对有限,因此过拟合的情况较容易出现,进而导致检测性能下降。所以,在实际运用中,可通过增加样本数量的方式,合理设置挖掘层的层数,以提升检测性能。

图10时序演化特征挖掘层层数实验
Fig.10Layer experiment of temporal feature evolution mining layer
3.5.3 LSTM网络单双向实验
为验证单向LSTM与双向LSTM对检测的影响,本节在3个实验组上分别对比了两种网络的检测性能,分组与参数设定情况同泛化实验,实验结果如图11所示。
实验结果表明,双向LSTM网络总体上对模型的检测能力起到积极作用。双向LSTM网络能够从前后两个方向学习序列特征,捕获序列前端与后端决定检测性能的关键特征,有效弥补了单向LSTM网络仅能从前向学习序列的不足,因此模型的检测性能相对得到提升。
3.5.4 序列输出全局表示方式实验
为验证序列输出的全局表示方式对检测性能的影响,本节分别对LSTM的每个输出采取平均池化、最大池化以及本文采用的序列末端输出3种方式实现序列的全局表示,分别记为avg_pool、max_pool、last。实验依然为3组,分组与参数设定均与泛化实验一致,实验结果如图12所示。

图11LSTM单双向实验
Fig.11LSTM unidirectional and bidirectional experiment
实验结果表明,采用序列末端作为时序演化特征挖掘层输出的方式相较于其他两种方式优势明显。一方面,平均池化输出方式的原理是对LSTM各单元的等值加权输出,由于更新后的序列末端单元已经蕴含了整个序列信息,故平均池化输出的方式引入了过多的噪声信息,进而导致模型检测性能下降。另一方面,最大池化输出方式的原理是将LSTM各单元输出嵌入的最大值作为整个序列的输出,所得到的序列全局嵌入不能较好代表整个序列,而采用末端单元输出的方式则能够将序列历史信息充分捕捉,又不至于引入过多无关噪声,因此能够取得较好的检测效果。

图12序列全局表示方式实验
Fig.12Experiment of sequence global embedding
3.6 消融分析实验
为了分析模块层的作用,本节在3对数据集上共设置3组消融分析实验。第1组为提出的原始模型,记为original model;第2组为去除时序演化特征挖掘层,记为—sequence,做法是在去除时序演化特征挖掘层后,将原始模型图表示层的输出进行平均池化,得到整个序列的输出;第3组为去除注意力机制,记为—attention,做法是将原始模型图表示层的注意力部分替换为对节点与边的平均池化。实验结果如图13所示,结果表明,模型的相应组件均对检测性能具有积极作用。
一方面,去除时序演化特征挖掘层后,实验指标均有所下降。这是因为将时序演化特征挖掘层改为平均池化的方式不能有效捕获历史演化序列的特征,平均池化的方式也在一定程度上弱化了决定事件发生的关键特征,而时序演化特征挖掘层能够将过去的重要信息通过网络传递到序列末端,得到的序列全局表示具有较好的代表性,因此检测性能较好。另一方面,去除注意力机制后,实验指标也均有不同程度的降低。这是因为注意力机制能够为序列单元中决定事件发生的关键节点与边分配更高的权重,进而得到更具代表性的全局表示,因此检测效果更佳。

图13消融分析实验
Fig.13Ablation analysis experiment
4 结论
本文将特定域社会事件检测任务建模为有监督的二分类问题,构建了检测模型,主要包括交互特征挖掘层、图表示层、时序演化特征挖掘层与输出层。通过构造实体交互图,降低了数据库误差影响;通过改进的CompGCN网络挖掘序列单元的图结构信息,利用注意力机制关注重要特征从而得到序列单元的高质量全局表示,解决了显式与隐式关联融合挖掘的问题;利用循环神经网络提取时序演化特征,解决了时序演化因素挖掘的问题。实验结果表明,所提方法能够有效检测社会事件。
未来将主要关注两方面工作:一是考虑在线检测,将现有模型部署到现实系统,设置多个事件类型检测专题,实现多类型感兴趣事件的在线检测;二是缩小用于构造序列单元的时间跨度,目前GDELT的更新频率为15 min,探索将时间跨度缩小至15 min并在此基础上合理设置序列长度,能够进一步提升检测性能。