【技术实现步骤摘要】
基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法
[0001]本专利技术涉及基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法,属于自然语言处理
技术介绍
[0002]生活中人们会接触到大量的新闻文本这类长文本,新闻文档具有敏感性、特殊性,各国新闻工作者都以较为敏锐的感知力在最短的时间内捕捉到当下发生的时事,并以各自的语言以较为中立的态度向读者提供信息。及时有效的获取国内外针对热点新闻的报道内容,已经成为互联网的任务之一。为实现这一目标,需要对不同来源的文档进行重要信息提取,并以摘要的形式提供给用户阅读以便快速获取信息,因此出现了多文档文本摘要系统。多文档摘要多用于话题检测、主题聚类等问题的解决中,其任务是为文档簇生成供人们浏览参考的摘要。抽取式多语言多文档摘要要其目的是将输入的基于同一主题的多语言新闻文档簇进行主旨抽取,作为该文档簇的摘要。针对这一问题的研究早期多采用基于启发式的统计特征,然后将语言的特点融入分析来判断句子重要程度,以重要程度的划分来选择最终摘要句。 Mohamad提出了一种基于奇异值分解和 ...
【技术保护点】
【技术特征摘要】
1.基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法,其特征在于:所述方法的具体步骤如下:Step1、给文档中每个句子编码:给出一个包含基于同一主题的汉越新闻文档的平行语料文档簇,选择词、句子双层编码起来对句子和文本进行向量表征;Step2、新闻要素的关联图构建:给定汉语、越南语新闻文档簇,选择以句子为节点,文本间相似度为边,构建汉越双语新闻要素关联图;Step3、根据得到的句子编码输入和新闻要素关联图,通过GCN网络学习,以此得到每一个节点句子的分类结果,即句子分类得分;Step4、计算得到文档簇中每个文档的表征,将Step3的GCN最后一层输出向量作为输入,进行聚类;然后通过计算,得出每个句子和不同文档的相关性,以此判定出该句子是否能够作为该文档的摘要句子。2.根据权利要求1所述的基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法,其特征在于:所述Step1的具体步骤为:Step1.1、给出一个包含基于同一主题的汉越新闻文档的平行语料文档簇cluster;为更好地获取句子和文本的特征信息,选择词、句子双层编码起来对句子和文本进行向量表征;Step1.2计算每个句子的编码表征:每一个cluster包含两种语言的n个句子s
n
={s1,s2,
…
,s
n
},其中每一句包含l个词w
l
={w1,w2,
…
,w
l
)},在每个时间步长t时刻,上一时刻的隐藏状态和当前时刻的词嵌入w
t
得到当前时刻的隐藏状态周期性地更新隐藏状态:其中,w
t
表示单词嵌入向量,表示GRU
sent
的隐状态,最后一层隐藏层输出的句子嵌入表征为:Step1.3、将文档中的句子表征在一个矩阵X:将x
i
作为每个句子的最终编码,将给定文档簇的所有句子嵌入被分组为节点特征矩阵X:其中,T代表改文档簇中的第T个文档的序号,N代表每篇文档中的句子编号。3.根据权利要求1所述的基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法,其特征在于:所述Step2的具体步骤为:给定汉语、越南语新闻文本簇,选择以句子为节点,文本间相似度为边,构建汉越双语新闻要素关联图,表征为:G={V,E,W}
V={v
i
,v
j
|,1≤i≤n,1≤j≤m}W={w(i,j),w(i1,i
n
),w(j1,j
m
)|i1≠i
n
,j1≠j
m
}其中,V表示的是汉越双语新闻文本在集在图中对应的文本的集合,v
i
为中文新闻文本,v
j
为越南语文本,E是汉越双语新闻集合中的新闻文档句子在图上的连线,为汉语文档句子之间的连线,为越南语文档句子之间的连线,为汉越双语文档间的边,W为图中边的权重,由新闻要素之间的相似度决定,新闻的事件要素直接用常规标准新闻文本涉及到的时间、地点、人名等词汇;在汉越双语新闻要素关联图模型中,将节点间能够连通的条件设置为:两篇新闻文本包含相同的地点词语或人名词语或者两篇新闻的要素相似度的阈值设置为大于0.3,即大于0.3的两篇文档的要素相似度可以连线;Step2.1、分别计算汉越两种语言单文档见边的权重:首先,把能够表征新闻要素的词语抽取出来进行向量表征,利用TF
‑
IDF的方法对特征向量的每一维的权重进行计算;然后,利用汉越新闻文档的空间向量余弦相似度计算文档节点间的相似度;TF
‑
IDF是一种信息检索与数据挖掘常用的加权算法,其中TF表示“词频”,即词语在文档中出现的次数,词语出现的频率越高,其作为文档的分类依据的重要程度也会随之增加;其中,M表示文档x中所有词语的个数,N表示词语s在文档x中出现的次数;IDF表示的是“逆文档频率”,用于评估关键词的普遍程度:当一个词在大量文档中出现时,其IDF值越低;反之,则越高;具体地:IDF
s,x
=log(X/X
N
)X表示文档簇中文档的数目,X
N
表示文档簇中包含词语s文本的数目;TF
‑
IDF由词频TF与逆向文件频率IDF共同影响词的过滤和重要信息的保留;其计算公式为:W
s,x
=TF
s,x
*IDF
s,x
其中,W
s,x
表示在文本序列x中,词语s中的特征值;同一篇文档节点间的权重计算公式为:其中,分别表示文档x1、...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。