一种英语文本主题观点检测识别方法技术

技术编号:38811206 阅读:16 留言:0更新日期:2023-09-15 19:50
本发明专利技术提供一种英语文本主题观点检测识别方法,该方法是一个由顺序连接的英语文本概念生成模块,非对称先验主题观点模型构建模块,英语文本主题观点检测识别模块组成的检测识别模型。一个英语文本通过该检测识别模型处理后,最后能够得到这个英语文本的主题观点评分与评语。本发明专利技术检测识别方法解决了英语文本主题观点的自动检测识别问题。主题观点的自动检测识别问题。主题观点的自动检测识别问题。

【技术实现步骤摘要】
一种英语文本主题观点检测识别方法


[0001]本专利技术涉及自然语言处理技术,具体是一种自动检测识别英语文本主题观点的方法,本专利技术的主题观点检测识别方法只适用于分析英语文本,不适用于分析中文文本。

技术介绍

[0002]检测并识别出英语文本的主题观点是文本语义理解的关键,传统的英语文本主题观点检测识别方法主要分为两类:一类是基于概率统计的英语文本主题观点检测识别方法,另一类是基于神经网络的英语文本主题观点检测识别方法。
[0003]基于概率统计的英语文本主题观点检测识别方法通过英语文本拟合变量分布的方式,使用英语文本的全局词汇信息共同检测识别英语文本的主题观点。由于基于概率统计的英语文本主题观点检测识别方法与英语文本语料库的规模直接相关,导致此类方法在英语文本语料库有限的情况下,难以覆盖和获取英语文本中所有的主题观点信息,因此基于概率统计的英语文本主题观点检测识别方法准确度低且难以提升。
[0004]基于神经网络的英语文本主题观点检测识别方法通过构建主题观点识别模型,实现对英语文本主题观点的检测识别。由于基于神经网络的英语文本主题观点检测识别方法主要依赖文本上下文语义信息,在捕获长序列文本能力方面较弱,导致此类方法容易忽略文本的全局语义信息,因此基于神经网络的英语文本主题观点检测识别方法检测识别的英语文本主题观点连贯性较差且难以提高。

技术实现思路

[0005]针对上述问题,本专利技术提出了一种英语文本主题观点检测识别方法,该方法既解决了基于概率统计的英语文本主题观点检测识别方法准确度低的问题,又解决了基于神经网络的英语文本主题观点检测识别方法连贯性差的问题。
[0006]本专利技术的一种英语文本主题观点检测识别方法包括:英语文本概念生成模块,非对称先验主题观点模型构建模块,英语文本主题观点检测识别模块,总体处理流程图如图1所示。
[0007]本专利技术的英语文本概念生成模块的处理流程是:第一,读入待处理的英语文本标名和英语文本全文,对英语文本标名和英语文本全文分别进行分词分句、词性标注、词性还原操作;第二,对待处理的英语文本全文通过正则表达式匹配停用词集,输出英语文本全文去停用词结果;第三,根据概念知识库中提供的单词概念知识获取英语文本标名和英语文本全文的概念分析结果;第四,获取英语文本标名和英语文本全文的概念聚类结果。
[0008]本专利技术的非对称先验主题观点模型构建模块的处理流程是:第一,利用英语文本标名和英语文本全文预处理得到的概念聚类结果,获取非对称先验主题观点模型的非对称先验主题观点分布;第二,读入英语文本标名和英语文本句子的预处理结果;第三,经过非对称先验主题观点模型的多次迭代,分别得到英语文本标名和英语文本句子的主题观点分布向量表示。
[0009]本专利技术的英语文本主题观点检测识别模块的处理流程是:第一,分别读入待处理英语文本标名和英语文本句子,并对英语文本标名和英语文本句子中的单词进行向量表示,得到英语文本标名和英语文本句子中单词的向量表示;第二,通过双向门控循环单元,分别得到英语文本标名和英语文本句子中单词的上下文向量表示;第三,采用主题观点级注意力机制,利用英语文本标名和英语文本句子的主题观点分布向量表示,计算英语文本标名和英语文本句子中单词基于主题观点的注意力权重,并获取英语文本标名和英语文本句子的主题观点向量表示;第四,对英语文本标名和英语文本句子的主题观点向量表示进行缩放,输出英语文本标名和英语文本句子的低维度主题观点向量表示;第五,根据英语文本标名和英语文本句子的低维度主题观点向量表示,计算每个英语文本句子与英语文本标名之间的主题观点语义相似度;第六,根据计算出的英语文本句子与英语文本标名之间的主题观点语义相似度,设置英语文本句子与英语文本标名之间主题观点语义相似度的阈值;第七,根据英语文本句子与英语文本标名之间主题观点语义相似度的阈值,提取出英语文本中的跑题句子;第八,根据计算出的英语文本句子与英语文本标名之间的主题观点语义相似度,获取英语文本主题观点得分并生成英语文本主题观点的评分及评语。
[0010]本专利技术的计算公式定义如下:
[0011](1)英语文本概念概率的计算公式
[0012][0013]在计算公式(1)中,C
i
表示英语文本中包含有N个概念的概念集合中的第i个概念,E
j
表示英语文本中包含有M个实例的实例集合中的第j个实例。
[0014](2)英语文本概念间距离的计算公式
[0015]英语文本概念间距离=1

cos(概念C
i
的词汇分布向量,概念C
j
词汇分布向量),
[0016]1≤i,j≤N
ꢀꢀꢀ
(2)
[0017]在计算公式(2)中,C
i
与C
j
分别表示包含有N个概念的概念集合中的第i个概念和第j个概念。
[0018](3)非对称先验主题观点分布的计算公式
[0019][0020]在计算公式(3)中,C
i
表示英语文本中包含有N个概念的概念集合中的第i个概念,E
j
表示英语文本中包含有M个实例的实例集合中的第j个实例,CL
r
表示英语文本中包含有R个概念聚类簇的概念聚类簇集合中的第r个概念聚类簇,CL
r
中包含有N个概念。
[0021](4)英语文本主题观点得分的计算公式
[0022][0023]在计算公式(4)中,i表示包含有N个句子的英语文本中的第i个句子。
[0024]本专利技术的英语文本概念生成模块、非对称先验主题观点模型构建模块、英语文本主题观点检测识别模块处理流程如下所述。
[0025]如图2所示,所述的英语文本概念生成模块处理流程如下:
[0026]P201开始;
[0027]P202读入待处理的英语文本标名和英语文本全文;
[0028]P203对待处理的英语文本全文进行分词分句,输出英语文本全文的分词分句结果;
[0029]P204对待处理的英语文本标名进行分词分句,输出英语文本标名的分词分句结果;
[0030]P205对待处理的英语文本全文进行词性标注,输出英语文本全文的词性标注结果;
[0031]P206对待处理的英语文本标名进行词性标注,输出英语文本标名的词性标注结果;
[0032]P207对待处理的英语文本全文进行词性还原,输出英语文本全文的词性还原结果;
[0033]P208对待处理的英语文本标名进行词形还原,输出英语文本标名的词形还原结果;
[0034]P209对待处理的英语文本全文通过正则表达式匹配停用词集,输出英语文本全文去停用词结果;
[0035]P210根据概念知识库中单词概念知识,采用计算公式(1)获取待处理英语文本标名和英语文本全文中概率前十的概念集合;
[0036]P211通过计算公式(2)对待处理英语文本标名本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种英语文本主题观点检测识别方法,其特征是:包括一个由顺序连接的英语文本概念生成模块,非对称先验主题观点模型构建模块,英语文本主题观点检测识别模块组成的检测识别模型,其检测识别方法包括如下处理流程:(1)英语文本概念生成模块的处理流程是:第一,读入待处理的英语文本标名和英语文本全文,对英语文本标名和英语文本全文分别进行分词分句、词性标注、词性还原操作;第二,对待处理的英语文本全文通过正则表达式匹配停用词集,输出英语文本全文去停用词结果;第三,根据概念知识库中提供的单词概念知识获取英语文本标名和英语文本全文的概念分析结果;第四,获取英语文本标名和英语文本全文的概念聚类结果;(2)非对称先验主题观点模型构建模块的处理流程是:第一,利用英语文本标名和英语文本全文预处理得到的概念聚类结果,获取非对称先验主题观点模型的非对称先验主题观点分布;第二,读入英语文本标名和英语文本句子的预处理结果;第三,经过非对称先验主题观点模型的多次迭代,分别得到英语文本标名和英语文本句子的主题观点分布向量表示;(3)英语文本主题观点检测识别模块的处理流程是:第一,分别读入待处理英语文本标名和英语文本句子,并对英语文本标名和英语文本句子中的单词进行向量表示,得到英语文本标名和英语文本句子中单词的向量表示;第二,通过双向门控循环单元,分别得到英语文本标名和英语文本句子中单词的上下文向量表示;第三,采用主题观点级注意力机制,利用英语文本标名和英语文本句子的主题观点分布向量表示,计算英语文本标名和英语文本句子中单词基于主题观点的注意力权重,并获取英语文本标名和英语文本句子的主题观点向量表示;第四,对英语文本标名和英语文本句子的主题观点向量表示进行缩放,输出英语文本标名和英语文本句子的低维度主题观点向量表示;第五,根据英语文本标名和英语文本句子的低维度主题观点向量表示,计算每个英语文本句子与英语文本标名之间的主题观点语义相似度;第六,根据计算出的英语文本句子与英语文本标名之间的主题观点语义相似度,设置英语文本句子与英语文本标名之间主题观点语义相似度的阈值;第七,根据英语文本句子与英语文本标名之间主题观点语义相似度的阈值,提取出英语文本中的跑题句子;第八,根据计算出的英语文本句子与英语文本标名之间的主题观点语义相似度,获取英语文本主题观点得分并生成英语文本主题观点的评分及评语。2.根据权利要求1所述的英语文本主题观点检测识别方法,其特征是:所述的英语文本概念生成模块的具体处理流程如下:P201开始;P202读入待处理的英语文本标名和英语文本全文;
P203对待处理的英语文本全文进行分词分句,输出英语文本全文的分词分句结果;P204对待处理的英语文本标名进行分词分句,输出英语文本标名的分词分句结果;P205对待处理的英语文本全文进行词性标注,输出英语文本全文的词性标注结果;P206对待处理的英语文本标名进行词性标注,输出英语文本标名的词性标注结果;P207对待处理的英语文本全文进行词性还原,输出英语文本全文的词性还原结果;P208对待处理的英语文本标名进行词形还原,输出英语文本标名的词形还原结果;P209对待处理的英语文本全文通过正则表达式匹配停用词集,输出英语文本全文去停用词结果;P210根据概念知识库中单词概念知识,采用计算公式(1)获取待处理英语文本标名和英语文本全文中概率前十的概念集合;P211通过计算公式(2)对待处理英语文本标名和英语文本全文的概念集合进行概念聚类,输出英语文本标名和英语文本全文的概念聚类结果;P212结束。3.根据权利要求2所述的英语文本主题观点检测识别方法,其特征是:英语文本概念生成模块的具体处理流程中所述的公式(1)为英语文本概念概率的计算公式在计算公式(1)中,C
i
表示英语文本中包含有N个概念的概念集合中的第i个...

【专利技术属性】
技术研发人员:王亚冰张晓薇黄桂敏
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1