一种面向试验数据的文本语义特征提取方法及系统技术方案

技术编号:34383323 阅读:35 留言:0更新日期:2022-08-03 21:02
本发明专利技术公开一种面向试验数据的文本语义特征提取方法及系统,所述方法包括如下步骤:利用文本预处理技术对试验数据生语料库进行处理和加工,将所述生语料库转换为熟语料库;构建基于条件随机场的抽取模型,在初始标注语料基础上训练模型;熟语料输入词向量表示模型得到词向量信息,将词向量信息输入DHNN深度混合神经网络模型训练;将注意力机制与SE

【技术实现步骤摘要】
一种面向试验数据的文本语义特征提取方法及系统


[0001]本专利技术涉及特征提取
,尤其涉及一种面向试验数据的文 本语义特征提取方法及系统。

技术介绍

[0002]装备文本数据语义特征提取的工作主要集中在装备实体识别、装 备文本语义建模和装备实体关系抽取等方面。目前主流的方法如下: 一、条件随机场与规则混合的方法,实现文本中的装备命名实体的识 别;二、使用卷积神经网络对文本进行处理,获取文本的语义表示, 实现语句级或篇章级文本的语义建模;三、将关系抽取转换为分类问 题,通过标注语料训练学习模型。在装备命名实体识别的基础上,学 习模型判断语句中出现的装备实体之间是否存在某种语义关系。
[0003]现有技术存在的缺点在于:(1)由于装备实体识别模型中通常需 要构建大量的特征集合,而特征集合中存在着大量冗余和不相关的特 征,影响模型的训练效率和识别效果,因此需要对其进行特征选择, 此外,由于领域的特殊性,目前尚未有开放统一的标注语料,严重制 约着依赖训练语料的基于统计学习模型方法的识别效果;(2)随着装 备文本数量不断增长,传统的浅层语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向试验数据的文本语义特征提取方法,其特征在于,包括如下步骤:步骤101),装备熟语料库生成步骤,包括:利用文本预处理技术对试验数据生语料库进行处理和加工,将所述生语料库转换为熟语料库;步骤102),装备实体识别模型训练步骤,包括:利用装备实体的命名规则对语料进行回标,构建初始标注语料;设计特征模板,构建基于条件随机场的抽取模型,在初始标注语料基础上训练模型,获得装备实体识别模型;步骤103),装备文本深层语义建模方法步骤,包括:熟语料输入词向量表示模型得到词向量信息,将词向量信息输入DHNN深度混合神经网络模型训练,获得装备文本深层语义建模方法;步骤104),装备实体关系抽取模型训练步骤,包括:利用远监督学习算法在现有熟语料库的基础上构建大规模初始训练语料,将注意力机制与SE

LSTM神经网络模型相结合获得训练模型,把初始训练语料输入所述训练模型训练,获得装备实体关系抽取模型;步骤105),装备文本语义特征提取系统搭建步骤,包括:将训练好的装备实体识别模型、装备文本深层语义建模方法和装备实体关系抽取模型分别输入,得到装备文本语义特征提取系统;步骤106),语义特征提取输入步骤,包括:输入搭建好的文本语义特征提取系统,输入待提取特征的装备文本数据;步骤107),语义特征提取输出步骤,包括:基于训练好的文本语义特征提取系统,得到语义理解结果,将处理结果分别存储至装备实体数据库、装备语义数据库和装备实体关系模式库。2.根据权利要求1所述的一种面向试验数据的文本语义特征提取方法,其特征在于,所述步骤101)中的装备熟语料库生成步骤具体包括:对生语料库中的装备文本数据进行格式处理、中文分词和词性标注,将所述生语料库转换为熟语料库。3.根据权利要求1所述的一种面向试验数据的文本语义特征提取方法,其特征在于,所述步骤102)中的装备实体识别模型训练步骤具体包括:在得到初始标注语料后,根据词特征、词性特征、左右边界词特性以及中心词特性建立特征模板,即在条件随机场的参数化形式中确定转移特征t
k
(y
i
‑1,y
i
,x,i)和状态特征s
l
(y
i
,x,i)的取值,当满足条件时取值为1,否则为0;再将构建好的特征模板代入条件随机场的参数化形式中,设P(Y|X)为条件随机场,则在随机变量X取值为x的条件下,随机变量Y取值为y的条件概率具有如下形式:其中,其中,λ
k
和μ
l
是对应的权值,Z(x)是规范化因子,求和是在所有可能的输出序列上进行的;再将初始标注语料输入得到的条件随机场模型中训练,最后获得相应的装备实体识别模型。4.根据权利要求1所述的一种面向试验数据的文本语义特征提取方法,其特征在于,所
述步骤103)中的装备文本深层语义建模方法步骤具体包括:所述深度混合神经网络模型DHNN包括位于底层的双向LSTM神经网络模块、位于顶层的动态卷积神经网络模型模块DCNN;所述双向LSTM神经网络模块,执行获取长距离上下文信息,抽取输入文本的初级语义特征;所述动态卷积神经网络模型模块DCNN,通过一维宽卷积操作和动态k

Max采样算子进一步抽取文本的高级语义特征,通过获取文本中长距离相关性信息,实现对不同粒度文本单元的语义建模。5.根据权利要求2所述的一种面向试验数据的文本语义特征提取方法,其特征在于,所述步骤104)中装备实体关系抽取模型训练步骤具体包括:所述远监督学习算法通过将文本与大规模知识图谱进行实体对齐,利用知识图谱已有的实体间关系对文本进行标注,如果从知识图谱中能获取三元组R(E1,E2),且E1和E2共现于句子S中,则S表达了E1和E2间的关系R,标注为训练正例;其中,R代表关系,E1、E2代表两个实体;所述注意力机制与SE

LSTM神经网络模型相结合获得的训练模型如下:M=t...

【专利技术属性】
技术研发人员:周晓磊王芳潇范强张骁雄严浩江春
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1