基于词性标注的中文环境语义槽填充增强方法技术

技术编号：28212379 阅读：24 留言：0更新日期：2021-04-24 14:50

本发明专利技术公开了基于词性标注的中文环境语义槽填充增强方法。现有方法缺少对词语序列模糊化的考虑，模型训练效率和槽填充准确度降低。本发明专利技术方法首先建立某确定任务域的专有词库，对其中的部分词作词性标注；然后对中文语句进行分词，获得以词语为基本元素的有限序列；将有限序列中特定的具有同一词性标注的词语改用同一符号代替，得到新的有限序列；最后，以新的有限序列集合及其标签序列集合作为输入，采用BLSTM

全部详细技术资料下载

【技术实现步骤摘要】
基于词性标注的中文环境语义槽填充增强方法

[0001]本专利技术属于自然语言理解与语义信息提取领域，涉及一种基于词性标注的中文环境语义槽填充增强方法。

技术介绍

[0002]在解决实际问题时，环境语义不仅仅与上下文有关，更与目前执行的任务域有关。对于同一语言材料，每个不同的任务域想要获取的语义信息不同，这意味着使用语义槽填充技术进行自然语言理解和语义信息提取时，每个任务执行前都需要进行至少一次模型训练，得到适应这一任务的最佳槽填充模型。这就对训练模型的效率有了极大的要求。
[0003]现有的语义槽填充模型训练方法，都是直接选用词语序列作为输入，由此产生了一系列待解决的问题，其中最显著的问题有三个：语料数据集较小的情况下模型训练精度过低；语料数据集庞大的情况下训练效率过低；对于陌生词汇的语义辨识度过低。这是由于训练网络的输入序列包含太多冗余信息导致的。在一个确定的任务域中，有相当一部分的具有相似语义或相似特征的词语对确定的语义槽辨识具有相同作用，如果不做统一的替换处理，就会需要更大的空间存储新词，需要更多的时间训练冗余的词语，并且在某一句法结构中具有相同作用的词语训练精度也会降低。
[0004]传统的语义槽填充模型训练方法最大的弊端在于对阿拉伯数字等特殊字符处理不当，由于阿拉伯数字构成的词语是由从0到9的十个阿拉伯数字任意组合的不定长词组，对于每一个不同的阿拉伯数字词组，模型都会按陌生词处理，这就造成了模型在语义分析中遇到生词时，在某些易混淆的上下文结构中可能会优先将生词当作数字处理。例如“从
...

【技术保护点】

【技术特征摘要】
1.基于词性标注的中文环境语义槽填充增强方法，其特征在于，该方法包括：步骤(1)建立确定任务域的专有词库，获得面向特定任务域的自定义字典Dic；步骤(2)采用Jieba分词技术对中文语句进行分词，获得以词语为基本元素的有限序列y＝(y1,y2,...,y
N
)；y
i
为y中的词，i＝1,2,
…
,N，N为y中词的数量；步骤(3)对于有限序列y中特定的具有同一词性标注的词语，如果属于确定的任务域中的冗余信息词语，则将其用同一符号代替，得到新的有限序列w＝(ω1,ω2,...,ω
N
)；ω
i
表示w中的词，i＝1,2,
…
,N；步骤(4)以新的有限序列w的集合及其标签序列集合作为输入，采用BLSTM
‑
CRF网络训练模型，得到具有最高后验概率的槽填充标签序列t
*
。2.如权利要求1所述的基于词性标注的中文环境语义槽填充增强方法，其特征在于，步骤(1)具体是：采用Jieba分词技术中带有词性以及词频标注的基本词库，在确定任务域的情况下，根据确定的语义槽，对基本词库进行增删操作，以及词语词频和词性标注的微调操作，获得面向特定任务域的自定义字典。3.如权利要求2所述的基于词性标注的中文环境语义槽填充增强方法，其特征在于，步骤(2)具体是：采用Jieba分词技术，将获得的Dic转化为前缀树，建立生成分词的有向无环图，在有向无环图中找出基于词频的最大切分组合，即为以词语为基本元素的有限序列y＝(y1,y2,...,y
N
)；对于Dic中未注册的单词，采用隐马尔可夫模型，使用维特比算法和动态规划进行分词预测，得到以词语为基本元素的有限序列y＝(y1,y2,...,y
N
)；具体是：首先生成有限序列y的状态序列x＝(x1,x2,
…
,x
N
)；x
i
表示生成有限序列y中y
i
的状态,x
i
∈S，S为隐马尔可夫模型状态空间；
①
计算y
N
的状态的状态表示生成y
N
最有可能的状态x
N
的概率；
②
根据x
i
‑1＝Ptr(x
i...

【专利技术属性】
技术研发人员：曲绍墉，刘伟峰，李建宁，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人