基于词性标注的中文环境语义槽填充增强方法技术

技术编号:28212379 阅读:24 留言:0更新日期:2021-04-24 14:50
本发明专利技术公开了基于词性标注的中文环境语义槽填充增强方法。现有方法缺少对词语序列模糊化的考虑,模型训练效率和槽填充准确度降低。本发明专利技术方法首先建立某确定任务域的专有词库,对其中的部分词作词性标注;然后对中文语句进行分词,获得以词语为基本元素的有限序列;将有限序列中特定的具有同一词性标注的词语改用同一符号代替,得到新的有限序列;最后,以新的有限序列集合及其标签序列集合作为输入,采用BLSTM

【技术实现步骤摘要】
基于词性标注的中文环境语义槽填充增强方法


[0001]本专利技术属于自然语言理解与语义信息提取领域,涉及一种基于词性标注的中文环境语义槽填充增强方法。

技术介绍

[0002]在解决实际问题时,环境语义不仅仅与上下文有关,更与目前执行的任务域有关。对于同一语言材料,每个不同的任务域想要获取的语义信息不同,这意味着使用语义槽填充技术进行自然语言理解和语义信息提取时,每个任务执行前都需要进行至少一次模型训练,得到适应这一任务的最佳槽填充模型。这就对训练模型的效率有了极大的要求。
[0003]现有的语义槽填充模型训练方法,都是直接选用词语序列作为输入,由此产生了一系列待解决的问题,其中最显著的问题有三个:语料数据集较小的情况下模型训练精度过低;语料数据集庞大的情况下训练效率过低;对于陌生词汇的语义辨识度过低。这是由于训练网络的输入序列包含太多冗余信息导致的。在一个确定的任务域中,有相当一部分的具有相似语义或相似特征的词语对确定的语义槽辨识具有相同作用,如果不做统一的替换处理,就会需要更大的空间存储新词,需要更多的时间训练冗余的词语,并且在某一句法结构中具有相同作用的词语训练精度也会降低。
[0004]传统的语义槽填充模型训练方法最大的弊端在于对阿拉伯数字等特殊字符处理不当,由于阿拉伯数字构成的词语是由从0到9的十个阿拉伯数字任意组合的不定长词组,对于每一个不同的阿拉伯数字词组,模型都会按陌生词处理,这就造成了模型在语义分析中遇到生词时,在某些易混淆的上下文结构中可能会优先将生词当作数字处理。例如“从
……

……”
结构可以表示出发地和到达地,也可以表示起始时间和结束时间,由于时间包含数字,使得表示时间的词语远多于表示地名的词语,在这种情况下训练出的模型,使用该句法结构表示新的地点名词,很可能会被误判为时间名词。

技术实现思路

[0005]本专利技术的目的就是针对语料数据集较少或模型训练时间要求较为苛刻的情况,现有技术仅依据未作预处理的原始词语序列进行模型训练的方法,由于缺少对非关键词语模糊化的考虑,会导致存储空间和训练时间负担加重,甚至产生不良训练结果的问题,提供一种基于词性标注的中文环境语义槽填充增强方法。
[0006]本专利技术方法包括:
[0007]步骤(1)建立确定任务域的专有词库,获得面向特定任务域的自定义字典Dic;
[0008]步骤(2)采用Jieba分词技术对中文语句进行分词,获得以词语为基本元素的有限序列y=(y1,y2,

,y
N
);y
i
为y中的词,i=1,2,

,N,N为y中词的数量;
[0009]步骤(3)对于有限序列y中特定的具有同一词性标注的词语,如果属于确定的任务域中的冗余信息词语,则将其用同一符号代替,得到新的有限序列w=(ω1,ω2,


N
);ω
i
表示w中的词,i=1,2,

,N;
[0010]步骤(4)以新的有限序列w的集合及其标签序列集合作为输入,采用BLSTM

CRF网络训练模型,得到具有最高后验概率的槽填充标签序列t
*

[0011]进一步,步骤(1)具体是:采用Jieba分词技术中带有词性以及词频标注的基本词库,在确定任务域的情况下,根据确定的语义槽,对基本词库进行增删操作,以及词语词频和词性标注的微调操作,获得面向特定任务域的自定义字典。
[0012]再进一步,步骤(2)具体是:采用Jieba分词技术,将获得的Dic转化为前缀树,建立生成分词的有向无环图,在有向无环图中找出基于词频的最大切分组合,即为以词语为基本元素的有限序列y=(y1,y2,

,y
N
);
[0013]对于Dic中未注册的单词,采用隐马尔可夫模型(HMM),使用维特比算法和动态规划进行分词预测,得到以词语为基本元素的有限序列y=(y1,y2,

,y
N
);具体是:
[0014]首先生成有限序列y的状态序列x=(x1,x2,

,x
N
);x
i
表示生成有限序列y中y
i
的状态,x
i
∈S,S为隐马尔可夫模型状态空间;
[0015]①
计算y
N
的状态表示生成y
N
最有可能的状态x
N
的概率;
[0016]②
根据x
i
‑1=Ptr(x
i
,i)递推出x
i
,Ptr(
·
)维特比路径函数;
[0017]然后根据x=(x1,x2,

,x
N
)确定切分模型,利用切分模型将中文语句切分为以词语为基本元素的有限序列y=(y1,y2,...,y
N
)。
[0018]更进一步,步骤(4)具体是:
[0019]首先根据映射关系q
i
=W
in
o(ω
i
),得到长短期记忆模型输入向量q
i
,W
in
为嵌入矩阵,o(
·
)表示单热向量;
[0020]则隐藏向量其中,前向隐藏向量f
lstm
(
·
)为前向传播函数;
[0021]反向隐藏向量b
lstm
(
·
)为反向传播函数;
[0022]得到预测标签z
i
=W
o
h
i
,其中W
o
表示输出层训练参数;
[0023]计算带有预标签序列t的句子w的得分A为转移矩阵,表示从第i

1个预标签到第i个预标签的转换,T表示转置;y的预标签序列t=(t1,t2,

,t
N
),预标签为任务域;
[0024]得到句子级别的后验概率其中,预测标签序列t

k
=(t

1,k
,t

2,k
,

,t

N,k
),t

i,k
表示第k次预测的第i个预测标签,K为预测总数;
[0025]则具有最高后验概率的槽填充标签序列
[0026]如果t
*
与y的词性标注匹配,将t
*
作为最终槽填充标签序列;如果如果t
*
与y的词性标注不匹配,选取t

k
中除t
*
以外最高后验概率标签序列作为最终槽填充标签序列。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于词性标注的中文环境语义槽填充增强方法,其特征在于,该方法包括:步骤(1)建立确定任务域的专有词库,获得面向特定任务域的自定义字典Dic;步骤(2)采用Jieba分词技术对中文语句进行分词,获得以词语为基本元素的有限序列y=(y1,y2,...,y
N
);y
i
为y中的词,i=1,2,

,N,N为y中词的数量;步骤(3)对于有限序列y中特定的具有同一词性标注的词语,如果属于确定的任务域中的冗余信息词语,则将其用同一符号代替,得到新的有限序列w=(ω1,ω2,...,ω
N
);ω
i
表示w中的词,i=1,2,

,N;步骤(4)以新的有限序列w的集合及其标签序列集合作为输入,采用BLSTM

CRF网络训练模型,得到具有最高后验概率的槽填充标签序列t
*
。2.如权利要求1所述的基于词性标注的中文环境语义槽填充增强方法,其特征在于,步骤(1)具体是:采用Jieba分词技术中带有词性以及词频标注的基本词库,在确定任务域的情况下,根据确定的语义槽,对基本词库进行增删操作,以及词语词频和词性标注的微调操作,获得面向特定任务域的自定义字典。3.如权利要求2所述的基于词性标注的中文环境语义槽填充增强方法,其特征在于,步骤(2)具体是:采用Jieba分词技术,将获得的Dic转化为前缀树,建立生成分词的有向无环图,在有向无环图中找出基于词频的最大切分组合,即为以词语为基本元素的有限序列y=(y1,y2,...,y
N
);对于Dic中未注册的单词,采用隐马尔可夫模型,使用维特比算法和动态规划进行分词预测,得到以词语为基本元素的有限序列y=(y1,y2,...,y
N
);具体是:首先生成有限序列y的状态序列x=(x1,x2,

,x
N
);x
i
表示生成有限序列y中y
i
的状态,x
i
∈S,S为隐马尔可夫模型状态空间;

计算y
N
的状态的状态表示生成y
N
最有可能的状态x
N
的概率;

根据x
i
‑1=Ptr(x
i...

【专利技术属性】
技术研发人员:曲绍墉刘伟峰李建宁
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1