【技术实现步骤摘要】
大小写规整方法、装置、电子设备和存储介质
本专利技术涉及自然语言处理
,尤其涉及一种大小写规整方法、装置、电子设备和存储介质。
技术介绍
语言特有的语言习惯和语法规范决定了部分语言的单词在不同语境中需要采用不同的大小写格式。然而,无论是语音识别得到的转写文本,还是人工书写编辑的文本,通常未能正确区分不同语境下特定单词的大小写格式。因此,需要对文本进行大小写规整,使其符合所用语言的语言习惯和语法规范。目前,大小写规整方法通常基于预先设定的规则和替换词列表进行大小写转换。然而,该规整方法受限于有限的替换词列表,可应用范围小,且单词存在单复数、所有格等多种形式,替换词列表无法覆盖各单词的所有形式,泛化能力差。另外,该简单替换的规整方法易造成句意改变,使得规整后的文本句意发生错误。
技术实现思路
本专利技术实施例提供一种大小写规整方法、装置、电子设备和存储介质,用以解决现有技术适用范围窄、大小写规整准确性欠佳的缺陷。本专利技术实施例提供一种大小写规整方法,包括:将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分 ...
【技术保护点】
1.一种大小写规整方法,其特征在于,包括:/n将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;/n基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;/n其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;/n所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。/n
【技术特征摘要】
1.一种大小写规整方法,其特征在于,包括:
将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;
基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;
其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;
所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。
2.根据权利要求1所述的大小写规整方法,其特征在于,所述将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型,具体包括:
将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示;
将每一分词的上下文语义表示输入至所述大小写规整模型的大小写转换系数计算层,得到所述大小写转换系数计算层输出的每一分词的大小写转换系数;
将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型。
3.根据权利要求2所述的大小写规整方法,其特征在于,所述将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示,具体包括:
将任一分词中的每一字符输入至所述上下文语义表示层的字符编码层,得到所述字符编码层输出的所述任一分词中每一字符的字符编码;
将所述任一分词中每一字符的字符编码输入至所述上下文语义表示层的池化层,得到所述池化层输出的所述任一分词的池化向量;
将每一分词的池化向量输入至所述上下文语义表示层的上下文语义提取层,得到所述上下文语义提取层输出的每一分词的上下文语义表示。
4.根据权利要求2所述的大小写规整方法,其特征在于,所述将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型,具体包括:
将所述待规整文本中的每一分词输入至所述序列标注层的序列标注向量表示层,得到所述序列向量表示层输出的每一分词的序列标注向量表示;
将每一分词的上下文语义表...
【专利技术属性】
技术研发人员:戚婷,万根顺,高建清,刘聪,王智国,胡国平,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。