大小写规整方法、装置、电子设备和存储介质制造方法及图纸

技术编号:27031382 阅读:56 留言:0更新日期:2021-01-12 11:14
本发明专利技术实施例提供一种大小写规整方法和装置,其中方法包括:将待规整文本输入至大小写规整模型,得到大小写规整模型输出的待规整文本中每一分词的大小写格式类型;基于每一分词的大小写格式类型,对待规整文本进行规整,得到待规整文本对应的已规整文本;其中,大小写规整模型是基于样本待规整文本,以及样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;大小写规整模型用于确定待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。本发明专利技术实施例提供的大小写规整方法和装置,扩大了大小写规整方法的适用范围,并且提高了大小写规整的准确性。

【技术实现步骤摘要】
大小写规整方法、装置、电子设备和存储介质
本专利技术涉及自然语言处理
,尤其涉及一种大小写规整方法、装置、电子设备和存储介质。
技术介绍
语言特有的语言习惯和语法规范决定了部分语言的单词在不同语境中需要采用不同的大小写格式。然而,无论是语音识别得到的转写文本,还是人工书写编辑的文本,通常未能正确区分不同语境下特定单词的大小写格式。因此,需要对文本进行大小写规整,使其符合所用语言的语言习惯和语法规范。目前,大小写规整方法通常基于预先设定的规则和替换词列表进行大小写转换。然而,该规整方法受限于有限的替换词列表,可应用范围小,且单词存在单复数、所有格等多种形式,替换词列表无法覆盖各单词的所有形式,泛化能力差。另外,该简单替换的规整方法易造成句意改变,使得规整后的文本句意发生错误。
技术实现思路
本专利技术实施例提供一种大小写规整方法、装置、电子设备和存储介质,用以解决现有技术适用范围窄、大小写规整准确性欠佳的缺陷。本专利技术实施例提供一种大小写规整方法,包括:将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。根据本专利技术一个实施例的大小写规整方法,所述将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型,具体包括:将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示;将每一分词的上下文语义表示输入至所述大小写规整模型的大小写转换系数计算层,得到所述大小写转换系数计算层输出的每一分词的大小写转换系数;将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型。根据本专利技术一个实施例的大小写规整方法,所述将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示,具体包括:将任一分词中的每一字符输入至所述上下文语义表示层的字符编码层,得到所述字符编码层输出的所述任一分词中每一字符的字符编码;将所述任一分词中每一字符的字符编码输入至所述上下文语义表示层的池化层,得到所述池化层输出的所述任一分词的池化向量;将每一分词的池化向量输入至所述上下文语义表示层的上下文语义提取层,得到所述上下文语义提取层输出的每一分词的上下文语义表示。根据本专利技术一个实施例的大小写规整方法,所述将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型,具体包括:将所述待规整文本中的每一分词输入至所述序列标注层的序列标注向量表示层,得到所述序列向量表示层输出的每一分词的序列标注向量表示;将每一分词的上下文语义表示、序列标注向量表示和大小写转换系数输入至所述序列标注层的标签预测层,得到所述标签预测层输出的每一分词的大小写格式类型。根据本专利技术一个实施例的大小写规整方法,所述大小写规整模型的损失函数包括大小写转换系数损失函数和序列标注损失函数;其中,所述大小写转换系数损失函数用于最大化所述样本大小写标签为大写的样本分词的大小写转换系数,并最小化所述样本大小写标签为小写的样本分词的大小写转换系数的离散程度。根据本专利技术一个实施例的大小写规整方法,所述大小写规整模型的损失函数还包括句意相似度损失函数;所述句意相似度损失函数用于最小化样本待规整文本及其对应的样本已规整文本之间的句意相似度;所述句意相似度是基于所述样本待规整文本的句意特征表示和所述样本已规整文本的句意特征表示确定得到的;其中,所述句意特征表示是基于对应文本中每一分词的上下文语义表示确定得到的。根据本专利技术一个实施例的大小写规整方法,所述基于每一分词的大小写格式类型,对所述待规整文本进行规整,具体包括:若任一分词的大小写格式类型为大写,则基于预先设定的大写转换对应关系,确定所述任一分词的规整方式;其中,所述规整方式为全字符大写或首字符大写。本专利技术实施例还提供一种大小写规整装置,包括:大小写标签确定单元,用于将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;大小写规整单元,用于基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。本专利技术实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述大小写规整方法的步骤。本专利技术实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述大小写规整方法的步骤。本专利技术实施例提供的大小写规整方法、装置、电子设备和存储介质,通过大小写规整模型确定待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型,从而对待规整文本进行大小写规整,无需预先设定替换词列表,扩大了大小写规整方法的适用范围。同时,大小写规整模型充分考虑了待规整文本的语境信息,使得规整后的每一分词符合文本的整体语境,提高了大小写规整的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的大小写规整方法的流程示意图;图2为本专利技术实施例提供的大小写规整模型运行方法的流程示意图;图3为本专利技术实施例提供的上下文语义表示方法的流程示意图;图4为本专利技术实施例提供的序列标注方法的流程示意图;图5为本专利技术实施例提供的大小写格式类型确定方法的流程示意图;图6为本专利技术实施例提供的大小写规整装置的结构示本文档来自技高网...

【技术保护点】
1.一种大小写规整方法,其特征在于,包括:/n将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;/n基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;/n其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;/n所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。/n

【技术特征摘要】
1.一种大小写规整方法,其特征在于,包括:
将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;
基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;
其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;
所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。


2.根据权利要求1所述的大小写规整方法,其特征在于,所述将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型,具体包括:
将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示;
将每一分词的上下文语义表示输入至所述大小写规整模型的大小写转换系数计算层,得到所述大小写转换系数计算层输出的每一分词的大小写转换系数;
将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型。


3.根据权利要求2所述的大小写规整方法,其特征在于,所述将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示,具体包括:
将任一分词中的每一字符输入至所述上下文语义表示层的字符编码层,得到所述字符编码层输出的所述任一分词中每一字符的字符编码;
将所述任一分词中每一字符的字符编码输入至所述上下文语义表示层的池化层,得到所述池化层输出的所述任一分词的池化向量;
将每一分词的池化向量输入至所述上下文语义表示层的上下文语义提取层,得到所述上下文语义提取层输出的每一分词的上下文语义表示。


4.根据权利要求2所述的大小写规整方法,其特征在于,所述将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型,具体包括:
将所述待规整文本中的每一分词输入至所述序列标注层的序列标注向量表示层,得到所述序列向量表示层输出的每一分词的序列标注向量表示;
将每一分词的上下文语义表...

【专利技术属性】
技术研发人员:戚婷万根顺高建清刘聪王智国胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1