文本处理方法及装置制造方法及图纸

技术编号:35198073 阅读:32 留言:0更新日期:2022-10-12 18:32
本申请实施例提供一种文本处理方法及装置,所述方法包括:获得待处理文本,所述待处理文本包括至少两个语句;对所述待处理文本中的每一语句进行语义编码处理,得到每一所述语句对应的语句编码向量;根据每一所述语句在所述待处理文本中的顺序,对所述至少两个语句编码向量进行排序处理,得到待处理序列;根据每一所述语句编码向量在所述待处理序列中的位置信息,对所述待处理序列中的语句编码向量进行语义分析处理,得到每一所述语句编码向量对应的语句类型,以确定每一所述语句编码向量对应语句的完整性。语句的完整性。语句的完整性。

【技术实现步骤摘要】
文本处理方法及装置


[0001]本申请实施例涉及计算机
,涉及但不限于一种文本处理方法及装置。

技术介绍

[0002]当前,在对话系统或客服系统中,由于输入设备的限制或用户的输入习惯,存在用户将一句话分多次发送给系统的情景,即将一句话用多个段落进行表示。
[0003]相关技术中,用户意图分析系统都是基于完整的句子对用户的意图进行分析,所以现有的用户意图分析系统不能对多个段落进行分析,来确定用户的意图。因此,需要根据多个段落的类型,将多个段落整合成完整的句子来确定用户的意图。

技术实现思路

[0004]基于相关技术中存在的问题,本申请实施例提供一种文本处理方法及装置。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种文本处理方法,所述方法包括:
[0007]获得待处理文本,所述待处理文本包括至少两个语句;
[0008]对所述待处理文本中的每一语句进行语义编码处理,得到每一所述语句对应的语句编码向量;
[0009]根据每一所述语句在所述待处理文本中的顺序,对所述至少两个语句编码向量进行排序处理,得到待处理序列;
[0010]根据每一所述语句编码向量在所述待处理序列中的位置信息,对所述待处理序列中的语句编码向量进行语义分析处理,得到每一所述语句编码向量对应的语句类型,以确定每一所述语句编码向量对应语句的完整性。
[0011]在一些实施例中,所述方法还包括:
[0012]根据所述语句类型对所述待处理序列进行标注,得到所述待处理文本对应的语句类型标注序列。
[0013]在一些实施例中,所述根据每一所述语句编码向量在所述待处理序列中的位置信息,对所述待处理序列中的语句编码向量进行语义分析处理,得到每一所述语句编码向量对应的语句类型,包括:
[0014]根据每一所述语句编码向量在所述待处理序列中的位置信息,确定每一所述语句编码向量的相邻语句编码向量;
[0015]对每一所述语句编码向量和所述相邻语句编码向量进行特征提取,得到每一所述语句编码向量对应的上下文语境信息;
[0016]根据每一所述语句编码向量对应的上下文语境信息,对每一所述语句编码向量进行分类处理,得到每一所述语句编码向量对应的所述语句类型。
[0017]在一些实施例中,所述根据每一所述语句编码向量在所述待处理序列中的位置信息,对所述待处理序列中的语句编码向量进行语义分析处理,得到每一所述语句编码向量
对应的语句类型,包括:
[0018]根据每一所述语句编码向量在所述待处理序列中的位置信息,对所述待处理序列进行双向特征提取,得到正向特征向量和反向特征向量;
[0019]对所述正向特征向量和所述反向特征向量进行特征拼接,得到序列特征向量;
[0020]对所述序列特征向量进行分类处理,得到分类矩阵;
[0021]对所述分类矩阵进行归一化处理,得到所述待处理文本中每一语句对应的语句类型。
[0022]在一些实施例中,所述方法还包括:
[0023]获得整句集合和断句集合;所述整句集合中包括至少一个整句,所述断句集合中包括至少一个断句;
[0024]分别确定出每一所述语句对应的语句编码向量与所述整句集合中的每一整句之间的第一距离、和每一所述语句对应的语句编码向量与所述断句集合中的每一断句之间的第二距离;
[0025]基于所述第一距离,确定每一所述语句与所述整句集合之间的第一相似度;
[0026]基于所述第二距离,确定每一所述语句与所述断句集合之间的第二相似度;
[0027]根据每一所述语句对应的所述第一相似度和所述第二相似度,确定每一所述语句的语句类型;
[0028]根据每一所述语句和每一所述语句对应的语句类型,创建语句类型标注样本。
[0029]在一些实施例中,所述根据每一所述语句对应的所述第一相似度和所述第二相似度,确定每一所述语句的语句类型,至少包括以下一种:
[0030]当语句的所述第一相似度大于第一相似度阈值时,确定出所述语句的语句类型为整句类型;
[0031]当语句的所述第二相似度大于第二相似度阈值时,确定出所述语句的语句类型为断句类型;
[0032]当语句的所述第一相似度大于所述第二相似度时,确定出所述语句的语句类型为整句类型;
[0033]当语句的所述第二相似度大于所述第一相似度时,确定出所述语句的语句类型为断句类型。
[0034]在一些实施例中,所述方法还包括:
[0035]根据所述待处理文本中的每一语句对应的语句类型,对所述语句类型标注样本进行更新,得到更新后的语句类型标注样本;
[0036]将所述更新后的语句类型标注样本,确定为标注模型的样本数据集。
[0037]在一些实施例中,所述方法还包括:
[0038]获得历史对话;
[0039]确定所述历史对话中每一语句对应的目标对象;
[0040]当任一语句对应的目标对象为第一类型对象时,将所述语句确定为整句;
[0041]根据所述历史对话中的全部整句,创建所述整句集合;
[0042]当任一语句对应的目标对象为第二类型对象时,对所述语句进行句法分析,得到分析结果;
[0043]当所述分析结果表明所述语句的语句类型为断句类型时,将所述语句确定为断句;
[0044]根据所述历史对话中的全部断句,创建所述断句集合。
[0045]在一些实施例中,所述方法通过标注模型实现,所述标注模型至少包括语义编码模块、排序模块、语义分析模块和标注模块;所述标注模型通过以下步骤训练得到:
[0046]将样本数据集输入至所述标注模型中,所述样本数据集包括至少两个样本语句;
[0047]通过所述语义编码模块,对所述样本数据集中的每一样本语句进行语义编码处理,得到每一所述样本语句对应的样本语句编码向量;
[0048]通过所述排序模块,根据每一所述样本语句在所述样本数据集中的顺序,对所述至少两个样本语句编码向量进行排序处理,得到样本待处理序列;
[0049]通过所述语义分析模块,根据每一所述样本语句编码向量在所述样本待处理序列中的位置信息,对所述样本待处理序列中的样本语句编码向量进行语义分析处理,得到每一所述样本语句编码向量对应的样本语句类型;
[0050]通过所述标注模块,根据所述样本语句类型对所述样本待处理序列进行标注,得到所述样本待处理文本对应的样本语句类型标注序列;
[0051]将所述样本语句类型标注序列输入至预设损失模型中,得到损失结果;
[0052]根据所述损失结果,对所述语义编码模块、所述排序模块、所述语义分析模块和所述标注模块中的参数进行修正,以得到训练后的标注模型。
[0053]本申请实施例提供一种文本处理装置,所述装置包括:
[0054]获得模块,用于获得待处理文本,所述待处理文本包括至少两个语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,所述方法包括:获得待处理文本,所述待处理文本包括至少两个语句;对所述待处理文本中的每一语句进行语义编码处理,得到每一所述语句对应的语句编码向量;根据每一所述语句在所述待处理文本中的顺序,对所述至少两个语句编码向量进行排序处理,得到待处理序列;根据每一所述语句编码向量在所述待处理序列中的位置信息,对所述待处理序列中的语句编码向量进行语义分析处理,得到每一所述语句编码向量对应的语句类型,以确定每一所述语句编码向量对应语句的完整性。2.根据权利要求1所述的方法,所述方法还包括:根据所述语句类型对所述待处理序列进行标注,得到所述待处理文本对应的语句类型标注序列。3.根据权利要求1所述的方法,所述根据每一所述语句编码向量在所述待处理序列中的位置信息,对所述待处理序列中的语句编码向量进行语义分析处理,得到每一所述语句编码向量对应的语句类型,包括:根据每一所述语句编码向量在所述待处理序列中的位置信息,确定每一所述语句编码向量的相邻语句编码向量;对每一所述语句编码向量和所述相邻语句编码向量进行特征提取,得到每一所述语句编码向量对应的上下文语境信息;根据每一所述语句编码向量对应的上下文语境信息,对每一所述语句编码向量进行分类处理,得到每一所述语句编码向量对应的所述语句类型。4.根据权利要求1所述的方法,所述根据每一所述语句编码向量在所述待处理序列中的位置信息,对所述待处理序列中的语句编码向量进行语义分析处理,得到每一所述语句编码向量对应的语句类型,包括:根据每一所述语句编码向量在所述待处理序列中的位置信息,对所述待处理序列进行双向特征提取,得到正向特征向量和反向特征向量;对所述正向特征向量和所述反向特征向量进行特征拼接,得到序列特征向量;对所述序列特征向量进行分类处理,得到分类矩阵;对所述分类矩阵进行归一化处理,得到所述待处理文本中每一语句对应的语句类型。5.根据权利要求1所述的方法,所述方法还包括:获得整句集合和断句集合;所述整句集合中包括至少一个整句,所述断句集合中包括至少一个断句;分别确定出每一所述语句对应的语句编码向量与所述整句集合中的每一整句之间的第一距离、和每一所述语句对应的语句编码向量与所述断句集合中的每一断句之间的第二距离;基于所述第一距离,确定每一所述语句与所述整句集合之间的第一相似度;基于所述第二距离,确定每一所述语句与所述断句集合之间的第二相似度;根据每一所述语句对应的所述第一相似度和所述第二相似度,确定每一所述语句的语句类型;
根据每一所述语句和每一所述语句对应的语句类型,创建语句类型标注样本。6.根据权利要求5所述的方法,所述根据每一所述语句对应的所述第一相似度和所述第二相似度,确定每一所述语句的语句类型,至少包括以下一种:当语句的所述第一相似度大于第一相似度阈值时,确定出所述语句的语句类型为整句类型...

【专利技术属性】
技术研发人员:赵国光李飞
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1