文本处理方法及装置制造方法及图纸

技术编号：35198073 阅读：32 留言：0更新日期：2022-10-12 18:32

本申请实施例提供一种文本处理方法及装置，所述方法包括：获得待处理文本，所述待处理文本包括至少两个语句；对所述待处理文本中的每一语句进行语义编码处理，得到每一所述语句对应的语句编码向量；根据每一所述语句在所述待处理文本中的顺序，对所述至少两个语句编码向量进行排序处理，得到待处理序列；根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列中的语句编码向量进行语义分析处理，得到每一所述语句编码向量对应的语句类型，以确定每一所述语句编码向量对应语句的完整性。语句的完整性。语句的完整性。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法及装置

[0001]本申请实施例涉及计算机
，涉及但不限于一种文本处理方法及装置。

技术介绍

[0002]当前，在对话系统或客服系统中，由于输入设备的限制或用户的输入习惯，存在用户将一句话分多次发送给系统的情景，即将一句话用多个段落进行表示。
[0003]相关技术中，用户意图分析系统都是基于完整的句子对用户的意图进行分析，所以现有的用户意图分析系统不能对多个段落进行分析，来确定用户的意图。因此，需要根据多个段落的类型，将多个段落整合成完整的句子来确定用户的意图。

技术实现思路

[0004]基于相关技术中存在的问题，本申请实施例提供一种文本处理方法及装置。
[0005]本申请实施例的技术方案是这样实现的：
[0006]本申请实施例提供一种文本处理方法，所述方法包括：
[0007]获得待处理文本，所述待处理文本包括至少两个语句；
[0008]对所述待处理文本中的每一语句进行语义编码处理，得到每一所述语句对应的语句编码向量；
[0009]根据每一所述语句在所述待处理文本中的顺序，对所述至少两个语句编码向量进行排序处理，得到待处理序列；
[0010]根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列中的语句编码向量进行语义分析处理，得到每一所述语句编码向量对应的语句类型，以确定每一所述语句编码向量对应语句的完整性。
[0011]在一些实施例中，所述方法还包括：
[0012]根据所述语句类型对所述待处理...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，所述方法包括：获得待处理文本，所述待处理文本包括至少两个语句；对所述待处理文本中的每一语句进行语义编码处理，得到每一所述语句对应的语句编码向量；根据每一所述语句在所述待处理文本中的顺序，对所述至少两个语句编码向量进行排序处理，得到待处理序列；根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列中的语句编码向量进行语义分析处理，得到每一所述语句编码向量对应的语句类型，以确定每一所述语句编码向量对应语句的完整性。2.根据权利要求1所述的方法，所述方法还包括：根据所述语句类型对所述待处理序列进行标注，得到所述待处理文本对应的语句类型标注序列。3.根据权利要求1所述的方法，所述根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列中的语句编码向量进行语义分析处理，得到每一所述语句编码向量对应的语句类型，包括：根据每一所述语句编码向量在所述待处理序列中的位置信息，确定每一所述语句编码向量的相邻语句编码向量；对每一所述语句编码向量和所述相邻语句编码向量进行特征提取，得到每一所述语句编码向量对应的上下文语境信息；根据每一所述语句编码向量对应的上下文语境信息，对每一所述语句编码向量进行分类处理，得到每一所述语句编码向量对应的所述语句类型。4.根据权利要求1所述的方法，所述根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列中的语句编码向量进行语义分析处理，得到每一所述语句编码向量对应的语句类型，包括：根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列进行双向特征提取，得到正向特征向量和反向特征向量；对所述正向特征向量和所述反向特征向量进行特征拼接，得到序列特征向量；对所述序列特征向量进行分类处理，得到分类矩阵；对所述分类矩阵进行归一化处理，得到所述待处理文本中每一语句对应的语句类型。5.根据权利要求1所述的方法，所述方法还包括：获得整句集合和断句集合；所述整句集合中包括至少一个整句，所述断句集合中包括至少一个断句；分别确定出每一所述语句对应的语句编码向量与所述整句集合中的每一整句之间的第一距离、和每一所述语句对应的语句编码向量与所述断句集合中的每一断句之间的第二距离；基于所述第一距离，确定每一所述语句与所述整句集合之间的第一相似度；基于所述第二距离，确定每一所述语句与所述断句集合之间的第二相似度；根据每一所述语句对应的所述第一相似度和所述第二相似度，确定每一所述语句的语句类型；
根据每一所述语句和每一所述语句对应的语句类型，创建语句类型标注样本。6.根据权利要求5所述的方法，所述根据每一所述语句对应的所述第一相似度和所述第二相似度，确定每一所述语句的语句类型，至少包括以下一种：当语句的所述第一相似度大于第一相似度阈值时，确定出所述语句的语句类型为整句类型...

【专利技术属性】
技术研发人员：赵国光，李飞，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人