一种信息处理方法和装置制造方法及图纸

技术编号:38153315 阅读:11 留言:0更新日期:2023-07-13 09:19
本申请公开一种信息处理方法和装置,该信息处理方法包括:获取待处理的第一文本对象对其进行分割处理,得到至少一个第一子文本对象;从文本对象集包括的各个子文本对象中确定是否存在与第一子文本对象满足相似条件的第二子文本对象,得到确定结果;文本对象集包括由至少一个子文本对象组成的至少一个文本对象;子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所述一个全局共享子文本的索引信息;根据所述确定结果,对第一文本对象进行信息处理。第一文本对象进行信息处理。第一文本对象进行信息处理。

【技术实现步骤摘要】
一种信息处理方法和装置


[0001]本申请属于自然语言处理
,尤其涉及一种信息处理方法和装置。

技术介绍

[0002]相似文档搜索在自然语言文本分类中有着举足轻重的作用,然而,目前的相似文档搜索解决方案,在搜索相似文档时计算量高,识别准确度低且效率低,除此之外,存储空间的利用效率也较低,造成了严重的资源浪费。如何解决其中的至少部分问题成为本领域技术难点。

技术实现思路

[0003]为此,本申请公开如下技术方案:
[0004]一种信息处理方法,包括:
[0005]获取待处理的第一文本对象;
[0006]对所述第一文本对象进行分割处理,得到至少一个第一子文本对象;
[0007]从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,得到确定结果;其中,所述文本对象集包括由至少一个子文本对象组成的至少一个文本对象;所述子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所对应全局共享子文本的索引信息;
[0008]根据所述确定结果,对所述第一文本对象进行信息处理。
[0009]可选的,所述文本对象集中的子文本对象还包括非共享子文本,所述非共享子文本表征所述文本对象集未包含与之满足相似条件的独立子文本对象;所述从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,包括:
[0010]确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象。
[0011]可选的,所述根据所述确定结果,对所述第一文本对象进行信息处理,包括:
[0012]将所述第一文本对象包含的所述至少一个第一子文本对象对应存储至所述文本对象集;
[0013]其中,对于每一第一子文本对象,如果所述文本对象集的全局共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述全局共享子文本中所述第二子文本对象的索引信息;如果所述文本对象集的非共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述非共享子文本中所述第二子文本对象的索引信息,并调整所述非共享子文本中所述第二子文本对象为全局共享子文本;如果所述文本对象集中不存在与所述第一子文本
对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为相应的子文本内容。
[0014]可选的,所述根据所述确定结果,对所述第一文本对象进行信息处理,包括:
[0015]在存在与所述第一子文本对象满足相似条件的第二子文本对象情况下,确定各个所述第二子文本对象分别对应的文本对象中,是否存在对应的第二子文本对象总数据量满足数据量条件的目标文本对象;
[0016]若存在,将所述目标文本对象作为所述第一文本对象的相似文本对象。
[0017]可选的,所述确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象,包括:
[0018]利用预先构建的文本理解模型,从所述文本对象集包括的各个全局共享子文本和非共享子文本中确定与所述第一子文本对象满足第一子相似条件的子文本,作为所述第一子文本对象的候选相似子文本对象;
[0019]若所述第一子文本对象的候选相似子文本对象非空,利用预先构建的相似度模型,确定所述第一子文本对象和所述候选相似子文本对象的相似度值,在所述相似度值满足第二子相似条件情况下,确定所述候选相似子文本对象为与所述第一子文本对象满足所述相似条件的第二子文本对象。
[0020]可选的,所述利用预先构建的相似度模型,确定所述第一子文本对象和所述候选相似子文本对象的相似度值,包括:
[0021]对所述第一子文本对象进行向量化,得到第一向量;
[0022]从向量集中获取所述候选相似子文本对象对应的向量,得到第二向量;所述向量集包括所述文本对象集中各个全局共享子文本和非共享子文本分别对应的向量;
[0023]利用所述相似度模型,根据所述第一向量和所述第二向量,确定所述第一子文本对象和所述候选相似子文本对象的相似度值。
[0024]可选的,所述文本理解模型的构建过程,包括:
[0025]将第一文本对象样本和第二文本对象样本输入待训练模型,得到所述待训练模型输出的所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本;
[0026]将所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本互换,得到所述第一文本对象样本对应的第一替换样本和所述第二文本对象样本对应的第二替换样本;将所述第一文本对象样本和所述第二文本对象样本中的相似子文本对象样本剔除,得到所述第一文本对象样本对应的第一剔除样本和所述第二文本对象样本对应的第二剔除样本;
[0027]确定所述相似度模型对第一样本对和/或第二样本对的相似度确定结果的第一子损失函数值,及对第三样本对的相似度确定结果的第二子损失函数值;所述第一样本对包括所述第一文本对象样本和所述第一替换样本,所述第二样本对包括所述第二文本对象样本和所述第二替换样本,所述第三样本对包括所述第一剔除样本和所述第二剔除样本;
[0028]根据所述第一子损失函数值和所述第二子损失函数值,调整所述待训练模型的模型参数,直至满足结束条件得到所述文本理解模型。
[0029]可选的,所述根据所述确定结果,对所述第一文本对象进行信息处理,还包括:
[0030]如果所述第一子文本对象在所述文本对象集中存储为相应的子文本内容,将所述第一子文本对象对应的第一向量存储至向量集;
[0031]其中,所述向量集包括所述文本对象集中各个全局共享子文本和非共享子文本分别对应的向量。
[0032]可选的,所述获取待处理的第一文本对象,包括:
[0033]获取待处理的满足长文本条件的第一长文本对象;
[0034]所述对所述第一文本对象进行分割处理,得到至少一个第一子文本对象,包括:
[0035]对所述第一长文本对象进行文本块分割处理,得到满足文本块条件的至少一个第一文本块。
[0036]一种信息处理装置,包括:
[0037]获取单元,用于获取待处理的第一文本对象;
[0038]分割单元,用于对所述第一文本对象进行分割处理,得到至少一个第一子文本对象;
[0039]确定单元,用于从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,得到确定结果;其中,所述文本对象集包括由至少一个子文本对象组成的至少一个文本对象;所述子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,包括:获取待处理的第一文本对象;对所述第一文本对象进行分割处理,得到至少一个第一子文本对象;从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,得到确定结果;其中,所述文本对象集包括由至少一个子文本对象组成的至少一个文本对象;所述子文本对象包括全局共享子文本,每个全局共享子文本表征满足相似条件的一组子文本对象;所述一组子文本对象中,至少一个子文本对象在所属文本对象中表示为对应的文本内容以作为所述全局共享子文本,其他子文本对象在所属文本对象中表示为用于索引至所对应全局共享子文本的索引信息;根据所述确定结果,对所述第一文本对象进行信息处理。2.根据权利要求1所述的方法,所述文本对象集中的子文本对象还包括非共享子文本,所述非共享子文本表征所述文本对象集未包含与之满足相似条件的独立子文本对象;所述从文本对象集包括的各个子文本对象中确定是否存在与所述第一子文本对象满足相似条件的第二子文本对象,包括:确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象。3.根据权利要求2所述的方法,所述根据所述确定结果,对所述第一文本对象进行信息处理,包括:将所述第一文本对象包含的所述至少一个第一子文本对象对应存储至所述文本对象集;其中,对于每一第一子文本对象,如果所述文本对象集的全局共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述全局共享子文本中所述第二子文本对象的索引信息;如果所述文本对象集的非共享子文本中存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为所述非共享子文本中所述第二子文本对象的索引信息,并调整所述非共享子文本中所述第二子文本对象为全局共享子文本;如果所述文本对象集中不存在与所述第一子文本对象满足相似条件的第二子文本对象,将所述第一子文本对象存储为相应的子文本内容。4.根据权利要求1所述的方法,所述根据所述确定结果,对所述第一文本对象进行信息处理,包括:在存在与所述第一子文本对象满足相似条件的第二子文本对象情况下,确定各个所述第二子文本对象分别对应的文本对象中,是否存在对应的第二子文本对象总数据量满足数据量条件的目标文本对象;若存在,将所述目标文本对象作为所述第一文本对象的相似文本对象。5.根据权利要求2所述的方法,所述确定所述文本对象集包括的各个全局共享子文本和非共享子文本中是否存在与所述第一子文本对象满足相似条件的第二子文本对象,包括:利用预先构建的文本理解模型,从所述文本对象集包括的各个全局共享子文本和非共享子文本中确定与所述第一子文本对象满足第一子相似条件的子文本,作为所述第一子文本对象的候选相似子文本对象;
若所述第一子文本对象的候选相似子文本对象非空,利用预先构建的相似度模型,确定所述第一子文本对象和所述候选相似子文本对象的相似度值,在所述相似度值满足第二子相似条件情况下,确定所述候选相似子文本对象为与所述第一子文本对象满足所述相似条件的第二子...

【专利技术属性】
技术研发人员:潘骏孙佳岳晨
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1