信息处理方法和装置制造方法及图纸

技术编号:24457832 阅读:46 留言:0更新日期:2020-06-10 16:05
本申请实施例公开了信息处理方法和装置。该方法的一具体实施方式包括:获取文本中的两个段落经分词后得到的词序列;将所述词序列输入待训练的自然语言处理模型,生成所述词序列中的词对应的词向量;将所述词向量输入所述待训练的自然语言处理模型中的预设处理层;基于所述预设处理层输出的处理结果,预测所述两个段落是否相邻,和所述两个段落中被替换的词;获取所述两个段落的参考信息,并基于所述预测结果和所述参考信息,训练所述待训练的自然语言处理模型,得到经训练的自然语言处理模型。本申请实施例能够采用大量无人工标注的样本训练自然语言处理模型,在减少人力消耗的同时,还能够解决样本不足的问题,并提高模型的预测准确度。

Information processing methods and devices

【技术实现步骤摘要】
信息处理方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及信息处理方法和装置。
技术介绍
无论在日常的生活中还是工作中,都会接触到大量的文本信息。一篇文本信息中,可能会包含各种信息。如何对文本信息进行处理,是本领域技术人员亟待解决的技术问题。在现有技术中,如果要处理的文本信息存在于表格中,可以通过表头以及行列信息等,确定出指定信息。而如果文本信息是成段出现的,通常需要采用自然语言处理模型来处理文本。由于训练模型采用人工标注文本需要耗费较多的人力,导致样本生成困难,通常要获得一个训练后的模型的难度较大。
技术实现思路
本申请实施例提出了信息处理方法和装置。第一方面,本申请实施例提供了一种信息处理方法,包括:获取文本中的两个段落经分词后得到的词序列,其中,词序列包括至少一个用于替换词的指定标识;将词序列输入待训练的自然语言处理模型,生成词序列中的词对应的词向量,其中,词向量用于表征词序列中的词,以及词的位置;将词向量输入待训练的自然语言处理模型中的预设处理层,其中,预设处理层包括编码器和本文档来自技高网...

【技术保护点】
1.一种信息处理方法,所述方法包括:/n获取文本中的两个段落经分词后得到的词序列,其中,所述词序列包括至少一个用于替换词的指定标识;/n将所述词序列输入待训练的自然语言处理模型,生成所述词序列中的词对应的词向量,其中,所述词向量用于表征词序列中的词,以及词的位置;/n将所述词向量输入所述待训练的自然语言处理模型中的预设处理层,其中,所述预设处理层包括编码器和解码器;/n基于所述预设处理层输出的处理结果,预测所述两个段落是否相邻,和所述两个段落中被替换的词,得到预测结果;/n获取所述两个段落的参考信息,并基于所述预测结果和所述参考信息,训练所述待训练的自然语言处理模型,得到经训练的自然语言处理模...

【技术特征摘要】
1.一种信息处理方法,所述方法包括:
获取文本中的两个段落经分词后得到的词序列,其中,所述词序列包括至少一个用于替换词的指定标识;
将所述词序列输入待训练的自然语言处理模型,生成所述词序列中的词对应的词向量,其中,所述词向量用于表征词序列中的词,以及词的位置;
将所述词向量输入所述待训练的自然语言处理模型中的预设处理层,其中,所述预设处理层包括编码器和解码器;
基于所述预设处理层输出的处理结果,预测所述两个段落是否相邻,和所述两个段落中被替换的词,得到预测结果;
获取所述两个段落的参考信息,并基于所述预测结果和所述参考信息,训练所述待训练的自然语言处理模型,得到经训练的自然语言处理模型,其中,所述参考信息包括用于指示所述两个段落是否相邻的相邻信息,和被替换的词。


2.根据权利要求1所述的方法,其中,所述方法还包括:
获取第一样本信息,其中,所述第一样本信息包括第一目标段落经分词后得到的第一段落词序列,以及第一指定属性;
将所述第一样本信息输入所述经训练的自然语言处理模型,预测出相关度信息,其中,相关度信息用于指示所述第一段落词序列与所述第一指定属性之间的相关度;
基于预测出的相关度信息,和对所述第一样本信息标注的相关度信息,训练所述经训练的自然语言处理模型,得到第一模型。


3.根据权利要求2所述的方法,其中,所述方法还包括:
获取第二样本信息,其中,所述第二样本信息包括第二目标段落经分词后得到的第二段落词序列,以及第二指定属性,在所述第二段落词序列中存在与所述第二指定属性相匹配的属性,其中,所述匹配包括完全匹配和/或部分匹配;
将所述第二样本信息输入所述经训练的自然语言处理模型,并在所述第二段落词序列中,预测出所述第二指定属性的属性值;
基于预测出的属性值,和对所述相匹配的属性标注的属性值,训练所述经训练的自然语言处理模型,得到第二模型。


4.根据权利要求3所述的方法,其中,所述在所述第二段落词序列中,预测出所述第二指定属性的属性值,包括:
预测出所述第二指定属性的属性值在所述段落词序列中的位置信息,其中,所述位置信息包括起始位置信息和终止位置信息。


5.根据权利要求3所述的方法,其中,所述方法还包括:
获取目标文本经切词后得到的文本词序列,并将所述文本词序列划分成多个段落词序列;
从所述多个段落词序列中,确定与所述目标属性相关的段落词序列;
将所述目标属性和所确定的段落词序列输入所述第一模型,预测所述目标属性与每个所确定的段落词序列的相关度信息,其中,所述相关度信息包括相关度数值;
按照相关度数值由大到小的顺序,从所述多个段落词序列中,选取出预设数量的段落词序列;
将所述目标属性和所述预设数量的段落词序列输入所述第二模型,在所述预设数量的段落词序列中,预测所述目标属性的属性值,以及所述目标属性的属性值的置信度;
基于所述相关度数值和所述置信度,在所预测的所述目标属性的属性值中,确定所述目标属性的属性值。


6.根据权利要求5所述的方法,其中,所述基于所述相关度数值和所述置信度,在所预测的所述目标属性的属性值中,确定所述目标属性的属性值,包括:
对于所预测的、所述目标属性的属性值中的每个属性值,确定该属性值所在的段落词序列与所述目标属性的相关度数值,与该属性值的置信度的乘积;
将所预测的、所述目标属性的属性值中,所对应的乘积最大的属性值确定为所述目标属性的属性值。


7.根据权利要求5所述的方法,其中,所述从所述多个段落词序列中,确定与所述目标属性相关的段落词序列,包括:
对于所述多个段落词序列中的每个段落词序列,确定在该段落词序列中,是否存在与所述目标属性相匹配的词;
若确定存在,将该段落词序列确定为与所述目标属性相关的段落词序列。


8.根据权利要求1所述的方法,其中,所述将所述词序列输入待训练的自然语言处理模型,生成所述词序列中的词对应的词向量,包括:
将所述词序列输入待训练的自然语言处理模型中的嵌入层;
对于所述词序列中的词,通过所述嵌入层,将该词转换为词的标识,并将所述词的标识转换为第一向量;
通过所述嵌入层,将该词在所述词序列中的位置信息,转换为第二向量;
通过所述嵌入层,确定出指示该词在所述两个段落中所处的段落的段落位置信息,并将所述段落位置信息转换为第三向量;
将所述第一向量、所述第二向量和所述第三向量进行拼接,得到该词对应的词向量。


9.根据权利要求1所述的方法,其中,所述预设处理层包括...

【专利技术属性】
技术研发人员:李双婕余淼史亚冰郝学峰宋勋超蒋烨张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1