一种文本预测方法、装置、设备和存储介质制造方法及图纸

技术编号:39280330 阅读:8 留言:0更新日期:2023-11-07 10:54
本申请实施例提供一种文本预测方法、装置、设备和存储介质,涉及人工智能技术领域,包括:提取待预测文本的综合语义特征,综合语义特征包括:待预测文本的文本内容和标题包含的各关键词的词特征,以及包含的各关键句的句特征;提取综合语义特征的上下文特征;上下文特征表征综合语义特征包含的各元素之间的关联关系,每个所述元素为词特征或句特征;基于所上下文特征表征的关联关系,对上下文特征进行分类处理,获得目标类目特征,目标类目特征表征待预测文本归属的文件分类;基于上下文特征和目标类目特征,获得融合特征,并基于融合特征,获得待预测文本的预测标签。该方法用以提高文本标签识别和提取的准确度。高文本标签识别和提取的准确度。高文本标签识别和提取的准确度。

【技术实现步骤摘要】
一种文本预测方法、装置、设备和存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文本预测方法、装置、设备和存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即,把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
[0003]而随着计算机技术的迅速发展,自然语言处理也已经被应用到生活的各方面,如,在新闻应用中,自然语言处理被应用到新闻上传发布后的新闻标签提取;在学术文章应用中,自然语言处理被应用到学术文章上传发布后的文章标签提取;在备忘录应用中,自然语言处理被应用到备忘笔记上传后的笔记标签提取等。
[0004]相关技术中,一般采用词袋模型的机器学习方法、word2vec的文本标签识别方法,或循环神经网络的文本标签识别方法等,但这些方式,仅采用上传文本的语义特征作为数据分析基础,对上传文本的标签进行识别和提取,使得标签识别的信息基础单一,识别准确性低。
[0005]因此,现在亟需重新设计一种文本预测方法,以及克服上述缺陷。

技术实现思路

[0006]本申请实施例提供一种文本预测方法、装置、设备和存储介质,用以提高文本标签识别和提取的准确度。
[0007]第一方面,本申请实施例提供一种文本预测方法,该方法包括:
[0008]提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;
[0009]提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;
[0010]基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;
[0011]基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。
[0012]第二方面,本申请实施例提供一种文本预测装置,该装置包括:
[0013]提取单元,用于提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;
[0014]所述提取单元,用于提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;
[0015]分类单元,用于基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;
[0016]预测单元,用于基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。
[0017]可选的,所述提取单元具体用于:
[0018]从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列;
[0019]将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列;
[0020]将所述词特征序列和所述句特征序列拼接,得到所述综合语义特征。
[0021]可选的,所述提取单元具体用于:
[0022]对所述文本内容和所述标题进行分词处理,获取所述文本内容和所述标题包含的各分词,并基于所述各分词各自的词频,选取出设定数量的关键词;
[0023]提取各关键词各自的词特征,并基于所述各关键词在所述文本内容和所述标题中的顺序,获得各词特征对应的词特征序列。
[0024]可选的,所述提取单元具体用于:
[0025]将所述标题作为一个关键句,以及对所述文本内容进行分句处理,获取所述文本内容的各分句,并从所述各分句中选取出与所述标题的相似度符合预设条件的至少一个关键句;其中,各关键句的字符长度和不超过设定长度;
[0026]提取各关键句各自的句特征,并基于所述各关键句在所述文本内容和所述标题中的顺序,获得各句特征对应的句特征序列。
[0027]可选的,所述分类单元具体用于,
[0028]基于所述上下文特征表征的所述关联关系,对所述上下文特征进行第一分类处理,获得子类目特征,所述子类目特征表征所述待预测文本归属的文件分类的子分类;
[0029]将所述子类目特征与所述上下文特征拼接,获得拼接特征;
[0030]基于所述拼接特征包含的所述关联关系和所述子分类,对所述拼接特征进行第二分类处理,获得父类目特征,所述父类目特征表征所述子分类的父分类;
[0031]将所述父类目特征和所述子类目特征拼接,获得所述目标类目特征。
[0032]可选的,所述装置是采用标签识别模型执行的,所述标签识别模型的训练过程如下:
[0033]采用训练样本集对待训练的标签识别模型进行多轮迭代训练,每个训练样本中包括样本文本、样本类目和样本标签;其中,每轮迭代过程执行以下操作:
[0034]所述提取单元,用于基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;其中,所述多个元素包含样本词特征和样本句特征;
[0035]所述分类单元,用于基于所述多个元素之间的关联关系,对所述元素关联特征进
行分类处理,获得样本类目特征,所述样本类目特征表征所述样本文本归属的文件分类;
[0036]所述预测单元,用于基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,并将所述元素关联特征、所述目标共现特征和所述样本类目特征进行特征融合,获得样本融合特征;
[0037]所述预测单元,用于基于所述样本融合特征,获得所述样本文本的预测结果,并基于所述预测结果和所述样本标签的差异,对所述标签识别模型进行调参。
[0038]可选的,所述训练样本中还包含所述样本文本的浏览情况;则所述预测单元具体用于,
[0039]基于所述训练样本集中各训练样本各自的浏览情况,分别获取每种类目标签对在所述各训练样本中的汇总浏览情况,所述类目标签对根据在同一训练样本中出现的样本类目和样本标签确定的;
[0040]根据各类目标签对各自的汇总浏览情况,得到所述各类目标签对各自的共现权重;
[0041]基于所述共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的中间共现特征;
[0042]基于所述中间共现特征和所述共现权重,得到所述目标共现特征。
[0043]可选的,所述提取单元具体用于,
[0044]基于所述样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本预测方法,其特征在于,所述方法包括:提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。2.如权利要求1所述的方法,其特征在于,所述提取待预测文本的综合语义特征,包括:从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列;将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列;将所述词特征序列和所述句特征序列拼接,得到所述综合语义特征。3.如权利要求2所述的方法,其特征在于,所述从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列,包括:对所述文本内容和所述标题进行分词处理,获取所述文本内容和所述标题包含的各分词,并基于所述各分词各自的词频,选取出设定数量的关键词;提取各关键词各自的词特征,并基于所述各关键词在所述文本内容和所述标题中的顺序,获得各词特征对应的词特征序列。4.如权利要求2所述的方法,其特征在于,所述将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列,包括:将所述标题作为一个关键句,以及对所述文本内容进行分句处理,获取所述文本内容的各分句,并从所述各分句中选取出与所述标题的相似度符合预设条件的至少一个关键句;其中,各关键句的字符长度和不超过设定长度;提取各关键句各自的句特征,并基于所述各关键句在所述文本内容和所述标题中的顺序,获得各句特征对应的句特征序列。5.如权利要求1所述的方法,其特征在于,所述基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,包括:基于所述上下文特征表征的所述关联关系,对所述上下文特征进行第一分类处理,获得子类目特征,所述子类目特征表征所述待预测文本归属的文件分类的子分类;将所述子类目特征与所述上下文特征拼接,获得拼接特征;基于所述拼接特征包含的所述关联关系和所述子分类,对所述拼接特征进行第二分类处理,获得父类目特征,所述父类目特征表征所述子分类的父分类;将所述父类目特征和所述子类目特征拼接,获得所述目标类目特征。6.如权利要求1

5中任一所述的方法,其特征在于,所述方法是采用标签识别模型执行的,所述标签识别模型的训练过程如下:采用训练样本集对待训练的标签识别模型进行多轮迭代训练,每个训练样本中包括样
本文本、样本类目和样本标签;其中,每轮迭代过程执行以下操作:基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;其中,所述多个元素包含样本词特征和样本句特征;基于所述多个元素之间的关联关系,对所述元素关联特征进行分类处理,获得样本类目特征,所述样本类目特征表征所述样本文本归属的文件分类;基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,并将所述元素关联特征、所述目标共现特征和所述样本类目特征进行特征融合,获得样本融合特征;基于所述样本融合特征,获得所述样本文本的预测结果,并基于所述预测结果和所述样本标签的差异,对所述标签识别模型进行调参。7.如权利要求6所述的方法,其特征在于,所述训练样本中还包含所述样本文本的浏览情况;则所述基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,包括:基于所述训练样本集中各训练样本各自的浏览情况,分别获取每种类目标签对在所述各训练样本中的汇总浏览情况,所述类目标签对根据在同一训练样本中出现的样本类目和样本标签确定的...

【专利技术属性】
技术研发人员:崔开元林玻辛永佳刘毅王烨鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1