【技术实现步骤摘要】
一种文本预测方法、装置、设备和存储介质
[0001]本申请涉及人工智能
,尤其涉及一种文本预测方法、装置、设备和存储介质。
技术介绍
[0002]自然语言处理(Natural Language Processing,NLP)是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即,把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
[0003]而随着计算机技术的迅速发展,自然语言处理也已经被应用到生活的各方面,如,在新闻应用中,自然语言处理被应用到新闻上传发布后的新闻标签提取;在学术文章应用中,自然语言处理被应用到学术文章上传发布后的文章标签提取;在备忘录应用中,自然语言处理被应用到备忘笔记上传后的笔记标签提取等。
[0004]相关技术中,一般采用词袋模型的机器学习方法、word2vec的文本标签识别方法,或循环神经网络的文本标签识别方法等,但这些方式,仅采用上传文本的语义特征作为数据分析基础,对上传文本的标签进行识别和提取,使得标签识别的信息基础单一,识别准确性低。
[0005]因此,现在亟需重新设计一种文本预测方法,以及克服上述缺陷。
技术实现思路
[0006]本申请实施例提供一种文本预测方法、装置、设备和存储介质,用以提高文本标签识别和提取的准确度。
[0007]第一方面,本申请实施例提供一种文本预测方法,该方法包括:
[0008]提取待预测文本的综合语义特征,所述 ...
【技术保护点】
【技术特征摘要】
1.一种文本预测方法,其特征在于,所述方法包括:提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。2.如权利要求1所述的方法,其特征在于,所述提取待预测文本的综合语义特征,包括:从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列;将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列;将所述词特征序列和所述句特征序列拼接,得到所述综合语义特征。3.如权利要求2所述的方法,其特征在于,所述从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列,包括:对所述文本内容和所述标题进行分词处理,获取所述文本内容和所述标题包含的各分词,并基于所述各分词各自的词频,选取出设定数量的关键词;提取各关键词各自的词特征,并基于所述各关键词在所述文本内容和所述标题中的顺序,获得各词特征对应的词特征序列。4.如权利要求2所述的方法,其特征在于,所述将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列,包括:将所述标题作为一个关键句,以及对所述文本内容进行分句处理,获取所述文本内容的各分句,并从所述各分句中选取出与所述标题的相似度符合预设条件的至少一个关键句;其中,各关键句的字符长度和不超过设定长度;提取各关键句各自的句特征,并基于所述各关键句在所述文本内容和所述标题中的顺序,获得各句特征对应的句特征序列。5.如权利要求1所述的方法,其特征在于,所述基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,包括:基于所述上下文特征表征的所述关联关系,对所述上下文特征进行第一分类处理,获得子类目特征,所述子类目特征表征所述待预测文本归属的文件分类的子分类;将所述子类目特征与所述上下文特征拼接,获得拼接特征;基于所述拼接特征包含的所述关联关系和所述子分类,对所述拼接特征进行第二分类处理,获得父类目特征,所述父类目特征表征所述子分类的父分类;将所述父类目特征和所述子类目特征拼接,获得所述目标类目特征。6.如权利要求1
‑
5中任一所述的方法,其特征在于,所述方法是采用标签识别模型执行的,所述标签识别模型的训练过程如下:采用训练样本集对待训练的标签识别模型进行多轮迭代训练,每个训练样本中包括样
本文本、样本类目和样本标签;其中,每轮迭代过程执行以下操作:基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;其中,所述多个元素包含样本词特征和样本句特征;基于所述多个元素之间的关联关系,对所述元素关联特征进行分类处理,获得样本类目特征,所述样本类目特征表征所述样本文本归属的文件分类;基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,并将所述元素关联特征、所述目标共现特征和所述样本类目特征进行特征融合,获得样本融合特征;基于所述样本融合特征,获得所述样本文本的预测结果,并基于所述预测结果和所述样本标签的差异,对所述标签识别模型进行调参。7.如权利要求6所述的方法,其特征在于,所述训练样本中还包含所述样本文本的浏览情况;则所述基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,包括:基于所述训练样本集中各训练样本各自的浏览情况,分别获取每种类目标签对在所述各训练样本中的汇总浏览情况,所述类目标签对根据在同一训练样本中出现的样本类目和样本标签确定的...
【专利技术属性】
技术研发人员:崔开元,林玻,辛永佳,刘毅,王烨鑫,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。