提取目标文本片段的方法、装置、设备及存储介质制造方法及图纸

技术编号:28374196 阅读:17 留言:0更新日期:2021-05-08 00:01
本申请公开了一种提取目标文本片段的方法、装置、设备及存储介质,该方法包括:对目标文本进行切分处理,以获得词语序列向量;基于所述词语序列向量和训练获得的文本类别向量,获得词语权重向量;根据每个词语在各文本类别上的权重,获取在各文本类别上权重高于阈值的N个目标词语;基于N个所述目标词语,获得属于各文本类别的目标文本片段。由此可见,该方法利用模型训练获得的文本类别向量以及由目标文本切分获得词语序列向量,来获得每个词语在各文本类别上的权重,由于权重可表征词语在各文本类别上的重要性,实现了对目标文本分类别进行目标文本片段的提取,提高了目标文本片段提取的准确率。

【技术实现步骤摘要】
提取目标文本片段的方法、装置、设备及存储介质
本申请涉及人工智能
,尤其涉及一种提取目标文本片段的方法、装置、设备及存储介质。
技术介绍
随着互联网技术的发展,网络舆情(例如,广告)铺天盖地。然而,由于网络监管的全面覆盖难度较大,因此,在网络上存在大量的不符合实际情况的虚假网络舆情,这些网络舆情会对大众造成误导。由于网络舆情一般篇幅较长,因此,为了高效的识别,需要将其中的包含重要信息的目标文本片段识别出来。现有的主要采用TextRank、TF-IDF等无监督的方案,可以挖掘出文本片段,但无法分类别进行提取。上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本申请的主要目的在于提供一种提取目标文本片段的方法、装置、设备及存储介质,旨在解决现有无法分类进行目标文本片段提取的技术问题。为实现上述目的,本申请提供一种提取目标文本片段的方法,所述方法包括:对目标文本进行切分处理,以获得词语序列向量;其中,所述词语序列向量中包括由所述目标文本切分获得的多个词语;基于所述词语序列向量和训练获得的文本类别向量,获得词语权重向量;其中,所述词语权重向量中包含每个词语在各文本类别上的权重,所述文本类别向量中包含多个文本类别;根据每个词语在各文本类别上的权重,获取在各文本类别上权重高于阈值的N个目标词语,N为正整数;基于N个所述目标词语,获得属于各文本类别的目标文本片段。可选地,所述对目标文本进行切分处理,以获得词语序列向量的步骤之前,所述方法还包括:获取包括多个样本文本的样本文本集合以及所述样本文本的文本类别集合;其中,所述文本类别集合中包含多个所述文本类别;基于所述样本文本集合和所述文本类别集合,获得表征每个样本文本在每个所述文本类别上的重要性的文本权重向量;基于所述文本权重向量,获得每个所述文本类别在所述每个样本文本上的类别向量;基于所述文本权重向量和所述类别向量,通过模型训练获得所述文本类别向量。可选地,所述基于所述样本文本集合和所述文本类别集合,获得表征每个样本文本在每个所述文本类别上的重要性的文本权重向量的步骤,具体包括:基于所述文本类别集合,获得初始文本类别向量;对每个所述样本文本进行切分处理,以获得每个所述样本文本的样本词语序列向量;基于所述初始文本类别向量和所述样本词语序列向量,获得每个所述样本文本的所述文本权重向量。可选地,所述样本词语序列向量中包括由所述目标文本切分获得的多个样本词语;所述基于所述初始文本类别向量和所述样本词语序列向量,获得每个所述样本文本的所述文本权重向量的步骤,具体包括:基于所述初始文本类别向量和所述样本词语序列向量,获得每个样本词语在各文本类别上的样本词语权重向量;对每个样本词语在各文本类别上的样本词语权重向量归一化处理,获得处理后的样本词语权重向量;将所述样本词语权重向量与所述处理后的样本词语权重向量逐元素相乘,以获得多个元素乘积结果;对多个元素乘积结果进行加和操作,以获得每个所述样本文本的所述文本权重向量。可选地,所述基于所述文本权重向量和所述类别向量,通过模型训练获得所述文本类别向量的步骤,具体包括:基于所述文本权重向量和所述类别向量,获得样本文本向量;将所述样本文本向量输入待训练模型,以获得所述文本类别向量。可选地,所述对目标文本进行切分处理,以获得词语序列向量的步骤,具体包括:将所述目标文本输入训练获得的语言表示模型,以获得所述词语序列向量。可选地,所述基于所述词语序列向量和训练获得的文本类别向量,获得词语权重向量的步骤,具体包括:将所述词语序列向量与训练获得的所述文本类别向量相乘,以获得所述词语权重向量。可选地,所述基于N个所述目标词语,获得属于各文本类别的目标文本片段的步骤,具体包括:判断同一类别中的N个所述目标词语中是否有语意连续的M个目标词语,M为正整数,且M小于等于N;若是,将语意连续的M个目标词语进行拼接,以获得所述目标文本片段。可选地,所述目标文本为包括新闻舆情的长文本,所述目标文本片段包括欺诈风险舆情;所述对目标文本进行切分处理,以获得词语序列向量的步骤,具体包括:对包括新闻舆情的长文本进行切分处理,以获得词语序列向量;所述基于N个所述目标词语,获得属于各文本类别的目标文本片段的步骤,具体包括:基于N个所述目标词语,获得属于各文本类别的包括欺诈风险舆情的目标文本片段。此外,为实现上述目的,本申请还提出一种提取目标文本片段的装置,所述装置包括:文本切分模块,用于对目标文本进行切分处理,以获得词语序列向量;其中,所述词语序列向量中包括由所述目标文本切分获得的多个词语;权重获得模块,用于基于所述词语序列向量和训练获得的文本类别向量,获得词语权重向量;其中,所述词语权重向量中包含每个词语在各文本类别上的权重,所述文本类别向量中包含多个文本类别;词语获取模块,用于根据每个词语在各文本类别上的权重,获取在各文本类别上权重高于阈值的N个目标词语,N为正整数;片段获得模块,用于基于N个所述目标词语,获得属于各文本类别的目标文本片段。此外,为实现上述目的,本申请还提供一种电子设备,所述设备包括处理器,存储器以及存储在所述存储器中的计算机程序,所述计算机程序被处理器运行时实现上述方法的步骤。此外,为实现上述目的,本申请还提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现上述方法的步骤。此外,为实现上述目的,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。本申请所能实现的有益效果。本申请实施例提出的一种提取目标文本片段的方法,该方法包括:对目标文本进行切分处理,以获得词语序列向量;其中,所述词语序列向量中包括由所述目标文本切分获得的多个词语;基于所述词语序列向量和训练获得的文本类别向量,获得词语权重向量;其中,所述词语权重向量中包含每个词语在各文本类别上的权重,所述文本类别向量中包含多个文本类别;根据每个词语在各文本类别上的权重,获取在各文本类别上权重高于阈值的N个目标词语,N为正整数;基于N个所述目标词语,获得属于各文本类别的目标文本片段。由此可见,该方法利用模型训练获得的文本类别向量以及由目标文本切分获得词语序列向量,来获得每个词语在各文本类别上的权重,由于权重可表征词语在各文本类别上的重要性,因此,根据每个词语在各文本类别上的权重,可获得属于各文本类别的目标文本片段,实现了对目标文本分类别进行目标文本片段的提取,提高了目标文本片段提取的准确率。附图说明图1为本申请实施例涉及的硬件运行环境的电子设备结构示意图;图2为本申请实施例的提取目标文本片段的方法实施场景图;图3本文档来自技高网...

【技术保护点】
1.一种提取目标文本片段的方法,其特征在于,所述方法包括:/n对目标文本进行切分处理,以获得词语序列向量;其中,所述词语序列向量中包括由所述目标文本切分获得的多个词语;/n基于所述词语序列向量和训练获得的文本类别向量,获得词语权重向量;其中,所述词语权重向量中包含每个词语在各文本类别上的权重,所述文本类别向量中包含多个文本类别;/n根据每个词语在各文本类别上的权重,获取在各文本类别上权重高于阈值的N个目标词语,N为正整数;/n基于N个所述目标词语,获得属于各文本类别的目标文本片段。/n

【技术特征摘要】
1.一种提取目标文本片段的方法,其特征在于,所述方法包括:
对目标文本进行切分处理,以获得词语序列向量;其中,所述词语序列向量中包括由所述目标文本切分获得的多个词语;
基于所述词语序列向量和训练获得的文本类别向量,获得词语权重向量;其中,所述词语权重向量中包含每个词语在各文本类别上的权重,所述文本类别向量中包含多个文本类别;
根据每个词语在各文本类别上的权重,获取在各文本类别上权重高于阈值的N个目标词语,N为正整数;
基于N个所述目标词语,获得属于各文本类别的目标文本片段。


2.如权利要求1所述的方法,其特征在于,所述对目标文本进行切分处理,以获得词语序列向量的步骤之前,所述方法还包括:
获取包括多个样本文本的样本文本集合以及所述样本文本的文本类别集合;其中,所述文本类别集合中包含多个所述文本类别;
基于所述样本文本集合和所述文本类别集合,获得表征每个样本文本在每个所述文本类别上的重要性的文本权重向量;
基于所述文本权重向量,获得每个所述文本类别在所述每个样本文本上的类别向量;
基于所述文本权重向量和所述类别向量,通过模型训练获得所述文本类别向量。


3.如权利要求2所述的方法,其特征在于,所述基于所述样本文本集合和所述文本类别集合,获得表征每个样本文本在每个所述文本类别上的重要性的文本权重向量的步骤,具体包括:
基于所述文本类别集合,获得初始文本类别向量;
对每个所述样本文本进行切分处理,以获得每个所述样本文本的样本词语序列向量;
基于所述初始文本类别向量和所述样本词语序列向量,获得每个所述样本文本的所述文本权重向量。


4.如权利要求3所述的方法,其特征在于,所述样本词语序列向量中包括由所述目标文本切分获得的多个样本词语;所述基于所述初始文本类别向量和所述样本词语序列向量,获得每个所述样本文本的所述文本权重向量的步骤,具体包括:
基于所述初始文本类别向量和所述样本词语序列向量,获得每个样本词语在各文本类别上的样本词语权重向量;
对每个样本词语在各文本类别上的样本词语权重向量归一化处理,获得处理后的样本词语权重向量;
将所述样本词语权重向量与所述处理后的样本词语权重向量逐元素相乘,以获得多个元素乘积结果;
对多个元素乘积结果进行加和操作,以获得每个所述样本文本的所述文本权重向量。


5.如权利要求2所述的方法,其特征在于,所述基于所述文本权重向量和所述类别向量,通过模型训练获得所述文本类别向量的步骤,具体包括:<...

【专利技术属性】
技术研发人员:张超
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1