提取目标文本片段的方法、装置、设备及存储介质制造方法及图纸

技术编号：28374196 阅读：17 留言：0更新日期：2021-05-08 00:01

本申请公开了一种提取目标文本片段的方法、装置、设备及存储介质，该方法包括：对目标文本进行切分处理，以获得词语序列向量；基于所述词语序列向量和训练获得的文本类别向量，获得词语权重向量；根据每个词语在各文本类别上的权重，获取在各文本类别上权重高于阈值的N个目标词语；基于N个所述目标词语，获得属于各文本类别的目标文本片段。由此可见，该方法利用模型训练获得的文本类别向量以及由目标文本切分获得词语序列向量，来获得每个词语在各文本类别上的权重，由于权重可表征词语在各文本类别上的重要性，实现了对目标文本分类别进行目标文本片段的提取，提高了目标文本片段提取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
提取目标文本片段的方法、装置、设备及存储介质
本申请涉及人工智能
，尤其涉及一种提取目标文本片段的方法、装置、设备及存储介质。
技术介绍
随着互联网技术的发展，网络舆情(例如，广告)铺天盖地。然而，由于网络监管的全面覆盖难度较大，因此，在网络上存在大量的不符合实际情况的虚假网络舆情，这些网络舆情会对大众造成误导。由于网络舆情一般篇幅较长，因此，为了高效的识别，需要将其中的包含重要信息的目标文本片段识别出来。现有的主要采用TextRank、TF-IDF等无监督的方案，可以挖掘出文本片段，但无法分类别进行提取。上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。
技术实现思路
本申请的主要目的在于提供一种提取目标文本片段的方法、装置、设备及存储介质，旨在解决现有无法分类进行目标文本片段提取的技术问题。为实现上述目的，本申请提供一种提取目标文本片段的方法，所述方法包括：对目标文本进行切分处理，以获得词语序列向量；其中，所述词语序列向量中包括由所述目标文本切分获得的多个词语；基于所述词语序列向量和训练获得的文本类别向量，获得词语权重向量；其中，所述词语权重向量中包含每个词语在各文本类别上的权重，所述文本类别向量中包含多个文本类别；根据每个词语在各文本类别上的权重，获取在各文本类别上权重高于阈值的N个目标词语，N为正整数；基于N个所述目标词语，获得属于各文本类别的目标文本片段。可选地，所述对目标文本进行切分处理，以获得...

【技术保护点】
1.一种提取目标文本片段的方法，其特征在于，所述方法包括：/n对目标文本进行切分处理，以获得词语序列向量；其中，所述词语序列向量中包括由所述目标文本切分获得的多个词语；/n基于所述词语序列向量和训练获得的文本类别向量，获得词语权重向量；其中，所述词语权重向量中包含每个词语在各文本类别上的权重，所述文本类别向量中包含多个文本类别；/n根据每个词语在各文本类别上的权重，获取在各文本类别上权重高于阈值的N个目标词语，N为正整数；/n基于N个所述目标词语，获得属于各文本类别的目标文本片段。/n

【技术特征摘要】
1.一种提取目标文本片段的方法，其特征在于，所述方法包括：
对目标文本进行切分处理，以获得词语序列向量；其中，所述词语序列向量中包括由所述目标文本切分获得的多个词语；
基于所述词语序列向量和训练获得的文本类别向量，获得词语权重向量；其中，所述词语权重向量中包含每个词语在各文本类别上的权重，所述文本类别向量中包含多个文本类别；
根据每个词语在各文本类别上的权重，获取在各文本类别上权重高于阈值的N个目标词语，N为正整数；
基于N个所述目标词语，获得属于各文本类别的目标文本片段。

2.如权利要求1所述的方法，其特征在于，所述对目标文本进行切分处理，以获得词语序列向量的步骤之前，所述方法还包括：
获取包括多个样本文本的样本文本集合以及所述样本文本的文本类别集合；其中，所述文本类别集合中包含多个所述文本类别；
基于所述样本文本集合和所述文本类别集合，获得表征每个样本文本在每个所述文本类别上的重要性的文本权重向量；
基于所述文本权重向量，获得每个所述文本类别在所述每个样本文本上的类别向量；
基于所述文本权重向量和所述类别向量，通过模型训练获得所述文本类别向量。

3.如权利要求2所述的方法，其特征在于，所述基于所述样本文本集合和所述文本类别集合，获得表征每个样本文本在每个所述文本类别上的重要性的文本权重向量的步骤，具体包括：
基于所述文本类别集合，获得初始文本类别向量；
对每个所述样本文本进行切分处理，以获得每个所述样本文本的样本词语序列向量；
基于所述初始文本类别向量和所述样本词语序列向量，获得每个所述样本文本的所述文本权重向量。

4.如权利要求3所述的方法，其特征在于，所述样本词语序列向量中包括由所述目标文本切分获得的多个样本词语；所述基于所述初始文本类别向量和所述样本词语序列向量，获得每个所述样本文本的所述文本权重向量的步骤，具体包括：
基于所述初始文本类别向量和所述样本词语序列向量，获得每个样本词语在各文本类别上的样本词语权重向量；
对每个样本词语在各文本类别上的样本词语权重向量归一化处理，获得处理后的样本词语权重向量；
将所述样本词语权重向量与所述处理后的样本词语权重向量逐元素相乘，以获得多个元素乘积结果；
对多个元素乘积结果进行加和操作，以获得每个所述样本文本的所述文本权重向量。

5.如权利要求2所述的方法，其特征在于，所述基于所述文本权重向量和所述类别向量，通过模型训练获得所述文本类别向量的步骤，具体包括：<...

【专利技术属性】
技术研发人员：张超，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人