一种数据筛选方法、装置、设备及存储介质制造方法及图纸

技术编号:30764612 阅读:40 留言:0更新日期:2021-11-10 12:21
本发明专利技术公开了一种数据筛选方法、装置、设备及存储介质。该方法包括:获取待筛选文本词汇;将所述待筛选文本词汇与加权词典库进行碰撞匹配,筛选出相关性大于设定阈值的目标文本词汇;将所述目标文本词汇输入TextRank算法中,得到骨架语句;将所述待筛选文本词汇和所述骨架语句输入因果论断模型,得到所述骨架语句的评分,其中,所述因果论断模型通过目标样本集迭代训练神经网络模型得到,所述目标样本集包括:文本词汇样本、文本词汇样本对应的骨架语句和骨架语句评分样本,通过本发明专利技术的技术方案,能够解决维护人员无法根据提取出的情感词汇进行相应的维护,和/或无法根据提取出的情感词汇给予相应奖励的问题。情感词汇给予相应奖励的问题。情感词汇给予相应奖励的问题。

【技术实现步骤摘要】
一种数据筛选方法、装置、设备及存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种数据筛选方法、装置、设备及存储介质。

技术介绍

[0002]情感数据计算分析是一种常见的自然语言处理(NLP)方法的应用,它会对含有情感色彩词汇的文本进行分析、处理、归纳以及映射到一些量化数据的指标上,可以理解为文本分类。传统情感分析方法为基于词典的方法和机器学习算法。词典分析算法首先需要对文本进行分词以及分句,然后将分词列表数据与词典进行逐个匹配,并记录匹配到的情感词分值,最后统计所有分词的情感分值总和,得到文本的情感倾向。
[0003]向量空间模型是常用来处理文本挖掘的文档建模方法,把文本内容的处理简化为向量空间中的向量运算,当文档被表示为文档空间的向量时,就可以通过计算向量之间的相似性来度量文档见的相似性,他的一些实现方式包括:
[0004]1)N

gram模型:基于一定的语料库,可以利用N

Gram来预计或者评估一个句子是否合理。
[0005]2)TFr/>‑
I本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据筛选方法,其特征在于,包括:获取待筛选文本词汇;将所述待筛选文本词汇与加权词典库进行碰撞匹配,筛选出相关性大于设定阈值的目标文本词汇;将所述目标文本词汇输入TextRank算法中,得到骨架语句;将所述待筛选文本词汇和所述骨架语句输入因果论断模型,得到所述骨架语句的评分,其中,所述因果论断模型通过目标样本集迭代训练神经网络模型得到,所述目标样本集包括:文本词汇样本、文本词汇样本对应的骨架语句和骨架语句评分样本。2.根据权利要求1所述的方法,其特征在于,通过目标样本集迭代训练神经网络模型,包括:建立神经网络模型;将所述目标样本集中的文本词汇样本和文本词汇样本对应的骨架语句输入所述神经网络模型,得到预测骨架语句评分;根据所述预测骨架语句评分和所述骨架语句评分样本形成的目标函数训练所述神经网络模型的参数;返回执行将所述目标样本集中的文本词汇样本和文本词汇样本对应的骨架语句输入所述神经网络模型,得到预测骨架语句评分的操作,直至得到因果论断模型。3.根据权利要求1所述的方法,其特征在于,在将所述目标样本集中的文本词汇样本和文本词汇样本对应的骨架语句输入所述神经网络模型,得到预测骨架语句评分之后,还包括:获取骨架语句评分大于评分阈值的目标骨架语句;根据所述目标骨架语句查询关键词列表,得到所述目标骨架语句对应的关键词;根据所述目标骨架语句对应的关键词确定目标地址;将所述目标骨架语句发送至所述目标地址。4.根据权利要求1所述的方法,其特征在于,将所述目标文本词汇输入TextRank算法中,得到骨架语,包括:将所述目标文本词汇中的目标语句作为节点,根据目标语句之间的关系建立节点之间的边;根据所述节点和边,得到骨架语句。5.根据权利要求3所述的方法,其特征在于,在获取骨架语句评分大于评分阈值的目标骨架语句之后,还包括:对所述目标骨架语句进行分词处理,得到至少一个目标词;若在所述加权词典库中查找到所述目标词,则...

【专利技术属性】
技术研发人员:胡琪李青胡嘉琦
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1