System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种文本数据的离线评估方法及装置。
技术介绍
1、一般情况下,商品交易双方需要对商品特性、质量等进行评估,以便对商品价值达成一致,促成交易。数据作为一种商品,同样需要在交易前对其数据要素特性、质量、价值等内容进行评估,便于买方判断数据产品是否满足自身需求,从而促成交易。
2、现有的文本数据评估技术中一般基于序列到序列的自然语言处理模型实现对文本数据的内容、语法等特性的提取,然而自然语言处理模型的处理方法需要大量有标签数据进行模型训练,标签数据的获取成本较高,并且模型训练以及处理的计算量大,通常部署在服务器设备上运行,因此涉及到数据传输,数据传输过程面临泄露等风险。
技术实现思路
1、有鉴于此,本申请提供了一种文本数据的离线评估方法及装置,降低评估成本,保证数据评估过程的安全性。
2、其技术方案如下:
3、第一方面,本申请实施例提供了一种文本数据的离线评估方法,所述方法包括:
4、获取待评估文本数据集,所述待评估文本数据集包括至少一个待评估文本数据;
5、基于对所述待评估文本数据的分句处理,得到所述待评估文本数据的分句结果;
6、根据目标分句中的词性标注结果确定所述目标分句的词性序列,并基于所述目标分句的词性序列获得所述待评估文本数据的词性序列集,其中,所述目标分句为所述分句结果中的任一分句;
7、根据所述目标分句的词性序列在所述词性序列集出现的次数以及所述目标分句的词性序
8、在一种可选的实现方式中,所述根据所述目标分句的词性序列在所述词性序列集出现的次数以及所述目标分句的词性序列所包含的词性个数,确定所述目标分句的句式重要度信息,包括:
9、根据如下公式确定所述目标分句的句式重要度信息:
10、imp(q)=nq(q)*exp(lq(q));其中,所述q为所述目标分句的词性序列,所述imp(q)为所述目标分句的句式重要度信息,所述nq(q)为所述目标分句的词性序列在所述词性序列集出现的次数,所述lq(q)为所述目标分句的词性序列所包含的词性个数,所述exp为以自然常数e为底的指数函数。
11、在一种可选的实现方式中,所述方法还包括:
12、基于对所述待评估文本数据的分词处理,得到所述待评估文本数据的分词结果;
13、获得目标分词的出现次数统计数据,所述出现次数统计数据为所述目标分词在所述待评估文本数据中出现的次数,其中,所述目标分词为所述分词结果中的任一分词。
14、在一种可选的实现方式中,所述方法还包括:
15、根据所述分词结果确定分词总数;
16、根据所述目标分词在所述待评估文本数据中出现的次数以及所述分词总数,确定所述目标分词的词频;
17、获得所述目标分词的存在统计数据,所述存在统计数据为所述待评估文本数据集中存在所述目标分词的文本数据的数量;
18、根据所述存在统计数据以及所述待评估文本数据集的文本数据的数量,确定所述目标分词的逆文档频率;
19、基于所述目标分词的词频以及所述目标分词的逆文档频率,确定所述目标分词的词频逆文档频率。
20、在一种可选的实现方式中,所述方法还包括:
21、获取所述分句结果中每个分句的句式重要度信息,得到句式重要度信息集;
22、对所述句式重要度信息集中的句式重要度信息进行排序,得到句式重要度排序表;
23、获取所述分词结果中每个分词的词频逆文档频率,得到词汇重要度信息集,所述词频逆文档频率用于指示词汇重要度信息;
24、对所述词汇重要度信息集中的词汇重要度信息进行排序,得到词汇重要度排序表;
25、基于所述句式重要度排序表以及所述词汇重要度排序表,确定所述待评估文本数据的关键句数据,所述关键句数据对应的分句在所述句式重要度排序表中满足预设句式排序要求,且所述关键句数据包括至少一个关键词汇,所述关键词汇在所述词汇重要度排序表中满足预设词汇排序要求。
26、在一种可选的实现方式中,所述方法还包括:
27、获取所述待评估文本数据集的分词结果集,所述分词结果集包括第一分词,所述第一分词为所述分词结果集中的任一分词;
28、获取所述第一分词的词频逆文档频率;
29、按照预设的排列顺序,基于所述第一分词的词频逆文档频率构建所述待评估文本数据的初始文本向量;
30、对所述初始文本向量进行降维处理,得到所述待评估文本数据的文本向量。
31、在一种可选的实现方式中,所述方法还包括:
32、获取所述待评估文本数据集中每个所述待评估文本数据的文本向量,以得到文本向量集;
33、利用预设的聚类算法对所述文本向量集按照话题进行聚类处理,以得到所述待评估文本数据集的话题集。
34、在一种可选的实现方式中,所述基于对所述待评估文本数据的分句处理,得到所述待评估文本数据的分句结果,包括:
35、利用预设的分句处理算法对所述待评估文本数据进行分句处理,以得到所述待评估文本数据的分句结果。
36、在一种可选的实现方式中,所述方法还包括:
37、基于敏感信息匹配需求确定目标正则表达式;
38、基于所述目标正则表达式遍历所述待评估文本数据集,以获得所述待评估文本数据集中的敏感信息位置以及出现次数。
39、第二方面,本申请实施例提供了一种文本数据的离线评估装置,所述装置包括:
40、数据获取模块,用于获取待评估文本数据集,所述待评估文本数据集包括至少一个待评估文本数据;
41、数据处理模块,用于基于对所述待评估文本数据的分句处理,得到所述待评估文本数据的分句结果;
42、序列构建模块,用于根据目标分句中的词性标注结果确定所述目标分句的词性序列,并基于所述目标分句的词性序列获得所述待评估文本数据的词性序列集,其中,所述目标分句为所述分句结果中的任一分句;
43、数据评估模块,用于根据所述目标分句的词性序列在所述词性序列集出现的次数以及所述目标分句的词性序列所包含的词性个数,确定所述目标分句的句式重要度信息。
44、在本申请的第二方面中,文本数据的离线评估装置的组成模块还可以执行前述第一方面以及各种可能的实现方式中所描述的步骤,详见前述对第一方面以及各种可能的实现方式中的说明。
45、上述技术方案具有如下有益效果:
46、本申请实施例提供的一种文本数据的离线评估方法,在执行该方法时,获取待评估文本数据集,待评估文本数据集包括至少一个待评估文本数据;基于对待评估文本数据的分句处理,得到待评估文本数据的分句结果;根据目标分句中的词性标注结果确定目标分句的词性序列,并基于目标分句的词性序列获得待本文档来自技高网...
【技术保护点】
1.一种文本数据的离线评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标分句的词性序列在所述词性序列集出现的次数以及所述目标分句的词性序列所包含的词性个数,确定所述目标分句的句式重要度信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1所述的方法,其特征在于,所述基于对所述待评估文本数据的分句处理,得到所述待评估文本数据的分句结果,包括:
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
10.一种文本数据的离线评估装置,其特征在于,所述装置包括:
【技术特征摘要】
1.一种文本数据的离线评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标分句的词性序列在所述词性序列集出现的次数以及所述目标分句的词性序列所包含的词性个数,确定所述目标分句的句式重要度信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征...
【专利技术属性】
技术研发人员:孙岳川,王海洋,郭振江,赵海威,戴薇,赵春林,李杰,张立峰,
申请(专利权)人:北京国际大数据交易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。