一种文本数据的离线评估方法及装置制造方法及图纸

技术编号:41499986 阅读:22 留言:0更新日期:2024-05-30 14:42
本申请提供一种文本数据的离线评估方法及装置,获取待评估文本数据集,待评估文本数据集包括至少一个待评估文本数据;获取待评估文本数据的分句结果;根据目标分句中的词性标注结果确定目标分句的词性序列,并基于目标分句的词性序列获得待评估文本数据的词性序列集;根据目标分句的词性序列在词性序列集出现的次数以及目标分句的词性序列所包含的词性个数,确定目标分句的句式重要度信息。本申请基于统计的方法实现对文本数据的重要度评估,评估过程无需语言处理模型的处理,因此无需标注数据,降低评估成本,提高数据重要度信息的提取效率,且统计过程计算量小,使得待评估数据满足离线部署的要求,避免了数据传输泄露的风险。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种文本数据的离线评估方法及装置


技术介绍

1、一般情况下,商品交易双方需要对商品特性、质量等进行评估,以便对商品价值达成一致,促成交易。数据作为一种商品,同样需要在交易前对其数据要素特性、质量、价值等内容进行评估,便于买方判断数据产品是否满足自身需求,从而促成交易。

2、现有的文本数据评估技术中一般基于序列到序列的自然语言处理模型实现对文本数据的内容、语法等特性的提取,然而自然语言处理模型的处理方法需要大量有标签数据进行模型训练,标签数据的获取成本较高,并且模型训练以及处理的计算量大,通常部署在服务器设备上运行,因此涉及到数据传输,数据传输过程面临泄露等风险。


技术实现思路

1、有鉴于此,本申请提供了一种文本数据的离线评估方法及装置,降低评估成本,保证数据评估过程的安全性。

2、其技术方案如下:

3、第一方面,本申请实施例提供了一种文本数据的离线评估方法,所述方法包括:

4、获取待评估文本数据集,所述待评估文本数据集包括至少一个待本文档来自技高网...

【技术保护点】

1.一种文本数据的离线评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述目标分句的词性序列在所述词性序列集出现的次数以及所述目标分句的词性序列所包含的词性个数,确定所述目标分句的句式重要度信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求4所述的方法,其特征在于,所述方法还包括:

7.根据权利要求6所述的方法,其特征在...

【技术特征摘要】

1.一种文本数据的离线评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述目标分句的词性序列在所述词性序列集出现的次数以及所述目标分句的词性序列所包含的词性个数,确定所述目标分句的句式重要度信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征...

【专利技术属性】
技术研发人员:孙岳川王海洋郭振江赵海威戴薇赵春林李杰张立峰
申请(专利权)人:北京国际大数据交易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1