System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法及系统、数据处理设备及程序、存储介质技术方案_技高网

数据处理方法及系统、数据处理设备及程序、存储介质技术方案

技术编号:41181185 阅读:2 留言:0更新日期:2024-05-07 22:15
本发明专利技术涉及数据处理方法及系统、数据处理设备及程序、存储介质。所述数据处理方法包括如下步骤:根据用户输入的查询内容生成查询请求;对数据源中的数据进行数据清洗;对经过数据清洗的数据源中的数据进行数据综合评分;对经过数据综合评分的数据源中的数据进行数据标记;计算各个所述数据源的权重,并从权重达标的数据源中抓取合格数据;以及输出查询结果。本发明专利技术方便了专业人士基于查询内容从相关数据源获取合格数据,提高了相关工作处理的效率和准确性。

【技术实现步骤摘要】

本专利技术涉及数据处理领域;具体地,本专利技术涉及数据处理方法及系统、数据处理设备及程序、存储介质


技术介绍

1、数据处理从大量可能杂乱无章、难以理解的数据中抽取并推导出对某些特定的人们来说有价值、有意义的数据。例如,在文本数据处理领域中,处理和分析大量相关的文本信息是一项至关重要的工作,该工作涉及到文档的搜集、分类、分析和编辑等多个环节。数据处理还包括对视频、音频、图片等数据的处理。

2、随着可获取信息量的显著增加,传统的人工处理方法和现有的自动化数据处理工具效率低,且难以确保处理结果的准确性和可靠性。对于从业人员特别是法律从业人员而言,这意味着他们将大量精力耗费在文档处理的基础工作上,而不是投入到案件分析和策略制定中,无形中增加了工作出错的风险。


技术实现思路

1、有鉴于此,本专利技术提供了数据处理方法及系统、数据处理设备及程序、存储介质,从而解决或者至少缓解了现有技术中存在的上述问题和其它方面的问题中的一个或多个。

2、为了实现前述目的,本专利技术的第一方面提供了一种数据处理方法,其中,所述数据处理方法包括如下步骤:

3、根据用户输入的查询内容生成查询请求;

4、对数据源中的数据进行数据清洗;

5、对经过数据清洗的数据源中的数据进行数据综合评分;

6、对经过数据综合评分的数据源中的数据进行数据标记;

7、计算各个所述数据源的权重,并从权重达标的数据源中抓取合格数据;以及

8、输出查询结果。

9、在如前所述的数据处理方法中,可选地,所述数据源的权重计算方法为:

10、

11、其中:wi为数据源i的权重,rij为数据源i在查询内容j上的相关性评分,vj为查询内容j的重要性权重,n为查询内容数量,并且通过历史查询日志和历史用户反馈确定rij,通过专家建议设置vj。

12、在如前所述的数据处理方法中,可选地,在进行数据清洗时,根据数据完整性评分机制为所述数据源中的数据提供介于0到1之间的数据完整性评分,并识别和过滤不完整或损坏的数据,然后将过滤后的数据转换为统一的格式以便于处理,所述数据完整性评分机制通过以下公式计算:

13、

14、其中:is为数据完整性评分,md为缺失的数据量,dd为数据中的不一致或错误,td为案件、文件或数据库中的总数据量。

15、在如前所述的数据处理方法中,可选地,所述数据综合评分通过以下公式计算:

16、n=a×α+b×β+c×χ+d×δ

17、其中:n为数据综合评分,a为数据字段完整性评分,b为数据一致性评分,c为数据准确性评分,d为数据时效性评分,α、β、χ和δ为权重参数。

18、在如前所述的数据处理方法中,可选地,所述数据标记支持多种标记规则,并且所述数据标记通过标记界面实现或者通过机器学习算法自动或半自动地进行。

19、在如前所述的数据处理方法中,可选地,所述标记规则包括:术语识别;相关内容引用;上下文相关性标记;信息分类;时间敏感性标记;参与方识别;以及重要性评分。

20、在如前所述的数据处理方法中,可选地,在所述标记规则包括上下文相关性的标记和术语权重的标记,其中所述上下文相关性的评分方法为:

21、

22、其中:cs为上下文相关性评分,wi为单词i的权重,ri为单词i与术语的相关性评分,n为单词数量;

23、所述术语权重的调整方法为:

24、lw=wt×(1+log(cs))

25、其中:lw为调整后的术语权重,wt为原始术语权重。

26、在如前所述的数据处理方法中,可选地,在抓取合格数据时,多线程地同时从权重达标的多个数据源抓取合格数据,并对抓取到的合格数据进行并发处理。

27、在如前所述的数据处理方法中,可选地,在输出查询结果时,查询结果界面的展示参数包括信息密度评分、用户交互率和个性化推荐准确率,其中,所述信息密度评分的计算方法为:

28、

29、其中:ir为信息密度评分,ut为用户可见的文本总量,as为屏幕区域大小;

30、所述用户交互效率的计算方法为:

31、

32、其中:ue为用户交互效率,k为用户交互所需的理想或平均操作次数,ct为用户点击次数,ti为用户交互时间;

33、所述个性化推荐准确率的计算方法为:

34、

35、其中:pr为个性化推荐准确率,tr为真正例以表示正确推荐,fr为假正例以表示错误推荐。

36、为了实现前述目的,本专利技术的第二方面提供了一种数据处理系统,其中,所述数据处理系统包括:

37、查询请求生成模块,所述查询请求生成模块根据用户输入的查询内容生成查询请求;

38、数据清洗模块,所述数据清洗模块对数据源中的数据进行数据清洗;

39、数据综合评分模块,所述数据综合评分模块对经过数据清洗的数据源中的数据进行数据综合评分;

40、数据标记模块,所述数据标记模块对经过数据综合评分的数据源中的数据进行数据标记;

41、数据抓取模块,所述数据抓取模块计算各个所述数据源的权重,并从权重达标的数据源中抓取合格数据;以及

42、查询结果模块,所述查询结果模块输出查询结果。

43、为了实现前述目的,本专利技术的第三方面提供了一种数据处理设备,其中,所述数据处理设备包括:

44、存储器,所述存储器用于存储计算机可执行指令或者计算机程序;

45、处理器,所述处理器用于执行所述存储器中存储的计算机可执行指令或计算机程序时,实现如前述第一方面中任一项所述的数据处理方法。

46、为了实现前述目的,本专利技术的第四方面提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令或者计算机程序,所述计算机可执行指令或者计算机程序被处理器执行时,实现如前述第一方面中任一项所述的数据处理方法。

47、为了实现前述目的,本专利技术的第五方面提供了一种计算机程序产品,其中,所述计算机程序产品包括计算机可执行指令或者计算机程序,所述计算机可执行指令或者计算机程序被处理器执行时,实现如前述第一方面中任一项所述的数据处理方法。

48、本专利技术提供了数据处理方法及系统、数据处理设备及程序、存储介质。本公开的数据处理方法提高了自动化工作处理的效率和准确性,有效满足了ai大模型时代的需求。该方法不仅能显著提高工作人员的工作效率,还能通过减少人为错误,提升处理结果的准确性和可靠性。特别地,对于法律从业人员而言,这意味着他们可以将更多的精力投入到案件分析和策略制定中,而不是耗费在文档处理的基础工作上。

49、在一些可选的方案中,本公开通过采用先进的数据处理技术和机器学习算法,构建出一种能够理解法律文档结构和内容的数据处理智能本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述数据处理方法包括如下步骤:

2.如权利要求1所述的数据处理方法,其特征在于,所述数据源包括专业知识库,所述数据源的权重计算方法为:

3.如权利要求1所述的数据处理方法,其特征在于,在进行数据清洗时,根据数据完整性评分机制为所述数据源中的数据提供介于0到1之间的数据完整性评分,并识别和过滤不完整或损坏的数据,然后将过滤后的数据转换为统一的格式以便于处理,所述数据完整性评分机制通过以下公式计算:

4.如权利要求1所述的数据处理方法,其特征在于,所述数据综合评分通过以下公式计算:

5.如权利要求1所述的数据处理方法,其特征在于,所述数据标记支持多种标记规则,并且所述数据标记通过标记界面实现或者通过机器学习算法自动或半自动地进行。

6.如权利要求5所述的数据处理方法,其特征在于,所述标记规则包括:术语识别;相关内容引用;上下文相关性标记;信息分类;时间敏感性标记;参与方识别;以及重要性评分。

7.如权利要求5所述的数据处理方法,其特征在于,在所述标记规则包括上下文相关性的标记和术语权重的标记,其中所述上下文相关性的评分方法为:

8.如权利要求1所述的数据处理方法,其特征在于,在抓取合格数据时,多线程地同时从权重达标的多个数据源抓取合格数据,并对抓取到的合格数据进行并发处理。

9.如权利要求1所述的数据处理方法,其特征在于,在输出查询结果时,查询结果界面的展示参数包括信息密度评分、用户交互率和个性化推荐准确率,其中,所述信息密度评分的计算方法为:

10.一种数据处理系统,其特征在于,所述数据处理系统包括:

11.一种数据处理设备,其特征在于,所述数据处理设备包括:

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令或者计算机程序,所述计算机可执行指令或者计算机程序被处理器执行时,实现如权利要求1至9中任一项所述的数据处理方法。

13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机可执行指令或者计算机程序,所述计算机可执行指令或者计算机程序被处理器执行时,实现如权利要求1至9中任一项所述的数据处理方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述数据处理方法包括如下步骤:

2.如权利要求1所述的数据处理方法,其特征在于,所述数据源包括专业知识库,所述数据源的权重计算方法为:

3.如权利要求1所述的数据处理方法,其特征在于,在进行数据清洗时,根据数据完整性评分机制为所述数据源中的数据提供介于0到1之间的数据完整性评分,并识别和过滤不完整或损坏的数据,然后将过滤后的数据转换为统一的格式以便于处理,所述数据完整性评分机制通过以下公式计算:

4.如权利要求1所述的数据处理方法,其特征在于,所述数据综合评分通过以下公式计算:

5.如权利要求1所述的数据处理方法,其特征在于,所述数据标记支持多种标记规则,并且所述数据标记通过标记界面实现或者通过机器学习算法自动或半自动地进行。

6.如权利要求5所述的数据处理方法,其特征在于,所述标记规则包括:术语识别;相关内容引用;上下文相关性标记;信息分类;时间敏感性标记;参与方识别;以及重要性评分。

7.如权利要求5所述的数据处理方法,其特征在于,在所述标记规则包括上下...

【专利技术属性】
技术研发人员:戴平张伟国罗授龙刘富江
申请(专利权)人:上海堃悟信息科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1