System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于关联算法的标准信息更新方法技术_技高网

一种基于关联算法的标准信息更新方法技术

技术编号:41328207 阅读:5 留言:0更新日期:2024-05-13 15:06
本发明专利技术公开了一种基于关联算法的标准信息更新方法,该方法对当前标准信息的文档进行分词,并筛选出所述标准信息的关键词,筛选出与所述标准信息有关联关系的基础标准集;基于关联算法,获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集;当所述基础标准集中的一项或多项基础标准发生变化时,获得第二频繁关键词集;检查两个频繁关键词集是否一致,若不一致,则根据当前的基础标准集对当前标准信息进行更新操作。该方法具有高效性、准确性和高自动化程度等优点,可以显著提升标准信息管理的效率和准确性。

【技术实现步骤摘要】

本专利技术涉及标准信息,特别涉及一种基于关联算法的标准信息更新方法


技术介绍

1、目前针对标准信息的更新,常用的方法一种是人为定期检查和更新标准信息,确保其与最新的技术、法规和行业发展保持一致;这种方法由于费时费力,无法适应那些变化较快的领域,如信息技术、医疗技术等;另一种是用户反馈驱动更新,通过用户反馈和意见收集,了解标准信息在实际应用中的问题和需求,然后进行相应的更新和改进,这种方法主观性大,用户反馈可能受到个人经验、知识水平和偏好的影响;其样本偏差,如果反馈主要来自特定用户群体,可能无法全面反映所有用户的需求和问题。

2、利用自动化工具和算法,对标准信息进行实时监控和更新,可以大大提高更新效率,减少人工干预,然而现有的触发式更新方法,无法准确给出基础标准的更新对当前标准信息的影响,当某项基础标准出现更新时,还是需要人工核对与之关联的标准信息是否需要更新,目前还没有理想的对标准信息进行自动判断和自动更新的方法。

3、本专利技术针对现有技术存在的问题,提出一种基于关联算法的标准信息更新方法。


技术实现思路

1、本专利技术的目的在于提供一种基于关联算法的标准信息更新方法,基于关键词筛选匹配出与当前标准信息相关联的基础标准,并根据关联算法判断当前标准信息是否需要更新,实现对标准信息更新的自动化判断。

2、为了实现本专利技术的上述目的,本专利技术采用以下技术方案:

3、一种基于关联算法的标准信息更新方法,所述方法包括以下步骤:

<p>4、步骤s1,标准信息预处理,对所述标准信息的文档进行分词,并筛选出所述标准信息的关键词。

5、进一步的,所述步骤s1中,筛选出所述标准信息的关键词具体方法为:

6、去除标准信息文档的分词中的停用词后,基于融合算法计算每个分词在文档中的融合值。

7、所述融合值的计算公式:,其中,为词频因子,为分词长度因子,为分词位置因子,为分词的跨度因子;为词性因子,当所述分词为名词或动名词时,取0.85,当所述分词为形容词、动词或副词时,取0.15,分词词性为其他时,取0。

8、词频因子,其中,为分词在文档中出现的频率。

9、分词长度因子,其中,表示分词的长度,代表所有分词的最大长度。

10、分词位置因子和分词的跨度因子的计算为:

11、

12、

13、式中,为总分词数量,为分词在文档中首次出现时已经在先出现的分词数量,为分词在文档中最后出现时还没有出现的分词数量。

14、对所有分词的融合值进行由大到小排序,取前5~10个值对应的分词,即为所述标准信息的关键词。

15、步骤s2,根据各基础标准对所述关键词的覆盖度,筛选出与所述标准信息有关联关系的基础标准集。

16、进一步的,所述步骤s2中,所述各基础标准对所述关键词的覆盖度的计算方法为:

17、对所述各基础标准分别进行分词处理,查找所述关键词出现在某个基础标准分词中的个数,若所述关键词有m个,这些关键词出现在某个基础标准分词中的个数为n,则所述关键词的覆盖度。

18、当覆盖度时,认为该基础标准与所述标准信息之间有关联关系。

19、进一步的,所述步骤s1和步骤s2中,对所述标准信息和所述各基础标准进行分词时,采用相同的分词工具,所述分词工具为hanlp或thulac。

20、步骤s3,基于关联算法,获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集。

21、进一步的,所述步骤s3中,基于关联算法,获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集具体包括如下步骤:

22、步骤s301,根据所述关键词与所述基础标准集,通过apriori算法将关键词与基础标准集的关联关系映射到布尔矩阵。

23、进一步的,记所述布尔矩阵为第一布尔矩阵,其中,所述第一布尔矩阵的行表示关键词,列表示基础标准集,而每个元素的值表示对应的基础标准集是否包含对应关键词,若包含对应关键词,则元素值为“1”,否则为“0”。

24、所述布尔矩阵对应的权重向量,其中,m为第一布尔矩阵的行数,初始权重值。

25、进一步的,所述步骤s301中,在建立布尔矩阵后,若所述矩阵中存在相同的行,则向上合并相同的行,合并后将对应权重向量的值进行叠加。

26、步骤s302,将权重向量和矩阵的每一列相乘,得到每一关键词的支持度并与最小支持数进行比较,删除不满足最小支持数的关键词对应的列,得到第二布尔矩阵。

27、进一步的,所述最小支持数为最小支持度与基础标准集中基础标准个数的乘积值向上取整,所述最小支持度取0.3。

28、步骤s303,继续对所述第二矩阵进行和列的化简得到第三布尔矩阵。

29、进一步的,先对所述第二布尔矩阵进行横向化简,此时若基础标准对应的行仅包含1个关键词,即该行仅有 1 个元素值为“1”,其余全为“0”,则删除该行。

30、重新计算每一列的支持数,删除不满足最小支持数的列。

31、矩阵列的变化会影响到行,需要再次删除 n≤1 的行,直到所有的列都满足所述最小支持数,并且所有行的 n 值都不小于 2 为止,得到第三布尔矩阵,其中,n为布尔矩阵每一行所包含的“1”的个数。

32、步骤s304,根据所述第三布尔矩阵得到第四布尔矩阵。

33、进一步的,计算所述第三布尔矩阵中,每一列的支持数,删除不满足最小支持数的列获得所述第四布尔矩阵。

34、步骤s305,重复对布尔矩阵行和列的简化运算,直到矩阵无法再继续简化,得到第一频繁关键词集。

35、步骤s4, 当所述基础标准集中的一项或多项基础标准发生变化时,重复步骤s2,获得第二频繁关键词集。

36、步骤s5,检查所述第二频繁关键词集与所述第一频繁关键词集是否一致,若不一致,则根据当前的基础标准集对所述标准信息进行更新操作。

37、本专利技术与现有技术相比,其有益效果是:

38、本专利技术的关联算法基于关键词比对,可以快速识别出当前标准信息与基础标准之间的关联关系,基于第一频繁关键词集和第二频繁关键词集能够准确地确定标准信息是否受到某个基础标准更新的影响,大大减少了人工审查和分析的工作量,提高了更新过程的效率。该方法可以适应不同的标准和行业领域,因为它依赖于数据的关联关系而非特定的规则或模型。这意味着它可以轻松地应用于各种场景,而无需进行大量的定制或调整。

本文档来自技高网
...

【技术保护点】

1.一种基于关联算法的标准信息更新方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于关联算法的标准信息更新方法,其特征在于,所述步骤S1中,筛选出所述标准信息的关键词具体方法为:

3.根据权利要求1所述的基于关联算法的标准信息更新方法,其特征在于,所述步骤S2中,所述各基础标准对所述关键词的覆盖度的计算方法为:

4.根据权利要求1所述的基于关联算法的标准信息更新方法,其特征在于,所述步骤S3中,基于关联算法,获得所述标准信息与所述基础标准集之间关联度最大的第一频繁关键词集具体包括如下步骤:

5.根据权利要求4所述的,基于关联算法的标准信息更新方法,其特征在于,所述步骤S301中,在建立布尔矩阵后,若所述矩阵中存在相同的行,则向上合并相同的行,合并后将对应权重向量的值进行叠加。

6.根据权利要求3所述,基于关联算法的标准信息更新方法,其特征在于所述步骤S1和步骤S2中,对所述标准信息和所述各基础标准进行分词时,采用相同的分词工具,所述分词工具为HanLP或THULAC。

【技术特征摘要】

1.一种基于关联算法的标准信息更新方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于关联算法的标准信息更新方法,其特征在于,所述步骤s1中,筛选出所述标准信息的关键词具体方法为:

3.根据权利要求1所述的基于关联算法的标准信息更新方法,其特征在于,所述步骤s2中,所述各基础标准对所述关键词的覆盖度的计算方法为:

4.根据权利要求1所述的基于关联算法的标准信息更新方法,其特征在于,所述步骤s3中,基于关联算法,获得所述标准...

【专利技术属性】
技术研发人员:王霞王静雅于钢孙宇宁赵奇
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1