基于人工智能分类的检测标准检索系统和方法技术方案

技术编号:36748743 阅读:11 留言:0更新日期:2023-03-04 10:33
本发明专利技术提供了一种基于人工智能分类的检测标准检索系统和方法,所述检测标准检索系统,包括:标准数据库,用于存储标准信息,标准分类模块,用于对标准进行高效准确的分类,其中所述标准数据库包括检索模块,其中所述检索模块根据检索条件,匹配对应存储的所述标准信息,反馈检索结果,便于检测中心获取标准信息。便于检测中心获取标准信息。便于检测中心获取标准信息。

【技术实现步骤摘要】
基于人工智能分类的检测标准检索系统和方法


[0001]本专利技术涉及检测领域,更详而言之地涉及一检测标准检索系统和方法,从而智能地为检测中心和检测人员服务,方便检测人员检测。

技术介绍

[0002]在产品上市、安全卫生和新产品开发等过程中,产品检测占据重要角色,例如食品、材料、环境或工业原料上市前需要进行安全卫生等质量检测。为了规范检测项目、检测手段和检测流程等等,检测标准成为检测领域的“法律”。具体地,不同的产品涉及不同的检测项目,并且针对产品不同用途或不同地域等,产品检测需要参考对应的国家标准、国际标准、地方标准等等。以国内水果上市销售为例,农药残留方面有可能需要检测多达58项的检测项目,也就是涉及至少58项国家标准。检测人员需要完全按照这些国家标准的要求检测水果,否则就会影响检测报告的准确性和权威性。
[0003]一直以来,国家标准的发布以文件的形式向大众提供,数量巨大,并随着技术的发展、问题的发现、社会对某些事物认知的变化和产品种类的新增等等不断更新。例如食品安全领域,目前存在上万件现行的国家标准文件,并且每个星期都会有新的国家标准发布。有时会出现,一个星期之内发布十几项甚至几十项新的国家标准文件。
[0004]如果凭借检测人员自行查找这些单个的国家标准文件,检测的时间和人力被大量浪费,尤其是每个检测中心的检测任务量庞大,任务种类也各有千秋。除此之外,也会浪费检测核对人和检测报告撰写人的时间和人力,检测核对人也需要一个个查找国家标准文件,一一核对检测的手段和流程是否符合规定,报告撰写人也需要将对应的标准文件和报告数据关联。这就导致整个检测中心的运营效率较低,增加运营成本的同时检测效率不高。
[0005]此外,我们考虑标准的分类的精确性,通过一种基于自然语言处理的CNN模型,将词与图像相关联,从而反映了词语与分类之间的概率对应关系,一改现有技术中基于RNN的不断扫描词和累积分类概率计算的单一方式。我们期望将图形化的标准作为分类的标志,以期在扫描识别邻域有扩展运用。

技术实现思路

[0006]本专利技术所指的标准信息是指与标准文件相关的信息,应当理解为包括标准文件的原文内容,文件的名称、标准号的抽象信息概念或提供标准相关的的项目。本专利技术所述的反馈、推送标准信息就是指反馈、推送包括标准文件的原文内容,文件的名称、标准号在内的信息项目。而标准文件是指涵盖了这些信息项目的数据文档,在可以是包括电子版的数据文档。而文本化处理即是对其中的标准原文内容进行的。
[0007]历史标准信息是指标准数据库中在最近一次数据更新之前的存储的标准信息。
[0008]为了解决上述问题,本专利技术的一个目的在于提供基于人工智能分类的检测标准检索系统和方法,其中所述检测标准检索系统将检测项目和对应的检测标准关联,以供检测人员获取,无需检测人员花费人力和时间筛选,提高检测中心运营效率,尤其当检测项目数
量庞大或\和种类多杂时。
[0009]根据本专利技术的一个实施例,所述检测标准检索系统进一步标准分类模块,所述标准分类模块根据存储的所述标准信息进行自然语言处理,以确定检索的标准信息的分类,其中所述根据存储的所述标准信息进行自然语言处理具体包括如下步骤:
[0010](1)标准分类模块获取取检测项目信息,或者产品名称、检测项目、检测标准号、判定标准号中一项或多项的组合对应的标准信息和历史标准信息进行文本化处理得到文本;
[0011](2)对步骤(1)中的文本进行特殊词删除,对删除后的文本进行词性解析获得词性分析结果;
[0012]其中所述词性解析包括词提取过程、划分词过程,以及词性分析过程,从而形成词性分析结果,其中,采用第二隐马尔科夫模型对所述划分词过程的结果进行词性分析,去除停用词形成词性分析文本。
[0013]优选地,所述标准分类模块中包括新词搜索模块,采用同质图将所述词性分析文本中的词和词性,以及涉及细分科学领域分别作为图的节点而利用按照步骤(1)

(2)将历史标准信息进行词提取形成的历史词库以及经过词性分析得到的词性分析文本建立的词性库进行同质图构建,其中,
[0014]所述细分科学领域包括现有科学分类体系规定的科学分类、学科专业分类、以及以专利分类视角看待所述文本时的专利分类中至少一者作为复节点。
[0015]所述复节点是指涉及细分科学领域节点中包括可能不止一个目标对象,例如,当涉及细分科学领域节点中包括科学分类体系规定的科学分类、学科专业分类、专利分类三者时,该节点中即包含了三者作为节点的目标对象。只要词节点对应的词性节点在三者中归属于其中至少一类的,则图的“词性

涉及细分科学领域”边的一端点应属于该复节点。
[0016]应当理解的是,我们采用词性作为同质图的三元路径中的中间节点,目的是一些词的词性是多样的考虑,如果因为对漏考虑其可能的其他词性来说,也许会将其当作新词看待,从而增加了不必要的重复计算量。比如“过滤”,可以当做限量检测时的实验操作时的动词,但是作为方法步骤时,也可以作为概念名词。如果只偏其一,则势必会影响到另一类标准的漏分类。比如当识别为限量型标准时,则不会分类为检验方法型标准,而如果实际上该标准实际上是新的检验方法型标准时则对于检验方法技术人员来说就少了一篇新标准信息的获取可能。
[0017]将获取的所述对应的标准信息进行第一新词搜索时不断将删除特殊词后的文本进行词提取依次代入所述同质图词节点,进行边搜索,找到同质图中的对应的所有所述细分科学领域,如果与所述对应的标准信息对应的实际细分科学领域存在全部不同的情况,则将该词定义为疑似新词,如果有相同,则随机归入其中一类相同的细分科学领域路径一端的词节点(即如果有两类分类方式下的分类相同,则随机归入其中一类分类所在路径的另一端的词节点中,如果有三类分类都相同,则随机归入三者之一的分类所在路径的另一端的词节点中),定义为非疑似新词,则该被归入的词节点即成为词复节点,表示该词复节点下存在多种相关的词,或同一概念的其他描述方式等等。
[0018]利用第一隐马尔科夫模型、条件随机场、或支持向量机中任一模型将删除特殊词后的文本同样进行词提取而进行第二新词搜索,将得到的新词结果与疑似新词和非疑似新词做对比,如果与疑似新词不同,则将新词结果中的词以及疑似新词都作为新词更新词典,
如果与非疑似新词不同,则将新词结果中的词作为新词更新词典,而不将非疑似新词作为新词,而保留在所述一类相同的细分科学领域路径一端的词节点中;如果有相同,则将与之相同的疑似新词或与之相同的非疑似新词作为新词更新词典。
[0019]优选地,所述词节点中的词存在排序,并且排序同对应词典中词的排序,新词的排序方法如下:如果是采用第二搜索得到的新词则按照搜索得到的顺序排在词典顺序序列的最后,如果是采用第一搜索得到的新词,对于归入词节点的非疑似新词则按照归入时间顺序排序到排序前的节点中最后一个词的后面,形成词复节点,归入后,该词复节点中最后一个词与该词复节点之后的下一个词的节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于人工智能分类的检测标准检索系统,其特征在于,包括:标准数据库,用于存储标准信息,其中所述标准数据库包括检索模块,以及标准分类模块,其中,所述检索模块根据检索条件,匹配对应存储的所述标准信息,反馈检索结果;所述标准分类模块根据存储的所述标准信息进行自然语言处理,以确定检索的标准信息的分类,其中所述根据存储的所述标准信息进行自然语言处理具体包括如下步骤:(1)标准分类模块获取检测项目信息对应的标准信息和历史标准信息进行文本化处理得到文本;(2)对步骤(1)中的文本进行特殊词删除,对删除后的文本进行词性解析获得词性分析结果;其中所述词性解析包括词提取过程、划分词过程,以及词性分析过程,从而形成词性分析结果,其中,采用第二隐马尔科夫模型对所述划分词过程的结果进行词性分析,去除停用词形成词性分析文本,所述标准分类模块中包括新词搜索模块,采用同质图将所述词性分析文本中的词和词性,以及涉及细分科学领域分别作为图的节点而利用按照步骤(1)

(2)将历史标准信息进行词提取形成的历史词库以及经过词性分析得到的词性分析文本建立的词性库进行同质图构建,其中,所述细分科学领域包括现有科学分类体系规定的科学分类、学科专业分类、以及以专利分类视角看待所述文本时的专利分类中至少一者作为复节点,将获取的所述对应的标准信息进行第一新词搜索时不断将删除特殊词后的文本进行词提取依次代入所述同质图词节点,进行边搜索,找到同质图中的对应的所有所述细分科学领域,如果与所述对应的标准信息对应的实际细分科学领域存在全部不同的情况,则将该词定义为疑似新词,如果有相同,则随机归入其中一类相同的细分科学领域路径一端的词节点,定义为非疑似新词,则该被归入的词节点即成为词复节点,利用第一隐马尔科夫模型、条件随机场、或支持向量机中任一模型将删除特殊词后的文本同样进行词提取而进行第二新词搜索,将得到的新词结果与疑似新词和非疑似新词做对比,如果与疑似新词不同,则将新词结果中的词以及疑似新词都作为新词更新词典,如果与非疑似新词不同,则将新词结果中的词作为新词更新词典,而不将非疑似新词作为新词,而保留在所述一类相同的细分科学领域路径一端的词节点中,如果有相同,则将与之相同的疑似新词或与之相同的非疑似新词作为新词更新词典;(3)建立词

词性

分类模型,统计步骤(2)中所有词性分析文本中所有词与词性,输入所述词

词性

分类模型中得到分类结果,其中词

词性

分类模型采用CNN模型,具体步骤如下:(3

1)将历史标准信息中经词性分析后得到词以及词性,分别各赋予规定的像素值,不同的词像素值不同,获得两个按照从左往右词

词性或从右往左词性

词的先后顺序排列的像素点的组;(3

2)将历史标准信息中对应的标准文件的每一篇人工标准分类,并根据标准文件的页数而划分为10页以内短篇、11

20页中篇、21页以上长篇三类文件容量,并且其中的所述组中对应的词按照词典中顺序排序,形成像素点排布构成的方阵图像,方阵大小默认为224
×
224,并允许方阵图像中有百分之5%以内的空白像素,且每一篇中的所有组对应形成的
所有像素点应完全排布在同一方阵图像中,所述组中的词和词性各赋予的像素值相同或不同;(3

3)若排布完毕时空白像素超过5%,则从排布上的第一个组开始继续依次排序,若排完则继续循环同样排序,直到小于至多5%的空白,将每一类文件容量下得到的方阵图分为训练集、验证集、测试集三者比例为5

1:1:1

【专利技术属性】
技术研发人员:张垒
申请(专利权)人:上海观察者信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1