【技术实现步骤摘要】
基于人工智能分类的检测标准检索系统和方法
[0001]本专利技术涉及检测领域,更详而言之地涉及一检测标准检索系统和方法,从而智能地为检测中心和检测人员服务,方便检测人员检测。
技术介绍
[0002]在产品上市、安全卫生和新产品开发等过程中,产品检测占据重要角色,例如食品、材料、环境或工业原料上市前需要进行安全卫生等质量检测。为了规范检测项目、检测手段和检测流程等等,检测标准成为检测领域的“法律”。具体地,不同的产品涉及不同的检测项目,并且针对产品不同用途或不同地域等,产品检测需要参考对应的国家标准、国际标准、地方标准等等。以国内水果上市销售为例,农药残留方面有可能需要检测多达58项的检测项目,也就是涉及至少58项国家标准。检测人员需要完全按照这些国家标准的要求检测水果,否则就会影响检测报告的准确性和权威性。
[0003]一直以来,国家标准的发布以文件的形式向大众提供,数量巨大,并随着技术的发展、问题的发现、社会对某些事物认知的变化和产品种类的新增等等不断更新。例如食品安全领域,目前存在上万件现行的国家标准文件,并且每个星期都会有新的国家标准发布。有时会出现,一个星期之内发布十几项甚至几十项新的国家标准文件。
[0004]如果凭借检测人员自行查找这些单个的国家标准文件,检测的时间和人力被大量浪费,尤其是每个检测中心的检测任务量庞大,任务种类也各有千秋。除此之外,也会浪费检测核对人和检测报告撰写人的时间和人力,检测核对人也需要一个个查找国家标准文件,一一核对检测的手段和流程是否符合规定,报告撰写人也需要将 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.基于人工智能分类的检测标准检索系统,其特征在于,包括:标准数据库,用于存储标准信息,其中所述标准数据库包括检索模块,以及标准分类模块,其中,所述检索模块根据检索条件,匹配对应存储的所述标准信息,反馈检索结果;所述标准分类模块根据存储的所述标准信息进行自然语言处理,以确定检索的标准信息的分类,其中所述根据存储的所述标准信息进行自然语言处理具体包括如下步骤:(1)标准分类模块获取检测项目信息对应的标准信息和历史标准信息进行文本化处理得到文本;(2)对步骤(1)中的文本进行特殊词删除,对删除后的文本进行词性解析获得词性分析结果;其中所述词性解析包括词提取过程、划分词过程,以及词性分析过程,从而形成词性分析结果,其中,采用第二隐马尔科夫模型对所述划分词过程的结果进行词性分析,去除停用词形成词性分析文本,所述标准分类模块中包括新词搜索模块,采用同质图将所述词性分析文本中的词和词性,以及涉及细分科学领域分别作为图的节点而利用按照步骤(1)
‑
(2)将历史标准信息进行词提取形成的历史词库以及经过词性分析得到的词性分析文本建立的词性库进行同质图构建,其中,所述细分科学领域包括现有科学分类体系规定的科学分类、学科专业分类、以及以专利分类视角看待所述文本时的专利分类中至少一者作为复节点,将获取的所述对应的标准信息进行第一新词搜索时不断将删除特殊词后的文本进行词提取依次代入所述同质图词节点,进行边搜索,找到同质图中的对应的所有所述细分科学领域,如果与所述对应的标准信息对应的实际细分科学领域存在全部不同的情况,则将该词定义为疑似新词,如果有相同,则随机归入其中一类相同的细分科学领域路径一端的词节点,定义为非疑似新词,则该被归入的词节点即成为词复节点,利用第一隐马尔科夫模型、条件随机场、或支持向量机中任一模型将删除特殊词后的文本同样进行词提取而进行第二新词搜索,将得到的新词结果与疑似新词和非疑似新词做对比,如果与疑似新词不同,则将新词结果中的词以及疑似新词都作为新词更新词典,如果与非疑似新词不同,则将新词结果中的词作为新词更新词典,而不将非疑似新词作为新词,而保留在所述一类相同的细分科学领域路径一端的词节点中,如果有相同,则将与之相同的疑似新词或与之相同的非疑似新词作为新词更新词典;(3)建立词
‑
词性
‑
分类模型,统计步骤(2)中所有词性分析文本中所有词与词性,输入所述词
‑
词性
‑
分类模型中得到分类结果,其中词
‑
词性
‑
分类模型采用CNN模型,具体步骤如下:(3
‑
1)将历史标准信息中经词性分析后得到词以及词性,分别各赋予规定的像素值,不同的词像素值不同,获得两个按照从左往右词
‑
词性或从右往左词性
‑
词的先后顺序排列的像素点的组;(3
‑
2)将历史标准信息中对应的标准文件的每一篇人工标准分类,并根据标准文件的页数而划分为10页以内短篇、11
‑
20页中篇、21页以上长篇三类文件容量,并且其中的所述组中对应的词按照词典中顺序排序,形成像素点排布构成的方阵图像,方阵大小默认为224
×
224,并允许方阵图像中有百分之5%以内的空白像素,且每一篇中的所有组对应形成的
所有像素点应完全排布在同一方阵图像中,所述组中的词和词性各赋予的像素值相同或不同;(3
‑
3)若排布完毕时空白像素超过5%,则从排布上的第一个组开始继续依次排序,若排完则继续循环同样排序,直到小于至多5%的空白,将每一类文件容量下得到的方阵图分为训练集、验证集、测试集三者比例为5
‑
1:1:1
技术研发人员:张垒,
申请(专利权)人:上海观察者信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。