一种基于枸杞质量的枸杞全网数据库构建方法技术

技术编号:19215730 阅读:20 留言:0更新日期:2018-10-20 06:43
一种基于枸杞质量的枸杞全网数据库构建方法,获取数据步骤:根据枸杞的对应信息列表,从网络中获取与枸杞对应信息相关的摘要资源;前处理步骤:对所述摘要资源中的每一段信息进行分解以获取包括摘要内容的数据信息;分类处理步骤:根据枸杞的对应信息列表,对所述摘要内容进行提取和分类;后处理步骤:针对枸杞的对应信息列表每一条信息,构建对应于该信息的相关词语义库;库构建步骤:建立信息数据库,所述信息数据库包括所述对应信息列表和对应的文献摘要。优点在于:基于文本挖掘技术构建信息数据库,特别地,从枸杞名出发,通过文本挖掘算法挖掘文献数据库,从中提取信息,构建成数据全面可靠、可快速更新的数据库,提供相关详细信息。

【技术实现步骤摘要】
一种基于枸杞质量的枸杞全网数据库构建方法
本专利技术涉及一种数据全面可靠、可快速更新的基于枸杞质量的枸杞全网数据库构建方法。
技术介绍
已知信息数据库种类繁多,一般划分为一次数据库和二次数据库两类。一次数据库包括例如基因组数据库、核酸和蛋白质一级结构序列数据库、以及生物大分子三维空间结构数据库。二次数据库是以一次数据库和文献资料为基础而构建。根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,是生物信息数据库开发的有效途径。从应用角度来说,与疾病相关的突变具有最重要的研究价值,需要一个来自前沿、信息全面、可快速更新的数据库。同时,由于突变信息的数据量大,更新速度快,人工收集不仅成本高、速度慢,还存在信息遗漏和可信度低等问题。在这两方面,上述数据库的应用仍显不足。而且,由于部分数据库存在收费等问题,限制了用户对最新数据的获得。随着网络通信技术的飞速发展,网络中的数据量越来越大,检索相似信息的难度也越来越大。其中,图片的相似搜索由于可以实现网络图片自动排重、相关图片推荐等效果而得到广泛应用,而构建数据库以实现相似检索也就越来越必要。目前,图片相似搜索的方法有tree类相似算法,如R-tree,Kd-tree,SR-tree,是基于空间划分的算法,检索的结果虽然精确但是在高维数据集上的时间效率不高。LSH(LocationSensitiveHash,位置敏感哈希函数)算法,由于与一般哈希函数相比具有位置敏感性,对散列前的相似点进行哈希计算,之后产生的散列值在一定程度上也能保持相似,并且具有一定的概率保证。这样LSH算法能够在保证一定准确性的前提下,时间和空间复杂度得到降低,并且能够很好地支持高维数据的检索,因此LSH算法在含有丰富特征信息的图片相似性领域中的应用越来越受到重视。
技术实现思路
本专利技术的目的在于提供一种数据全面可靠、可快速更新的基于枸杞质量的枸杞全网数据库构建方法。为解决上述技术问题,本专利技术通过下述技术方案得以解决:一种基于枸杞质量的枸杞全网数据库构建方法,获取数据步骤:根据枸杞的对应信息列表,从网络中获取与枸杞对应信息相关的摘要资源;前处理步骤:对所述摘要资源中的每一段信息进行分解以获取包括摘要内容的数据信息;分类处理步骤:根据枸杞的对应信息列表,对所述摘要内容进行提取和分类;后处理步骤:针对枸杞的对应信息列表每一条信息,构建对应于该信息的相关词语义库;库构建步骤:建立信息数据库,所述信息数据库包括所述对应信息列表和对应的文献摘要。进一步的,对应信息列表包括:资源类信息、质量类信息、流通类信息、知识类信息。进一步的,资源类信息包括:产地、品种、规模、产量、生产经营对象、成本。进一步的,所述质量类信息包括:参照药典指标,包括等级、规格、检测指标、查询信息。进一步的,所述流通类信息包括:趁鲜加工主体、数量、规格;仓储地点、方式、数量;市场主体、分布、交易量、价格、年度分布;制药的主体、品类、数量、分布、价格。进一步的,所述知识类信息包括:政策、法规、发展规划、新研究、网络评价、新闻报道。进一步的,所述获取摘要资源步骤包括:以枸杞名为搜索词,采用网络爬虫技术获取与所述枸杞名相关的文献摘要。进一步的,所述前处理步骤还包括:在获取所述摘要资源后,根据所述枸杞名的同音词对所述文献摘要资源进行过滤,保留摘要内容中包含所述同音词的文献摘要。进一步的,在所述后处理步骤中,所述构建相关词语义库包括:确定主词与相关词的共现次数、二者之间的平均距离以及所述相关词的信息熵,其中所述主词为所述枸杞名,所述相关词为与所述枸杞名相关的所有文献摘要中出现的其它词语;根据所述共现次数、平均距离和信息熵确定所述相关词相对于所述主词的相关度;根据所述相关度得到所述相关词语义库,所述相关词语义库包括相关词以及该相关词相对于主词的相关度。进一步的,所述相关度的计算公式为:r=(c×α)÷(α+d)÷η,其中,r表示一个相关词与所述主词的相关度,c表示所述相关词与所述主词在所有文献摘要中共同出现的次数,d表示所述相关词与所述主词之间的平均距离,η表示所述相关词的信息熵,α为距离系数。本专利技术的有益之处在于:一是:基于文本挖掘技术构建信息数据库,特别地,从枸杞名出发,通过文本挖掘算法挖掘文献数据库,从中提取信息,构建成数据全面可靠、可快速更新的数据库,提供相关详细信息;二是:通过将数据库图片的基本信息保存到图片基本信息表中;提取每张数据库图片的数据库图片特征,将数据库图片特征以及数据库图片索引保存到图片特征表中;构建成带图片的数据库。附图说明图1为本专利技术的步骤示意图。具体实施方式下面将结合本专利技术实施例中的附图1,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。实施例1,参照图1,一种基于枸杞质量的枸杞全网数据库构建方法,获取数据步骤:根据枸杞的对应信息列表,从网络中获取与枸杞对应信息相关的摘要资源;前处理步骤:对所述摘要资源中的每一段信息进行分解以获取包括摘要内容的数据信息;分类处理步骤:根据枸杞的对应信息列表,对所述摘要内容进行提取和分类;后处理步骤:针对枸杞的对应信息列表每一条信息,构建对应于该信息的相关词语义库;库构建步骤:建立信息数据库,所述信息数据库包括所述对应信息列表和对应的文献摘要。一种基于枸杞质量的枸杞全网数据库构建方法,对应信息列表包括:资源类信息、质量类信息、流通类信息、知识类信息。一种基于枸杞质量的枸杞全网数据库构建方法,资源类信息包括:产地、品种、规模、产量、生产经营对象、成本。一种基于枸杞质量的枸杞全网数据库构建方法,所述质量类信息包括:参照药典指标,包括等级、规格、检测指标、查询信息。一种基于枸杞质量的枸杞全网数据库构建方法,所述流通类信息包括:趁鲜加工主体、数量、规格;仓储地点、方式、数量;市场主体、分布、交易量、价格、年度分布;制药的主体、品类、数量、分布、价格。一种基于枸杞质量的枸杞全网数据库构建方法,所述知识类信息包括:政策、法规、发展规划、新研究、网络评价、新闻报道。一种基于枸杞质量的枸杞全网数据库构建方法,所述获取摘要资源步骤包括:以枸杞名为搜索词,采用网络爬虫技术获取与所述枸杞名相关的文献摘要。一种基于枸杞质量的枸杞全网数据库构建方法,所述前处理步骤还包括:在获取所述摘要资源后,根据所述枸杞名的同音词对所述文献摘要资源进行过滤,保留摘要内容中包含所述同音词的文献摘要。一种基于枸杞质量的枸杞全网数据库构建方法,在所述后处理步骤中,所述构建相关词语义库包括:确定主词与相关词的共现次数、二者之间的平均距离以及所述相关词的信息熵,其中所述主词为所述枸杞名,所述相关词为与所述枸杞名相关的所有文献摘要中出现的其它词语;根据所述共现次数、平均距离和信息熵确定所述相关词相对于所述主词的相关度;根据所述相关度得到所述相关词语义库,所述相关词语义库包括相关词以及该相关词相对于主词的相关度。一种基于枸杞质量的枸杞全网数据库构建方法,所述相关度的计算公式为:r=(c×α)÷(α+d)÷η,其中,r表示一个相关词与所述主词的相关度,c表示所述本文档来自技高网
...

【技术保护点】
1.一种基于枸杞质量的枸杞全网数据库构建方法,其特征在于:获取数据步骤:根据枸杞的对应信息列表,从网络中获取与枸杞对应信息相关的摘要资源;前处理步骤:对所述摘要资源中的每一段信息进行分解以获取包括摘要内容的数据信息;分类处理步骤:根据枸杞的对应信息列表,对所述摘要内容进行提取和分类;后处理步骤:针对枸杞的对应信息列表每一条信息,构建对应于该信息的相关词语义库;库构建步骤:建立信息数据库,所述信息数据库包括所述对应信息列表和对应的文献摘要。

【技术特征摘要】
1.一种基于枸杞质量的枸杞全网数据库构建方法,其特征在于:获取数据步骤:根据枸杞的对应信息列表,从网络中获取与枸杞对应信息相关的摘要资源;前处理步骤:对所述摘要资源中的每一段信息进行分解以获取包括摘要内容的数据信息;分类处理步骤:根据枸杞的对应信息列表,对所述摘要内容进行提取和分类;后处理步骤:针对枸杞的对应信息列表每一条信息,构建对应于该信息的相关词语义库;库构建步骤:建立信息数据库,所述信息数据库包括所述对应信息列表和对应的文献摘要。2.根据权利要求1所述的一种基于枸杞质量的枸杞全网数据库构建方法,其特征在于:对应信息列表包括:资源类信息、质量类信息、流通类信息、知识类信息。3.根据权利要求2所述的一种基于枸杞质量的枸杞全网数据库构建方法,其特征在于:所述资源类信息包括:产地、品种、规模、产量、生产经营对象、成本。4.根据权利要求2所述的一种基于枸杞质量的枸杞全网数据库构建方法,其特征在于:所述质量类信息包括:参照药典指标,包括等级、规格、检测指标、查询信息。5.根据权利要求2所述的一种基于枸杞质量的枸杞全网数据库构建方法,其特征在于:所述流通类信息包括:趁鲜加工主体、数量、规格;仓储地点、方式、数量;市场主体、分布、交易量、价格、年度分布;制药的主体、品类、数量、分布、价格。6.根据权利要求2所述的一种基于枸杞质量的枸杞全网数据库构建方法,其特征在于:所述知识类信息包括...

【专利技术属性】
技术研发人员:怀化
申请(专利权)人:亳州中药材商品交易中心有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1