企业质量信用数据获取方法和系统技术方案

技术编号:15542628 阅读:71 留言:0更新日期:2017-06-05 11:29
本发明专利技术公开了一种企业质量信用数据获取方法,包括:S1、对与企业质量信用相关的数据进行预处理,得到语料数据;S2、对所述语料数据进行知识挖掘,得到模板数据;以及S3、从所述语料数据中提取与所述模板数据对应的关键数据,作为企业质量信用数据。本发明专利技术确保数据获取的一致性、准确性和全面性。

Enterprise quality credit data acquisition method and system

The invention discloses a method to obtain a quality credit data including: S1, pretreatment of related enterprise quality credit data, get data; S2, the data mining, template data; and S3, from the corpus data to extract key data corresponding to the the template data, as the data of enterprise quality credit. The invention ensures the consistency, accuracy and comprehensiveness of data acquisition.

【技术实现步骤摘要】
企业质量信用数据获取方法和系统
本专利技术涉及数据获取
,更具体地,涉及企业质量信用数据获取方法和系统。
技术介绍
关于质量信用中国产品质量协会对质量信用给出较为权威的定义。质量信用是指企业在产品(服务)质量方面的信用状况,既是企业履行其产品(服务)质量承诺的能力和程度,又表达了顾客的需求,这就要求必须具有法律规定的可靠性,能满足法律规定的信用原则,包括满足《产品质量法》和《合同法》等有关法律法规的要求。企业质量信用是我国企业在生产经营活动中遵守我国相关的质量法律法规、贯彻执行相关的标准、兑现质量承诺的能力成熟度。海量的企业质量信用评价数据依靠人工上报来获取,效率低下,费时费力,并且数据质量与人工知识和经验有很大关系,无法确保数据获取的一致性、准确性和全面性。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种从互联网抓取各自相关信息,并基于词汇之间的语法和逻辑关系获得的企业质量信用数据获取方法和系统。为了实现根据本专利技术的这些目的和其它优点,提供了一种企业质量信用数据获取方法,包括:S1、对与企业质量信用相关的数据进行预处理,得到语料数据;S2、对所述语料数据进行知识挖掘,得到模板数据;以及S3、从所述语料数据中提取与所述模板数据对应的关键数据,作为企业质量信用数据。优选地,所述步骤S1具体包括:S1.1、从网络资源中获取各
中与企业质量信用相关的数据;S1.2、抓取所述数据中的文档转换为xml格式文档;以及S1.3、对所述xml格式文档进行去噪,获得所述语料数据。优选地,所述步骤S1.1具体包括:S1.1.1、基于爬虫框架,根据设定的种子请求一个页面,并将有效的URL添加到队列中等候处理;S1.1.2、提取队列中等候的第一个链接对其进行页面解析,并根据user-defined-extractor自定义的抽取器提取出有效的文本信息,以镜像存储结构存储到本地;以及S1.1.3、将页面中有效的URL再次加入队列等候处理,如此不断地分析下去,直到最后一个链接无任何有效链接为止,完成一次任务的抓取,如此不断循环往复,直至抓取完所需的预定网上资源。其中,所述步骤S1.2中的文档为pdf文档、doc文档、ppt文档、html文档、excel文档以及txt文档中的一种或多种。优选地,所述步骤S2具体包括:S2.1、将所述语料数据中的句子分解为多个单词,并对所述单词进行词性批注;S2.2、基于所述单词以及词性批注获取每个句子中单词间的语法修饰关系,对满足独立句子结构且符合名词与名词搭配、形容词与名词搭配、形容词与两个名词搭配、动词与名词搭配、名词与动词搭配、三个名词搭配、动词与两个名词搭配、形容词与动词和名词搭配以及名词与动词和名词搭配的词组作为备选组合;S2.3、统计所有单词和备选组合在各
出现的频率和在所有
出现的总频率,并转化为每个单词或备选组合的每百万字节中的标准频率和总标准频率;S2.4、基于所述标准频率和总标准频率,对所有单词或备选组合进行分类,分类项中至少包括领域单词和领域组合;以及S2.5、基于语句中领域单词和/或领域组合间的语法关系和继承关系,从所述语料数据中获得所述模板数据。优选地,所述步骤S2.4至少包括:当某单词的总标准频率高于一定值Fmax,且在总标准频率中标准频率的分布较为均匀,标准差S小于Smin,则认定该单词为常用词;当某单词的总标准频率高于Fmin,且在总标准频率中,集中分布于个别领域,则认定词为该个别领域的所述领域单词;或当某备选组合不含有常用词,且该备选组合在语料数据中出现的总标准频率大于Fmax,且在总标准频率中,集中分布于个别领域,则认定该备选组合为该个别领域的所述领域组合。优选地,所述步骤S3具体包括:S3.1、基于正则表达式遍历所述语料数据,获得含有所述模板数据中继承关系的句子,并映射到所述模板数据中的基础关系概念对;S3.2、对所述步骤S3.1获得的每一个句子进行分词并抽取在语料数据中经常出现的单词、备选组合和表达方式,计算每种表达方式在所有语句中所占比率,选取比率大于一定值F的表达方式,作为备选句;S3.3、返回语料数据验证所述备选句用于表达继承关系的句子所占概率,若概率超过阈值,则认定该备选句为可作为企业质量信用数据的所述关键数据;以及S3.4、集合所有所述关键数据作为企业质量信用数据。本专利技术还提供一种企业质量信用数据获取系统,包括:语料获取装置,对与企业质量信用相关的数据进行预处理,得到语料数据;模板获取装置,与所述语料获取装置连接,对所述语料数据进行知识挖掘,得到模板数据;以及信用数据获取装置,与所述语料获取装置和模板获取装置连接,从所述语料数据中提取与所述模板数据对应的关键数据,作为企业质量信用数据。优选地,所述语料获取装置包括:搜集模块,从网络资源中获取各
中与企业质量信用相关的数据;抓取模块,与所述搜集模块连接,抓取所述数据中的文档转换为xml格式文档;以及语料模块,对所述xml格式文档进行去噪,获得所述语料数据。本专利技术至少包括以下有益效果:本专利技术克服了依靠人工获取企业质量信用信息的方式,效率高,并且数据从整个互联网获得,具有一致性、准确性以及全面性。通过计算机自动提取相关信息并基于语法关系、逻辑关系进行二次抽取和重新组织,使得企业质量信用信息的有效内容更多,更精确。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。具体实施方式下面结合实施例对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,不能理解为对本专利技术的限制。本专利技术提供一种海量的企业质量信用评价数据依靠人工上报来获取,效率低下,费时费力,并且数据质量与人工知识和经验有很大关系,无法确保数据获取的一致性、准确性和全面性。本课题采用了一种计算机自动化提取处理和和人工校核完善相结合的方法进行提取,提高了技术指标提取效率,节省了大量人力,确保项目按时完成。该方法主要包括企业质量信用数据和资料预处理(语料收集、信息抽取、信息去噪)、知识挖掘(领域概念识别、概念关系抽取和数据模板生成)和关键数据提取(文本识别、内容提取)。首先通过本地资源和互联网信息抓取等多种途径获取企业质量信用数据和资料;第二,对所获得的领域资料进行预处理,去除标签、乱码、页眉和页脚等无用信息,同时确保有用信息被完整保留;第三,对经过预处理的语料信息进行知识挖掘,包括领域概念的识别、领域关系抽取、摘要关键词抽取和关键信息,第四,对知识挖掘获得的概念、属性、关系和规则等进行处理,形成海量的质量信用档案数据库。资料预处理包括:数据收集、信息抽取、信息去噪。(1)数据收集系统分析所需语料通过本地资源和网络资源两种途径获得。本地资源:主要指用户本地电脑或服务器存储的和互联网等各类文档资源;网络资源:通过网络爬虫工具从互联网抓取的标准相关
的文档资料。网络资源获取采用爬虫框架,根据设定的种子去请求一个页面,并将有效的URL添加到队列中等候处理,然后提取队列中等候的第一个链接对其进行页面解析,并根据us本文档来自技高网
...

【技术保护点】
一种企业质量信用数据获取方法,其特征在于,包括:S1、对与企业质量信用相关的数据进行预处理,得到语料数据;S2、对所述语料数据进行知识挖掘,得到模板数据;以及S3、从所述语料数据中提取与所述模板数据对应的关键数据,作为企业质量信用数据。

【技术特征摘要】
1.一种企业质量信用数据获取方法,其特征在于,包括:S1、对与企业质量信用相关的数据进行预处理,得到语料数据;S2、对所述语料数据进行知识挖掘,得到模板数据;以及S3、从所述语料数据中提取与所述模板数据对应的关键数据,作为企业质量信用数据。2.如权利要求1所述的企业质量信用数据获取方法,其特征在于,所述步骤S1具体包括:S1.1、从网络资源中获取各技术领域中与企业质量信用相关的数据;S1.2、抓取所述数据中的文档转换为xml格式文档;以及S1.3、对所述xml格式文档进行去噪,获得所述语料数据。3.如权利要求2所述的企业质量信用数据获取方法,其特征在于,所述步骤S1.1具体包括:S1.1.1、基于爬虫框架,根据设定的种子请求一个页面,并将有效的URL添加到队列中等候处理;S1.1.2、提取队列中等候的第一个链接对其进行页面解析,并根据user-defined-extractor自定义的抽取器提取出有效的文本信息,以镜像存储结构存储到本地;以及S1.1.3、将页面中有效的URL再次加入队列等候处理,如此不断地分析下去,直到最后一个链接无任何有效链接为止,完成一次任务的抓取,如此不断循环往复,直至抓取完所需的预定网上资源。4.如权利要求2所述的企业质量信用数据获取方法,其特征在于,所述步骤S1.2中的文档为pdf文档、doc文档、ppt文档、html文档、excel文档以及txt文档中的一种或多种。5.如权利要求4所述的企业质量信用数据获取方法,其特征在于,所述步骤S2具体包括:S2.1、将所述语料数据中的句子分解为多个单词,并对所述单词进行词性批注;S2.2、基于所述单词以及词性批注获取每个句子中单词间的语法修饰关系,对满足独立句子结构且符合名词与名词搭配、形容词与名词搭配、形容词与两个名词搭配、动词与名词搭配、名词与动词搭配、三个名词搭配、动词与两个名词搭配、形容词与动词和名词搭配以及名词与动词和名词搭配的词组作为备选组合;S2.3、统计所有单词和备选组合在各技术领域出现的频率和在所有技术领域出现的总频率,并转化为每个单词或备选组合的每百万字节中的标准频率和总标准频率;S2.4、基于所述标准频率和总标准频率,对所...

【专利技术属性】
技术研发人员:王旻王傲巍司琳华袁辉马军
申请(专利权)人:全国组织机构代码管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1