The invention discloses a method to obtain a quality credit data including: S1, pretreatment of related enterprise quality credit data, get data; S2, the data mining, template data; and S3, from the corpus data to extract key data corresponding to the the template data, as the data of enterprise quality credit. The invention ensures the consistency, accuracy and comprehensiveness of data acquisition.
【技术实现步骤摘要】
企业质量信用数据获取方法和系统
本专利技术涉及数据获取
,更具体地,涉及企业质量信用数据获取方法和系统。
技术介绍
关于质量信用中国产品质量协会对质量信用给出较为权威的定义。质量信用是指企业在产品(服务)质量方面的信用状况,既是企业履行其产品(服务)质量承诺的能力和程度,又表达了顾客的需求,这就要求必须具有法律规定的可靠性,能满足法律规定的信用原则,包括满足《产品质量法》和《合同法》等有关法律法规的要求。企业质量信用是我国企业在生产经营活动中遵守我国相关的质量法律法规、贯彻执行相关的标准、兑现质量承诺的能力成熟度。海量的企业质量信用评价数据依靠人工上报来获取,效率低下,费时费力,并且数据质量与人工知识和经验有很大关系,无法确保数据获取的一致性、准确性和全面性。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种从互联网抓取各自相关信息,并基于词汇之间的语法和逻辑关系获得的企业质量信用数据获取方法和系统。为了实现根据本专利技术的这些目的和其它优点,提供了一种企业质量信用数据获取方法,包括:S1、对与企业质量信用相关的数据进行预处理,得到语料数据;S2、对所述语料数据进行知识挖掘,得到模板数据;以及S3、从所述语料数据中提取与所述模板数据对应的关键数据,作为企业质量信用数据。优选地,所述步骤S1具体包括:S1.1、从网络资源中获取各
中与企业质量信用相关的数据;S1.2、抓取所述数据中的文档转换为xml格式文档;以及S1.3、对所述xml格式文档进行去噪,获得所述语料数据。优选地,所述步骤 ...
【技术保护点】
一种企业质量信用数据获取方法,其特征在于,包括:S1、对与企业质量信用相关的数据进行预处理,得到语料数据;S2、对所述语料数据进行知识挖掘,得到模板数据;以及S3、从所述语料数据中提取与所述模板数据对应的关键数据,作为企业质量信用数据。
【技术特征摘要】
1.一种企业质量信用数据获取方法,其特征在于,包括:S1、对与企业质量信用相关的数据进行预处理,得到语料数据;S2、对所述语料数据进行知识挖掘,得到模板数据;以及S3、从所述语料数据中提取与所述模板数据对应的关键数据,作为企业质量信用数据。2.如权利要求1所述的企业质量信用数据获取方法,其特征在于,所述步骤S1具体包括:S1.1、从网络资源中获取各技术领域中与企业质量信用相关的数据;S1.2、抓取所述数据中的文档转换为xml格式文档;以及S1.3、对所述xml格式文档进行去噪,获得所述语料数据。3.如权利要求2所述的企业质量信用数据获取方法,其特征在于,所述步骤S1.1具体包括:S1.1.1、基于爬虫框架,根据设定的种子请求一个页面,并将有效的URL添加到队列中等候处理;S1.1.2、提取队列中等候的第一个链接对其进行页面解析,并根据user-defined-extractor自定义的抽取器提取出有效的文本信息,以镜像存储结构存储到本地;以及S1.1.3、将页面中有效的URL再次加入队列等候处理,如此不断地分析下去,直到最后一个链接无任何有效链接为止,完成一次任务的抓取,如此不断循环往复,直至抓取完所需的预定网上资源。4.如权利要求2所述的企业质量信用数据获取方法,其特征在于,所述步骤S1.2中的文档为pdf文档、doc文档、ppt文档、html文档、excel文档以及txt文档中的一种或多种。5.如权利要求4所述的企业质量信用数据获取方法,其特征在于,所述步骤S2具体包括:S2.1、将所述语料数据中的句子分解为多个单词,并对所述单词进行词性批注;S2.2、基于所述单词以及词性批注获取每个句子中单词间的语法修饰关系,对满足独立句子结构且符合名词与名词搭配、形容词与名词搭配、形容词与两个名词搭配、动词与名词搭配、名词与动词搭配、三个名词搭配、动词与两个名词搭配、形容词与动词和名词搭配以及名词与动词和名词搭配的词组作为备选组合;S2.3、统计所有单词和备选组合在各技术领域出现的频率和在所有技术领域出现的总频率,并转化为每个单词或备选组合的每百万字节中的标准频率和总标准频率;S2.4、基于所述标准频率和总标准频率,对所...
【专利技术属性】
技术研发人员:王旻,王傲巍,司琳华,袁辉,马军,
申请(专利权)人:全国组织机构代码管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。