当前位置: 首页 > 专利查询>王嘉兴专利>正文

一种文本挖掘方法、装置、设备和介质制造方法及图纸

技术编号:26304106 阅读:41 留言:0更新日期:2020-11-10 19:59
本发明专利技术实施例公开了一种文本挖掘方法、装置、设备和介质。其中,该方法包括:从候选资源定位字符中确定目标资源定位字符;根据目标资源定位字符,获取目标数据源中目标文本的信息;对目标文本的信息进行校验,并根据校验结果从目标文本中确定待挖掘文本。本发明专利技术实施例可以在多个数据源中准确确定出需要搜索的目标数据源,从而能够有效提高需求文本的提取效率。

【技术实现步骤摘要】
一种文本挖掘方法、装置、设备和介质
本专利技术实施例涉及一种信息处理技术,尤其涉及一种文本挖掘方法、装置、设备和介质。
技术介绍
中小企业是国家经济的毛细血管,对国家经济的发展起着至关重要的影响;但是由于中小企业的信息比较不透明,金融机构无法有效的识别和管理其风险,使得为数众多的中小企业很难从金融机构获得充足的金融支持。目前对于企业文本的挖掘方法主要是通过在多个网页数据资源中进行大面积的筛查,以确定出有用且真实的文本信息。上述方案的缺陷在于:数据来源单一,大多为舆情和社交网络信息,无对信息披露网站进行有效爬取,且是在众多的网页数据中一一查询,极大的降低了文本信息的查询效率。
技术实现思路
本申请实施例提供一种文本挖掘方法、装置、设备和介质,可以在多个数据源中准确确定出需要搜索的目标数据源,从而能够有效提高需求文本的提取效率。第一方面,本专利技术实施例提供了一种文本挖掘方法,包括:从候选资源定位字符中确定目标资源定位字符;根据所述目标资源定位字符,获取目标数据源中目标文本的信息;对所述目标文本的信息进行校验,并根据校验结果从所述目标文本中确定待挖掘文本。可选的,从候选资源定位字符中确定目标资源定位字符,包括:搜索候选资源定位字符,得到至少两个候选数据源;根据至少两个所述候选数据源的属性信息,确定目标资源定位字符;其中,所述候选数据源的属性信息包括企业名称、企业注册地址和企业类型中的至少一种。可选的,根据所述目标资源定位字符,获取目标数据源中目标文本的信息,包括:通过爬虫驱动程序调用所述目标资源定位字符,从目标数据源中下载初始文本的信息;对所述初始文本的信息进行信息抽取,得到目标文本的信息。可选的,对所述初始文本的信息进行信息抽取,得到目标文本的信息,包括:根据待检测项构建匹配字典;其中,所述待检测项包括命名实体、事件、数值和时间中的至少一种;利用所述匹配字典对所述初始文本的信息进行信息抽取,得到含有待检测项的目标文本的信息。可选的,对所述目标文本的信息进行校验,并根据校验结果从所述目标文本中确定待挖掘文本,包括:根据所述目标文本的信息预测的企业风险值和预设风险阈值,对所述目标文本的信息进行校验;若所述企业风险值小于预设风险值,则将所述目标文本作为待挖掘文本,用于对所述企业的贷款风险性进行评估。第二方面,本专利技术实施例提供了一种文件挖掘装置,包括:字符确定模块,用于从候选资源定位字符中确定目标资源定位字符;信息获取模块,用于根据所述目标资源定位字符,获取目标数据源中目标文本的信息;信息校验模块,用于对所述目标文本的信息进行校验,并根据校验结果从所述目标文本中确定待挖掘文本。可选的,字符确定模块,具体用于:搜索候选资源定位字符,得到至少两个候选数据源;根据至少两个所述候选数据源的属性信息,确定目标资源定位字符;其中,所述候选数据源的属性信息包括企业名称、企业注册地址和企业类型中的至少一种。可选的,信息获取模块,具体用于:通过爬虫驱动程序调用所述目标资源定位字符,从目标数据源中下载初始文本的信息;对所述初始文本的信息进行信息抽取,得到目标文本的信息。可选的,信息获取模块,还具体用于:根据待检测项构建匹配字典;其中,所述待检测项包括命名实体、事件、数值和时间中的至少一种;利用所述匹配字典对所述初始文本的信息进行信息抽取,得到含有待检测项的目标文本的信息。可选的,信息校验模块,具体用于:根据所述目标文本的信息预测的企业风险值和预设风险阈值,对所述目标文本的信息进行校验;若所述企业风险值小于预设风险值,则将所述目标文本作为待挖掘文本,用于对所述企业的贷款风险性进行评估。第三方面,本专利技术实施例还提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例中的任一种所述的文本挖掘方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术实施例中的任一种所述的文本挖掘方法。本专利技术实施例从候选资源定位字符中确定目标资源定位字符;根据目标资源定位字符,获取目标数据源中目标文本的信息;对目标文本的信息进行校验,并根据校验结果从目标文本中确定待挖掘文本。本专利技术实施例可以在多个数据源中准确确定出需要搜索的目标数据源,从而能够有效提高需求文本的提取效率。附图说明图1是本专利技术实施例一中的文本挖掘方法的流程示意图;图2是本专利技术实施例二中的文本挖掘方法的流程示意图;图3是本专利技术实施例三中的文本挖掘装置的结构示意图;图4是本专利技术实施例四中的电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一中的文本挖掘方法的流程示意图。本实施例可适用于准确快速的获取文本信息的情况。本实施例方法可由文本挖掘装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中。可实现本申请任意实施例所述的文本挖掘方法。如图1所示,该方法具体包括如下:S110、从候选资源定位字符中确定目标资源定位字符。在本实施例中,候选资源定位字符为金融业的专业网站网页的定位地址,即URL(UniformResourceLocator,统一资源定位符),可以显示在浏览器顶部的Location或者URL框内。目标资源定位字符是从业者根据自身需求从候选资源定位字符中的候选数据源中排除对自身无用的数据源,将有用的数据源的资源定位字符作为目标资源定位字符。由于传统方式下是在多个且非专业的网站中一一查询其所需的数据源,并根据查询结果,对这些数据源进行筛选,以得到有用的数据源进行后续的风险评估;上述查询方式的数据来源较为单一,大多为舆情社交网络信息,无法有针对性性的从专业网站上进行有效的数据爬取,极大的降低了数据的获取效率。因此,本申请在查询网站中进行针对性选取,根据从业者的不同需求,先将目标资源定位字符确定出,使得可以直接通过目标资源定位字符获取所需信息,从而减少了查询的工作量,同时提高了查询的准确性。S120、根据目标资源定位字符,获取目标数据源中目标文本的信息。在本实施例中,在定位符框中,输入目标资源定位字符,可以直接跳转至相应的包含有目标文本的信息的网页,从该网页中可以获取所需的目标文本的信息。具体的,通过目标资源定位字符,可以基于分布式网络爬虫自动获取所需信息;其中,分布式网络爬虫为Hado本文档来自技高网...

【技术保护点】
1.一种文本挖掘方法,其特征在于,所述方法包括:/n从候选资源定位字符中确定目标资源定位字符;/n根据所述目标资源定位字符,获取目标数据源中目标文本的信息;/n对所述目标文本的信息进行校验,并根据校验结果从所述目标文本中确定待挖掘文本。/n

【技术特征摘要】
1.一种文本挖掘方法,其特征在于,所述方法包括:
从候选资源定位字符中确定目标资源定位字符;
根据所述目标资源定位字符,获取目标数据源中目标文本的信息;
对所述目标文本的信息进行校验,并根据校验结果从所述目标文本中确定待挖掘文本。


2.根据权利要求1所述的方法,其特征在于,从候选资源定位字符中确定目标资源定位字符,包括:
搜索候选资源定位字符,得到至少两个候选数据源;
根据至少两个所述候选数据源的属性信息,确定目标资源定位字符;其中,所述候选数据源的属性信息包括企业名称、企业注册地址和企业类型中的至少一种。


3.根据权利要求1所述的方法,其特征在于,根据所述目标资源定位字符,获取目标数据源中目标文本的信息,包括:
通过爬虫驱动程序调用所述目标资源定位字符,从目标数据源中下载初始文本的信息;
对所述初始文本的信息进行信息抽取,得到目标文本的信息。


4.根据权利要求3所述的方法,其特征在于,对所述初始文本的信息进行信息抽取,得到目标文本的信息,包括:
根据待检测项构建匹配字典;其中,所述待检测项包括命名实体、事件、数值和时间中的至少一种;
利用所述匹配字典对所述初始文本的信息进行信息抽取,得到含有待检测项的目标文本的信息。


5.根据权利要求1所述的方法,其特征在于,对所述目标文本的信息进行校验,并根据校验结果从所述目标文本中确定待挖掘文本,包括:
根据所述目标文本的信息预测的企业风险值和预设风险阈值,对所述目标文本的信...

【专利技术属性】
技术研发人员:王嘉兴
申请(专利权)人:王嘉兴
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1