一种文本挖掘方法、装置、设备和介质制造方法及图纸

技术编号：26304106 阅读：41 留言：0更新日期：2020-11-10 19:59

本发明专利技术实施例公开了一种文本挖掘方法、装置、设备和介质。其中，该方法包括：从候选资源定位字符中确定目标资源定位字符；根据目标资源定位字符，获取目标数据源中目标文本的信息；对目标文本的信息进行校验，并根据校验结果从目标文本中确定待挖掘文本。本发明专利技术实施例可以在多个数据源中准确确定出需要搜索的目标数据源，从而能够有效提高需求文本的提取效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本挖掘方法、装置、设备和介质
本专利技术实施例涉及一种信息处理技术，尤其涉及一种文本挖掘方法、装置、设备和介质。
技术介绍
中小企业是国家经济的毛细血管，对国家经济的发展起着至关重要的影响；但是由于中小企业的信息比较不透明，金融机构无法有效的识别和管理其风险，使得为数众多的中小企业很难从金融机构获得充足的金融支持。目前对于企业文本的挖掘方法主要是通过在多个网页数据资源中进行大面积的筛查，以确定出有用且真实的文本信息。上述方案的缺陷在于：数据来源单一，大多为舆情和社交网络信息，无对信息披露网站进行有效爬取，且是在众多的网页数据中一一查询，极大的降低了文本信息的查询效率。
技术实现思路
本申请实施例提供一种文本挖掘方法、装置、设备和介质，可以在多个数据源中准确确定出需要搜索的目标数据源，从而能够有效提高需求文本的提取效率。第一方面，本专利技术实施例提供了一种文本挖掘方法，包括：从候选资源定位字符中确定目标资源定位字符；根据所述目标资源定位字符，获取目标数据源中目标文本的信息；对所述目标文本的信息进行校验，并根据校验结果从所述目标文本中确定待挖掘文本。可选的，从候选资源定位字符中确定目标资源定位字符，包括：搜索候选资源定位字符，得到至少两个候选数据源；根据至少两个所述候选数据源的属性信息，确定目标资源定位字符；其中，所述候选数据源的属性信息包括企业名称、企业注册地址和企业类型中的至少一种。可选的，根据所述目标资源定位字符，获取...

【技术保护点】
1.一种文本挖掘方法，其特征在于，所述方法包括：/n从候选资源定位字符中确定目标资源定位字符；/n根据所述目标资源定位字符，获取目标数据源中目标文本的信息；/n对所述目标文本的信息进行校验，并根据校验结果从所述目标文本中确定待挖掘文本。/n

【技术特征摘要】
1.一种文本挖掘方法，其特征在于，所述方法包括：
从候选资源定位字符中确定目标资源定位字符；
根据所述目标资源定位字符，获取目标数据源中目标文本的信息；
对所述目标文本的信息进行校验，并根据校验结果从所述目标文本中确定待挖掘文本。

2.根据权利要求1所述的方法，其特征在于，从候选资源定位字符中确定目标资源定位字符，包括：
搜索候选资源定位字符，得到至少两个候选数据源；
根据至少两个所述候选数据源的属性信息，确定目标资源定位字符；其中，所述候选数据源的属性信息包括企业名称、企业注册地址和企业类型中的至少一种。

3.根据权利要求1所述的方法，其特征在于，根据所述目标资源定位字符，获取目标数据源中目标文本的信息，包括：
通过爬虫驱动程序调用所述目标资源定位字符，从目标数据源中下载初始文本的信息；
对所述初始文本的信息进行信息抽取，得到目标文本的信息。

4.根据权利要求3所述的方法，其特征在于，对所述初始文本的信息进行信息抽取，得到目标文本的信息，包括：
根据待检测项构建匹配字典；其中，所述待检测项包括命名实体、事件、数值和时间中的至少一种；
利用所述匹配字典对所述初始文本的信息进行信息抽取，得到含有待检测项的目标文本的信息。

5.根据权利要求1所述的方法，其特征在于，对所述目标文本的信息进行校验，并根据校验结果从所述目标文本中确定待挖掘文本，包括：
根据所述目标文本的信息预测的企业风险值和预设风险阈值，对所述目标文本的信...

【专利技术属性】
技术研发人员：王嘉兴，
申请(专利权)人：王嘉兴，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人