基于企业属性库的企业实体认证方法技术

技术编号：13197221 阅读：49 留言：0更新日期：2016-05-12 08:31

一种基于企业属性库的企业实体认证方法，通过建立企业属性库，并建立企业属性信息与企业ID的对应关系，对文本进行分词，并得到文本中词数集出现的位置，如果文本中出现了相同企业ID对应的企业属性信息，且两个属性信息之间的间隔在15个文字之内，认为该文本描述了该企业，再计算文本描述该家企业的概率。本发明专利技术通过建立企业属性库与增加企业认证机制，有针对性的抽取企业属性，通过该方法抽取的企业属性具有较高的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网信息采集的
，具体说是一种。
技术介绍
随之互联网的快速发展，使得网页信息成为了一个巨大的信息发布源和传播源，且网页信息还在飞速增加，而网页中可能包含了用户所需的大量信息。实际应用中，为了能够有针对性地向用户提供网页信息，一般通过网页信息提取的方式从存在的网页中提取有用的信息，并将提取出的信息提供给用户。现有技术中，提取网页信息时，可以通过关键字匹配等方法实现。具体的，通过关键字匹配法提取网页信息时，在目标网页的源代码中查找与预设的关键字相匹配的信息，并提取与预设的关键字相匹配的信息。应用上述方法能够由目标网页中提取出部分相关信息学，但是由于网页中所包含的信息量较大，有可能会存在多个与预设的关键字相匹配的信息，可能会造成所提取的信息中包含冗余信息或者错误信息，影响用户体验。当提取出的信息中包含冗余信息的情况下，如要剔除冗余信息，则需要对提取出的信息进行二次处理，信息提取效率低。目前通过智能抽取技术在几大权威网站采集I千多万家企业相关属性信息，已构建了企业属性库，并用于后续的企业实体认证。在文本处理中，需要对企业实体进行证认，主要依赖与企业属性库中各家企业的相关知识，包括企业名称，别称，尚管，广品，职位等关键信息。而在企业别称的识别中，由于企业别称可能对应多家企业ID，因此如何通过企业别称更准确识别文本中真正描述的企业是目前函待解决的问题。
技术实现思路
本专利技术要解决的技术问题是提供一种。本专利技术为解决公知技术中存在的技术问题所采取的技术方案是: 本专利技术的，包括以下步骤: A、建立企业属性库，包括企业ID和涵...

【技术保护点】
一种基于企业属性库的企业实体认证方法，包括以下步骤：A、建立企业属性库，包括企业ID和涵盖企业名称、别称、高管、产品、职位信息的企业属性信息；B、根据企业属性库内企业属性字段，建立词数集，并建立企业属性信息与企业ID的对应关系；C、扫描文本，对文本进行分词，并得到文本中词数集出现的位置；D、企业认证处理，如果文本中出现了相同企业ID对应的企业名称、企业高管、企业产品等企业属性信息，并且存在两个属性信息之间的间隔在15个文字之内，则初步判断这篇文本描述了该企业,通过该逻辑获得该文本中所有描述的企业ID；E、计算文本描述该家企业的概率，根据文本的分词结果以及倒文档率，计算排名前20的关键词，如果在前20位关键词中存在已认证的企业属性信息，则判断文本描述该企业的概率较大，再结合企业属性信息在文本中出现的次数以及在文本中出现的位置，总和计算已认证的企业的被描述的权重；具体计算方法如下：定义：文章中可能描述企业i的概率为P(i)，描述企业i的权重为Score(i)；i.对整篇文本进行分词，并统计每个词在文章中出现的次数；ii.计算各词的TF‑IDF值＝TF*IDF，其中TF为词频，IDF为逆向文...

【技术特征摘要】

【专利技术属性】
技术研发人员：郝静，张作职，
申请(专利权)人：天津海量信息技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人