利用知识图谱计算文本和主体相关度的方法以及装置制造方法及图纸

技术编号:19821858 阅读:22 留言:0更新日期:2018-12-19 14:43
本发明专利技术公开了一种利用知识图谱计算文本和主体相关度的方法以及装置,所述方法包括:获取文本;对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括目标节点信息、相关联的节点信息、所述目标节点信息与所述相关联的节点信息之间的关系及关联性权重,所述目标节点信息包括第一企业主体信息,所述相关联的节点信息包括与所述第一主体企业主体信息相关联的第二主体信息、产品或自然人信息;根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。

【技术实现步骤摘要】
利用知识图谱计算文本和主体相关度的方法以及装置
本专利技术涉及一种利用知识图谱计算文本和主体相关度的方法以及装置。
技术介绍
在信息时代,海量数据的获取和处理分析是一大难点。在一些行业(例如金融行业),人们关注企业各个维度的信息,用以帮助经营投资等决策。一方面,市场参与者需要更广、更全的数据,另一方面,也要求这些数据能够及时地被处理。企业舆情信息是市场参与者重点关注的一个维度,作为一种非结构化文本信息,舆情信息具有数据分散、数据量大、数据格式复杂、及时性强等特点。因此,利用技术手段,如自然语言处理,对这类数据进行高效地处理并提取有价值信息,是众多金融从业者的需求。面对纷繁复杂的舆情信息,如何将其和关注的企业关联起来,筛掉价值不大或跟主体不相关的信息,是进行数据分析和挖掘的重要一步。将文本信息和企业主体关联,常见的方法,是构建企业主体的关键词库,包括企业的工商名称、企业简称、企业上市代码等,并以此为准,在文本信息库进行关键词匹配检索,将匹配到的文本作为该企业主体的相关信息。该类方法,一方面需要提前构建较全的企业关键词库作为检索依据;另一方面,对匹配检索得到的结果,进行关联程度排序也效果不佳,往往出现文本中出现了关键词,却不是该企业的信息,因此依然会有较多的冗余信息;同时,通过关键词直接匹配关联,对于企业的重点关联企业的重要信息也会疏漏,造成信息丢失。
技术实现思路
针对上述现有技术的不足,本专利技术所要解决的技术问题是:提供一种利用知识图谱计算文本和主体相关度的方法以及装置,能够在对海量文本分析时,对传统单用关键词匹配的方式进行了优化。结合知识图谱方法,能够对目标主体关联和文本信息进行关联程度进行量化,丰富了文本信息和目标主体的关联维度,为后续进一步分析提供基础。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种利用知识图谱计算文本与企业主体相关度的方法,包括以下步骤:获取文本;对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括目标节点信息、相关联的节点信息、所述目标节点信息与所述相关联的节点信息之间的关系及关联性权重,所述目标节点信息包括第一企业主体信息,所述相关联的节点信息包括与所述第一主体企业主体信息相关联的第二主体信息、产品或自然人信息;根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。进一步的,在对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合的步骤中,包括:对文本进行分词处理,得到所有的关键词以形成关键词集合,所述关键词集合记为K,在所述知识图谱中搜索所述关键词集合K中的关键词,获取与所述关键词集合K相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,所述候选的企业集合记为C。进一步的,在根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度的步骤中,包括:令F为关键词集合K的词频矩阵:fi表示第i个关键词的词频;令R为主体集合C及其关键词集合K的相关性矩阵,知识图谱节点相连即为1,图谱节点不相连即为0:为主体集合C及与其相关的关键词的加总词频向量:其中,表示文本中与第i个候选的企业主体相关的全部关键词词频之和;定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;其中,其中,定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;其中,0≤ryi≤1得到文本与候选的企业主体集合C的相关度矩阵RKC其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。进一步的,在计算文本与所述候选的企业主体的关联度的步骤中,还包括:根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度。进一步的,根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度的步骤中,包括:首先统计关键词K集合的词频向量F:fi表示第i个关键词的词频;令R为候选的企业集合C及其关键词集合K的相关系数矩阵:rij表示第i个候选的企业主体与第j个关键词的相关系数;为相关系数加权词频矩阵:其中表示第i个候选的企业主体的关键词加权词频之和;定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;其中,其中,定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;其中,0≤ryi≤1;得到文本与候选的企业主体集合C的相关度矩阵RKC;其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。进一步的,在对所述文本进行分词处理的步骤之前,还包括:对所述文本进行段落划分预处理,并对段落位置赋予相应权重;在计算所述文本与所述候选的企业主体的关联度的步骤中,还包括:根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、段落位置、关系权重、文本篇幅计算文本与所述候选的企业主体的关联度。进一步的,通过以下公式对所述文本进行段落划分预处理:其中,表示不小于x的整数,所述P为文本的自然段,所述P≥1,所述H为文本被拆分的部分,分别记为part1,…,partH,标题被记为part0,所述H≥1,每部分的段落数量记为L=(l0,l1,…,lH),表示第一部分占总段数P的最大比例,表示第H部分占总段数P的最大比例,进一步的,在根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、段落位置、关系权重、文本篇幅计算文本与所述候选的企业主体的关联度的步骤中,包括以下子步骤:令W为关键词在段落位置的权重矩阵:其中wi表示关键词在第i部分所得的权重,w0指关键词在标题所得的权重;令R为企业主体集合C及其关键词集合K的相关系数矩阵:rij表示第i个候选的企业主体与第j个关键词的相关系数;F为关键词K在不同段落位置所得的词频矩阵:fij表示第i个关键词在partj部分的词频;为相关系数加权词频矩阵:其中表示第i个候选的企业主体在partj部分的加权词频之和;定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;其中,其中,定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;其中,0≤ryi≤1得到文本与候选的企业主体集合C的相关度矩阵RKC其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。为解决上述技术问题,本专利技术采用的另一个技术方案是:提供一种利用知识图谱计算文本与企业主体相关度的装置,包括:文本获取模块,用于获取文本;分词模块,用于对文本进行分词处理,提取文本中出现的关键词集合,通过本文档来自技高网...

【技术保护点】
1.一种利用知识图谱计算文本与企业主体相关度的方法,包括以下步骤:获取文本;对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括目标节点信息、相关联的节点信息、所述目标节点信息与所述相关联的节点信息之间的关系及关联性权重,所述目标节点信息包括第一企业主体信息,所述相关联的节点信息包括与所述第一主体企业主体信息相关联的第二主体信息、产品或自然人信息;根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。

【技术特征摘要】
1.一种利用知识图谱计算文本与企业主体相关度的方法,包括以下步骤:获取文本;对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,其中,所述知识图谱包括目标节点信息、相关联的节点信息、所述目标节点信息与所述相关联的节点信息之间的关系及关联性权重,所述目标节点信息包括第一企业主体信息,所述相关联的节点信息包括与所述第一主体企业主体信息相关联的第二主体信息、产品或自然人信息;根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度。2.如权利要求1所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,在对文本进行分词处理,提取文本中出现的关键词集合,通过预先建立的知识图谱,检索与关键词相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合的步骤中,包括:对文本进行分词处理,得到所有的关键词以形成关键词集合,所述关键词集合记为K,在所述知识图谱中搜索所述关键词集合K中的关键词,获取与所述关键词集合K相关联的企业主体,以将所述与关键词相关联的企业主体作为候选的企业集合,所述候选的企业集合记为C。3.如权利要求2所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,在根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频计算文本与所述候选的企业主体的关联度的步骤中,包括:令F为关键词集合K的词频矩阵:fi表示第i个关键词的词频;令R为主体集合C及其关键词集合K的相关性矩阵,知识图谱节点相连即为1,图谱节点不相连即为0:为主体集合C及与其相关的关键词的加总词频向量:其中,表示文本中与第i个候选的企业主体相关的全部关键词词频之和;定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;其中,u=(1,…,1),其中,0≤rxi≤1,定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节参数,scale>0为文本信息总分词数经清洗后得到的分词词语数量,用于衡量文本篇幅;其中,0≤ryi≤1得到文本与候选的企业主体集合C的相关度矩阵RKC其中,⊙为矩阵点乘运算,表示本文本对第i个候选的企业主体的关联度。4.如权利要求2所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,在计算文本与所述候选的企业主体的关联度的步骤中,还包括:根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度。5.如权利要求4所述的利用知识图谱计算文本与企业主体相关度的方法,其特征在于,根据所述候选的企业集合中的候选的企业主体关联的关键词出现的词频、关系权重计算文本与所述候选的企业主体的关联度的步骤中,包括:首先统计关键词K集合的词频向量F:fi表示第i个关键词的词频;令R为候选的企业集合C及其关键词集合K的相关系数矩阵:rij表示第i个候选的企业主体与第j个关键词的相关系数;为相关系数加权词频矩阵:其中表示第i个候选的企业主体的关键词加权词频之和;定义相关度因子RX,RX用来衡量本文本中候选的企业主体之间的相关顺序;其中,u=(1,…,1),其中,0≤rxi≤1,定义相关度因子RY,用来衡量不同文本之间候选的企业主体的相关顺序,β>0,β为缩放调节...

【专利技术属性】
技术研发人员:孙雨轩吴成龙周劼人
申请(专利权)人:中证征信深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1