当前位置: 首页 > 专利查询>徐佳慧专利>正文

一种基于知识图谱的风险投资语义搜索的方法技术

技术编号:25442107 阅读:41 留言:0更新日期:2020-08-28 22:29
本发明专利技术实施例公开了一种基于知识图谱的风险投资语义搜索的方法,包括:提供风险投资本体知识模型;以多源异构的风险投资资讯类语料作为构建知识库的数据来源,对获得到半结构化文本信息抽取第一风险投资知识数据,并对非结构化的文本信息抽取第二风险投资知识数据;根据风险投资知识数据、第二风险投资知识数据进行数据融合得到融合风险投资知识数据,数据融合用于将表示同一事物的名称进行统一;根据风险投资本体知识模型,采用三元组形式对融合风险投资知识数据进行表示,生成风险投资知识图谱;基于风险投资知识图谱提供语义搜索引擎。本发明专利技术可以方便用户检索提供语义搜索方案,帮助用户快速正确的获得需要的风险投资信息。

【技术实现步骤摘要】
一种基于知识图谱的风险投资语义搜索的方法
本专利技术实施例涉及人工智能领域,具体涉及一种基于知识图谱的风险投资语义搜索的方法。
技术介绍
近些年风险投资行业飞速发展,涌现出一大批成功的投资案例,支撑了各行业自助创新的高效落地。同时对风险投资行业的报道也越来越多,社交信息、新闻信息在数量上和复杂程度上呈现大量增长的趋势。从如此零散繁琐的信息中提取信息并存储,以及后续的搜索、分析等带来挑战。传统的数据通过超链接的方式进行关联,且搜索到的信息也是以网页文本的方式展现,用户搜索到的结果通常需要进一步的筛选,因此需要一个更有效便捷的方案来管理风投数据,来方便用户直观的检索到结果,提高搜索质量。知识图谱是以图结构的方式来对知识之间的关联关系构建模型的技术,对事物实体的发现、复杂关系的挖掘分析提供了有力的支撑。而基于知识图谱的语义搜索可以直接对现实事物、关系进行直接的发现和进行推理,进一步的改善搜索质量。而垂直领域的知识图谱技术能够结合领域特点,以更加清晰的组织结构对数据进行语义化表达,高质量对庞杂的数据进行规模化的扩展。如何方便用户检索提供语义搜索方案,帮助用户快速正确的获得需要的风险投资信息,是一个亟待解决的问题。
技术实现思路
本专利技术实施例的目的在于提供一种基于知识图谱的风险投资语义搜索的方法,用以方便用户检索提供语义搜索方案,帮助用户快速正确的获得需要的风险投资信息。为实现上述目的,本专利技术实施例主要提供如下技术方案:本专利技术实施例提供了一种基于知识图谱的风险投资语义搜索的方法,包括:S1:提供风险投资本体知识模型;S2:以多源异构的风险投资资讯类语料作为构建知识库的数据来源,对获得到半结构化文本信息抽取第一风险投资知识数据,并对非结构化的文本信息抽取第二风险投资知识数据;S3:根据所述风险投资知识数据、所述第二风险投资知识数据进行数据融合得到融合风险投资知识数据,所述数据融合用于将表示同一事物的名称进行统一;S4:根据所述风险投资本体知识模型,采用三元组形式对所述融合风险投资知识数据进行表示,生成风险投资知识图谱;S5:基于所述风险投资知识图谱提供语义搜索引擎。根据本专利技术的一个实施例,所述对获得到半结构化文本信息抽取第一风险投资知识数据,包括:获取所述半结构化文本信息的结构信息,通过正则表达式设计对应的匹配模板抽取所述第一风险投资知识数据。根据本专利技术的一个实施例,所述对非结构化的文本信息抽取第二风险投资知识数据,包括:通过对已标注好的非结构化的风险投资新闻文本数据训练获得的BiLSTM-CRF深度学习模型,从所述风险投资新闻文本数据中抽取出与风险投资相关的实体信息;合并所述第一风险投资知识数据和所述实体信息得到第一风险投资知识信息;从所述第一风险投资知识信息中抽取出的投融关系对,从风险投资新闻文本数据中提取出包含投资关系对的上下文各关系表示模板;通过对所述风险投资新闻文本数据训练获得的Doc2Vec模型,根据所述Doc2Vec模型计算所述上下文各关系表示模板的特征向量;计算所述风险投资新闻文本数据中各语句特征向量与所述特征向量的余弦相似度,筛选大于第一预设阈值的风险投资关系相似语句;通过所述BiLSTM-CRF深度学习模型从所述风险投资关系相似语句中抽取所述第二风险投资知识数据。根据本专利技术的一个实施例,S3具体包括:S3-1:通过编辑距离算法计算所述实体信息与其他机构实体间的中最少单字符编辑操作次数与实体字符长度的比率R,以1-R的大小来度量实体间的相似程度,并设定第一相似度阈值控制第一候选相似机构实体的数量;S3-2:通过训练模式为Skip-gram的Word2Vec算法对所述风险投资新闻文本数据训练,获得各投资实体的词向量,计算各机构实体间的相似度,并设定第二相似度阈值控制第二候选相似机构实体的数量;S3-3:合并所述第一候选相似机构实体和所述第二候选相似机构实体得到合并候选相似机构实体;S3-4:对比所述合并候选相似机构实体中候选相似实体的风险投资关系各自属性值,如果有两个相同属性值得相似实体,将候选相似实体融合成相同的实体,以及融合对应的投资关系,同时对共指关系的风险投资关系,进行自动补全;S3-5:重复S3-4,直到总的投资关系数量稳定,不在变化为止;S3-6:对多源存在共指关系的风险投资事件的各属性值为最终的属性值;S3-7:对数值型的属性值转换成同单位的数值,对日期型的属性值转换成统一格式的字符方式,并对字符型的属性值进行统一约定。根据本专利技术的一个实施例,S5具体包括:S5-1:构建风险投资知识图谱中各个实体和关系类别的风险投资词典库;S5-2:提供带有变量的风险投资查询模板表达式;S5-3:将所述风险投资词典库和所述BiLSTM-CRF深度学习模型相结合,对用户查询输入语句进行分词处理,获得待查风险投资实体、属性或关系关键词;S5-4:由所述Word2Vec模型获得所述抽取出的待查风险投资实体、属性或关系关键词的词向量,与所述风险投资词典库的词向量由余弦相似度计算出最相似的关键字,将用户的输入的待查关键词链接到所述风险投资知识图谱中的相关实体、属性或关系;S5-5:结合所述风险投资查询模板表达式和所述待查关键词构建候选查询语句,并获得查询结果;S5-6:解析查询结果,返回给用户。根据本专利技术的一个实施例,在S4中,对所述风险投资本体知识模型,采用资源描述框架的三元组形式进行对处理后的数据进行知识表示生成所述风险投资知识图谱,并将所述风险投资知识图谱存储在面向所述资源描述框架的三元组数据库中。根据本专利技术的一个实施例,在S1中还包括:通过风险投资关系、投资机构和初创企业对应的属性描述和两两之间的相互关系构建所述风险投资本体知识模型。根据本专利技术的一个实施例,所述第一预设阈值为0.65。根据本专利技术的一个实施例,所述第一相似度阈值为0.6。根据本专利技术的一个实施例,所述第二相似度阈值为0.6。本专利技术实施例提供的技术方案至少具有如下优点:本专利技术实施例提供的基于知识图谱的风险投资语义搜索的方法,通过设计风险投资本体知识模型,从风险投资资讯类新闻信息中结合自然语言技术进行知识抽取、知识融合,获得语义化的风险投资知识表示,所构建的风险投资知识图谱,在用户的语义检索的功能上效果显著,帮助用户高效直接的检索到投资关系中的实体和关联关系,可以满足用户的检索需求。本专利技术对构建风险投资知识图谱的多源异构的数据源,进行有效的自动化风险投资知识抽取,以及知识融合阶段自动化对多源数据的实体对齐、关系合并,减少大量人力的投入,提高知识抽取的效率,可高质量的规模化扩展新的数据。本专利技术结合风险投资数据的领域特征所设计的语义搜索方案,能够友好的智能化理解用户的搜索意图,并能够返回符合用户检索需求的查询结果。试验表明,本专利技术的基于知识图谱的风险投资语义搜索的方法在实验过程中效果显著,风险投资知识图谱能够快速高质量的扩充数据,并且检索效果已满足用户准确的检索到投资关系中的实体和关联关系。附图说明图1为本专利技术实本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的风险投资语义搜索的方法,其特征在于,包括:/nS1:提供风险投资本体知识模型;/nS2:以多源异构的风险投资资讯类语料作为构建知识库的数据来源,对获得到半结构化文本信息抽取第一风险投资知识数据,并对非结构化的文本信息抽取第二风险投资知识数据;/nS3:根据所述风险投资知识数据、所述第二风险投资知识数据进行数据融合得到融合风险投资知识数据,所述数据融合用于将表示同一事物的名称进行统一;/nS4:根据所述风险投资本体知识模型,采用三元组形式对所述融合风险投资知识数据进行表示,生成风险投资知识图谱;/nS5:基于所述风险投资知识图谱提供语义搜索引擎。/n

【技术特征摘要】
1.一种基于知识图谱的风险投资语义搜索的方法,其特征在于,包括:
S1:提供风险投资本体知识模型;
S2:以多源异构的风险投资资讯类语料作为构建知识库的数据来源,对获得到半结构化文本信息抽取第一风险投资知识数据,并对非结构化的文本信息抽取第二风险投资知识数据;
S3:根据所述风险投资知识数据、所述第二风险投资知识数据进行数据融合得到融合风险投资知识数据,所述数据融合用于将表示同一事物的名称进行统一;
S4:根据所述风险投资本体知识模型,采用三元组形式对所述融合风险投资知识数据进行表示,生成风险投资知识图谱;
S5:基于所述风险投资知识图谱提供语义搜索引擎。


2.根据权利要求1所述的基于知识图谱的风险投资语义搜索的方法,其特征在于,所述对获得到半结构化文本信息抽取第一风险投资知识数据,包括:
获取所述半结构化文本信息的结构信息,通过正则表达式设计对应的匹配模板抽取所述第一风险投资知识数据。


3.根据权利要求2所述的基于知识图谱的风险投资语义搜索的方法,其特征在于,所述对非结构化的文本信息抽取第二风险投资知识数据,包括:
通过对已标注好的非结构化的风险投资新闻文本数据训练获得的BiLSTM-CRF深度学习模型,从所述风险投资新闻文本数据中抽取出与风险投资相关的实体信息;
合并所述第一风险投资知识数据和所述实体信息得到第一风险投资知识信息;
从所述第一风险投资知识信息中抽取出的投融关系对,从风险投资新闻文本数据中提取出包含投资关系对的上下文各关系表示模板;
通过对所述风险投资新闻文本数据训练获得的Doc2Vec模型,根据所述Doc2Vec模型计算所述上下文各关系表示模板的特征向量;
计算所述风险投资新闻文本数据中各语句特征向量与所述特征向量的余弦相似度,筛选大于第一预设阈值的风险投资关系相似语句;
通过所述BiLSTM-CRF深度学习模型从所述风险投资关系相似语句中抽取所述第二风险投资知识数据。


4.根据权利要求3所述的基于知识图谱的风险投资语义搜索的方法,其特征在于,S3具体包括:
S3-1:通过编辑距离算法计算所述实体信息与其他机构实体间的中最少单字符编辑操作次数与实体字符长度的比率R,以1-R的大小来度量实体间的相似程度,并设定第一相似度阈值控制第一候选相似机构实体的数量;
S3-2:通过训练模式为Skip-gram的Word2Vec算法对所述风险投资新闻文本数据训练,获得各投资实体的词向量,计算各机构实体间的相似度,并设定第二相似度阈值控制第二候选相似机构实体的数量;...

【专利技术属性】
技术研发人员:徐佳慧裴乐琪郝庆一
申请(专利权)人:徐佳慧
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1