The application relates to a method for constructing domain knowledge base, a device, a computer device and a storage medium. The method includes: acquiring the domain core words in the current domain to be constructed; acquiring the corresponding text to be processed according to the domain core words; splitting the processed text to get the corresponding sentence to be analyzed; dividing the analyzed sentence to get more than one word to be analyzed; and getting more than one word to be analyzed according to the preset rules. The target-centered words are acquired in the language, and the target-centered words, domain-centered words and target-syntactic structures are obtained by analyzing the syntactic structure of the sentences to be analyzed. This method can improve the accuracy of knowledge extraction.
【技术实现步骤摘要】
领域知识库构建方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种领域知识库构建方法、装置、计算机设备和存储介质。
技术介绍
随着互联网技术的发展,出现了领域知识库这个概念,领域知识库是领域内所包括的概念以及概念间的关系的集合,其中概念是其所属领域的知识,可以通过领域内的词条来知识,概念间的关系是概念间的相似程度,可以通过数值来表示。如对于金融领域的领域知识库来说,金融、经济学和流通等词条可以作为其所属领域的领域知识库中的概念,随着信息的发展,领域知识库可以使知识信息化和有序化,且利用知识的共享和交流。然而,目前的领域知识库的知识抽取通常采用机器学习或者是语言分析,其中基于机器学习的知识抽取主要是基于人工标注数据训练出来的分类模型并设置阈值来做信息标注判断,而基于语言分析的知识抽取主要是基于语言理论细分语言单元,并对语言单元做性质或属性分类从而达到知识抽取。但是由于知识抽取两大分支本身发展的局限性,造成识别出的领域知识的准确性低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高知识抽取的准确性的领域知识库构建方法、装置、计算机设备 ...
【技术保护点】
1.一种领域知识库构建方法,所述方法包括:获取当前待构建领域中的领域核心词语;根据所述领域核心词语获取对应的待处理文本;对所述待处理文本进行拆分,得到对应的待分析语句;对所述待分析语句进行分割,得到多个待分析词语;根据预设规则从所述多个待分析词语中获取目标中心词语;对所述待分析语句进行句法结构分析,得到与所述待分析语句对应的目标句法结构;将所述目标中心词语、所述领域核心词语和所述目标句法结构建立关系,将所述关系存储入与待构建领域对应的领域知识库中。
【技术特征摘要】
1.一种领域知识库构建方法,所述方法包括:获取当前待构建领域中的领域核心词语;根据所述领域核心词语获取对应的待处理文本;对所述待处理文本进行拆分,得到对应的待分析语句;对所述待分析语句进行分割,得到多个待分析词语;根据预设规则从所述多个待分析词语中获取目标中心词语;对所述待分析语句进行句法结构分析,得到与所述待分析语句对应的目标句法结构;将所述目标中心词语、所述领域核心词语和所述目标句法结构建立关系,将所述关系存储入与待构建领域对应的领域知识库中。2.根据权利要求1所述的方法,其特征在于,所述根据所述领域核心词语获取对应的待处理文本,包括:获取当前待构建领域中的各个领域核心词语和各个所述领域核心词语对应的多个领域词语;根据各个所述领域核心词语和所述多个领域词语生成对应的文本;对所述文本进行分词,得到多个分词结果;将所述分词结果作为词向量模型的训练数据,对所述词向量模型进行训练得到已训练的词向量模型;获取所述已训练的词向量模型的模型向量数据;从所述模型向量数据中获取与各个所述领域核心词语和各个所述领域词语对应的领域核心词语向量和所述领域词语向量;根据各个所述领域核心词语向量和各个所述领域词语向量计算得到对应的相似度集合;从所述相似度集合中选取目标相似度,根据所述目标相似度获取对应的待处理文本。3.根据权利要求2所述的方法,其特征在于,所述根据各个所述领域核心词语和所述多个领域词语生成对应的文本之后,还包括:获取所述多个领域词语对应的链接地址;检测所述链接地址是否已经进行所述领域词语的提取,若是,则对所述链接地址进行提取标识;将所述链接地址、所述提取标识与所述领域核心词语建立关联关系,并将所述关联关系写入所述文本。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述目标相似度对应的所述领域核心词语向量和所述领域词语向量;获取与所述领域核心词语向量对应的目标领域核心词语和与所述领域词语向量对应的目标领域...
【专利技术属性】
技术研发人员:於跃,王艳飞,万周斌,朱汝锋,
申请(专利权)人:和美深圳信息技术股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。