【技术实现步骤摘要】
一种概念词语确定方法、装置、电子设备及存储介质
[0001]本公开涉及数据处理
,尤其涉及一种概念词语确定方法、装置、电子设备及存储介质。
技术介绍
[0002]知识图谱是结构化的语义知识库,用于描述物理世界中的概念及其相互关系。知识图谱中主要包含有三种节点:实体、概念、属性。其中,概念指的是具有同种特性的实体构成的集合,如电脑、牛奶等。
[0003]现有技术中,经常需要从各个知识文本中抽取概念。电子设备可以根据预设词表对待提取文本进行术语抽取,得到该待提取文本包含的概念。或者,电子设备可以根据预设的知识图谱对待提取文本进行实体链接,得到该待提取文本包含的概念。
[0004]但是,现有技术中从知识文本中获取概念依赖于已有的概念词语集合,无法从知识文本中识别出新的概念词语,且当已有的概念词语集合不完善时,会导致从知识文本中识别出的概念的数量较少,从而导致概念的识别率较低。
技术实现思路
[0005]本公开提供一种概念词语确定方法、装置、电子设备及存储介质,解决了概念的识别率较低的问题。r/>[0006]本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种概念词语确定方法,其特征在于,包括:获取待处理知识文本;采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,所述目标句子为包含概念词语的概率满足预设规则的句子;对所述目标句子进行全切分处理,得到词语集合;根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合。2.根据权利要求1所述的概念词语确定方法,其特征在于,所述数据处理模型包括第一处理模型,所述待处理知识文本包括至少一个段落,每个段落包括至少一个句子;所述采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,包括:采用所述第一处理模型对所述至少一个段落进行处理,得到每个段落包含概念词语的概率;将所述至少一个段落中,段落包含概念词语的概率大于第一预设值的段落确定为目标段落;根据所述目标段落确定所述目标句子。3.根据权利要求2所述的概念词语确定方法,其特征在于,所述根据所述目标段落确定所述目标句子,包括:将每个所述目标段落包括的句子确定为所述目标句子;或者,所述数据处理模型还包括第二处理模型,采用所述第二处理模型对所述目标段落中的句子进行处理,得到所述目标段落中的每个句子包含概念词语的概率;将所述目标段落的句子中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。4.根据权利要求1所述的概念词语确定方法,其特征在于,所述采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,包括:采用所述数据处理模型对所述待处理知识文本中的每个句子进行处理,得到每个句子包含概念词语的概率;将所述待处理知识文本中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。5.根据权利要求1
‑
4中任一项所述的概念词语确定方法,其特征在于,所述根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合,包括:...
【专利技术属性】
技术研发人员:梅立军,林闯,付瑞吉,李月雷,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。