【技术实现步骤摘要】
语义确定方法及相关设备
本专利技术涉及自然语言处理处理
,更具体地,是语义确定方法及相关设备。
技术介绍
互联网中存在大量的数据文本,如新闻、论文、微博文章等等。这些数据文本中包含有实体指称,用户在浏览数据文本时,可能想要查看这些实体指称的一些关联信息。但是,由于自然语言表达方式的多样性及歧义性,从字面含义上来看,同一实体指称可能对应多个不同含义的实体对象,不同实体对象的关联信息是不同的。例如,用户浏览一篇介绍汽车的新闻时,新闻中出现了一款名为“阳光”的汽车,但从字面含义上来看,“阳光”这一实体指称可能指自然界的太阳光,也可能指某一款具体型号的汽车。在一些应用场景中,需要对数据文本中的实体指称执行与应用场景相关的处理。因此,需要一种技术方案,来明确文本中的实体指称所指代的真实含义。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的语义确定方法。第一方面,本申请提供了一种语义确定方法,包括:获得目标文件;获得预先构 ...
【技术保护点】
1.一种语义确定方法,其特征在于,包括:/n获得目标文件;/n获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;/n使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;/n根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;/n根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。/n
【技术特征摘要】
1.一种语义确定方法,其特征在于,包括:
获得目标文件;
获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;
使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;
根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;
根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。
2.根据权利要求1所述的语义确定方法,其特征在于,根据所述目标关键词的统一资源标识符所指向的信息节点中,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息,包括:
若目标关键词的统一资源标识符为多个,则依据每个统一资源标识符所对应的信息节点的语义信息,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符;
若确定出,则将所述目标统一资源标识符所对应的信息节点确定为目标关键词对应的目标节点,所述目标统一资源标识符所对应的信息节点中的信息为所述目标节点包含的信息。
3.根据权利要求2所述的语义确定方法,其特征在于,还包括:
若目标关键词的统一资源标识符为一个,则将所述统一资源标识符确定为目标统一资源标识符,并将所述目标统一资源标识符所对应的信息节点确定为目标关键词对应的目标节点,所述目标统一资源标识符所对应的信息节点中的信息为所述目标节点包含的信息。
4.根据权利要求2所述的语义确定方法,其特征在于,所述依据每个统一资源标识符所对应的信息节点的语义信息,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符,包括:
确定每个所述统一资源标识符在所述知识图谱中所指向的信息节点,将所确定出的每个信息节点作为候选信息节点;
确定每个候选信息节点在所述知识图谱中具有直接语义关系的信息节点,将所确定出的信息节点作为候选信息节点的直接相关信息节点;
若某个候选信息节点的直接相关信息节点出现在所述目标关键词的预设...
【专利技术属性】
技术研发人员:戚成琳,徐文斌,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。