基于知识图谱的对齐方法、装置及介质制造方法及图纸

技术编号:20842307 阅读:11 留言:0更新日期:2019-04-13 08:43
本公开提供了一种基于知识图谱的对齐方法,包括:获取至少两个文本,所述文本包括多个核心语义成份;根据知识图谱,确定所述至少两个文本之间的短语的第一对齐关系;根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系;存储所述至少两个文本之间的核心语义成份的第一对齐关系和第二对齐关系。本公开还提供了一种基于知识图谱的对齐装置及介质。

【技术实现步骤摘要】
基于知识图谱的对齐方法、装置及介质
本公开涉及互联网技术的领域,尤其涉及一种基于知识图谱的对齐方法、装置及介质。
技术介绍
随着互联网技术的快速发展,机器翻译越来越受人们青睐。在利用机器翻译的过程中,对齐技术是传统的机器翻译系统中最重要的一个环节,是指给定双语语料,在所有可能的对齐关系中找出概率最大的。对齐技术决定了机器翻译系统的性能。对齐技术也常用在文本的相似度计算上。目前,现有技术对两个文本进行对齐时,一般可以基于文本的长度来实现两个文本的对齐,也可以基于词典来实现两个文本的对齐,还可以基于模型对两个文本的内容进行对齐。但是,专利技术人在实现本专利技术构思的过程中,专利技术人发现现有技术至少存在以下问题:基于文本长度的对齐方式对两个文本进行对齐时,如果两个文本之间有一对短语对齐错误,那么就容易导致整个文本对齐都错误,即采用这种对齐方式容易造成错误的蔓延;基于词典的对齐方式对两个文本进行对齐时,如果文本中含有专有名词(例如,海底捞),但是词典中并没有包含这种专有名词,从而导致对齐失败或准确率降低;基于模型的对齐方式对两个文本进行对齐时,由于模型统计的数据量比较大,从而导致模型中的词不够书面化,准确性低,因此在对文本对齐时可能出现张冠李戴的情况,进而影响了对齐结果。
技术实现思路
有鉴于此,本公开提供一种基于知识图谱的对齐方法、装置及介质,进而至少部分地解决了由于相关技术的限制和缺陷而导致的一个或者多个问题。本公开一方面提供了一种基于知识图谱的对齐方法,包括:获取至少两个文本,所述文本包括核心语义成份;根据知识图谱,确定所述至少两个文本之间的核心语义成份的第一对齐关系;根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系;存储所述至少两个文本之间的核心语义成份的第一对齐关系和第二对齐关系。根据本公开的实施例,所述根据知识图谱,确定所述至少两个文本之间的核心语义成份的第一对齐关系包括:根据知识图谱,将所述至少两个文本之间具有同义关系、反义关系、同位关系、上下位关系的核心语义成份进行对齐,得到所述至少两个文本之间的核心成份的第一对齐关系。根据本公开的实施例,根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系包括:根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,将所述至少两个文本之间具有主谓关系、动宾关系、形名关系的核心语义成份进行对齐,得到所述至少两个文本之间的核心语义成份的第二对齐关系。根据本公开的实施例,所述文本还包括非核心语义成份,所述方法还包括:基于IBMmodel的统计翻译模型对所述至少两个文本之间的非核心语义成份进行对齐,得到所述至少两个文本之间的非核心语义成份的第三对应关系,所述非核心语义成份包括不具有所述第一对齐关系和不具有所述第二对齐关系的短语。本公开的另一个方面提供了一种基于知识图谱的对齐装置,包括:获取模块,用于获取至少两个文本,所述文本包括核心语义成份;第一确定模块,用于根据知识图谱,确定所述至少两个文本之间的短语的第一对齐关系;第二确定模块,用于根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系;存储模块,用于存储所述至少两个文本之间的核心语义成份的第一对齐关系和第二对齐关系。根据本公开的实施例,根据知识图谱,将所述至少两个文本之间具有同义关系、反义关系、同位关系、上下位关系的核心语义成份进行对齐,得到所述至少两个文本之间的核心语义成份的第一对齐关系。根据本公开的实施例,所述第二确定模块还用于根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,将所述至少两个文本之间具有主谓关系、动宾关系、形名关系的核心语义成份进行对齐,得到所述至少两个文本之间的核心语义成份的第二对齐关系。根据本公开的实施例,所述文本还包括非核心语义成份,所述装置还包括:对齐模块,基于IBMmodel的统计翻译模型对所述至少两个文本之间的非核心语义成份进行对齐,得到所述至少两个文本之间的非核心语义成份的第三对应关系,所述非核心语义成份包括不具有所述第一对齐关系和不具有所述第二对齐关系的短语。本公开的另一方面提供了一种基于知识图谱的对齐装置。所述装置包括一个或多个处理器,以及存储装置。所述存储装置用于存储一个或多个程序。其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的基于知识图谱的对齐方法。本公开的另一方面提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的基于知识图谱的对齐方法。本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现上述的基于知识图谱的对齐方法。根据本公开的实施例,可以至少部分地解决现有技术中存在的问题,例如,基于文本长度的对齐方式对两个文本进行对齐时,如果两个文本之间有一对短语对齐错误,那么就容易导致整个文本对齐都错误,即采用这种对齐方式容易造成错误的蔓延;基于词典的对齐方式对两个文本进行对齐时,如果文本中含有专有名词(例如,海底捞),但是词典中并没有包含这种专有名词,从而导致对齐失败或准确率降低;基于模型的对齐方式对两个文本进行对齐时,由于模型统计的数据量比较大,从而导致模型中的词不够书面化,准确性低,因此在对文本对齐时可能出现张冠李戴的情况,进而影响了对齐结果。并因此实现了通过知识图谱和预设的语法关系对两个文本之间的核心语义成份进行对齐,这样提高了两个文本之间的核心语义成份的对齐关系的准确度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明图1示意性示出了根据本公开实施例的基于知识图谱的对齐方法的流程图;图2示意性示出了根据本公开另一个实施例的基于知识图谱的对齐方法的流程图;图3示意性示出了根据本公开另一个实施例的基于知识图谱的对齐方法的流程图;图4示意性示出了根据本公开另一个实施例的基于知识图谱的对齐方法的流程图;图5示意性示出了根据本公开实施例的基于知识图谱的对齐装置的方框图;图6示意性示出了根据本公开另一实施例的基于知识图谱的对齐装置的方框图;图7示意性示出了根据本公开实施例的基于知识图谱的对齐装置的计算机系统的方框图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的对齐方法,包括:获取至少两个文本,所述文本包括核心语义成份;根据知识图谱,确定所述至少两个文本之间的核心语义成份的第一对齐关系;根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系;存储所述至少两个文本之间的核心语义成份的第一对齐关系和第二对齐关系。

【技术特征摘要】
1.一种基于知识图谱的对齐方法,包括:获取至少两个文本,所述文本包括核心语义成份;根据知识图谱,确定所述至少两个文本之间的核心语义成份的第一对齐关系;根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系;存储所述至少两个文本之间的核心语义成份的第一对齐关系和第二对齐关系。2.根据权利要求1所述的方法,其特征在于,所述根据知识图谱,确定所述至少两个文本之间的核心语义成份的第一对齐关系包括:根据知识图谱,将所述至少两个文本之间具有同义关系、反义关系、同位关系、上下位关系的核心语义成份进行对齐,得到所述至少两个文本之间的核心成份的第一对齐关系。3.根据权利要求1所述的方法,其特征在于,根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,确定所述至少两个文本之间的核心语义成份的第二对齐关系包括:根据所述至少两个文本之间的核心语义成份的第一对齐关系和预设的语法关系,将所述至少两个文本之间具有主谓关系、动宾关系、形名关系的核心语义成份进行对齐,得到所述至少两个文本之间的核心语义成份的第二对齐关系。4.根据权利要求1所述的方法,其特征在于,所述文本还包括非核心语义成份,所述方法还包括:基于IBMmodel的统计翻译模型对所述至少两个文本之间的非核心语义成份进行对齐,得到所述至少两个文本之间的非核心语义成份的第三对应关系,所述非核心语义成份包括不具有所述第一对齐关系和不具有所述第二对齐关系的短语。5.一种基于知识图谱的对齐装置,包括:获取模块,用于获取至少两个文本,所述文本包括核心语义成份;第一确定模块,用于根据知识...

【专利技术属性】
技术研发人员:刘学梁刘旭王琛季思伟
申请(专利权)人:金色熊猫有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1