语义关系的识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:28978658 阅读:12 留言:0更新日期:2021-06-23 09:24
本申请实施例提供了一种语义关系的识别方法、装置、电子设备及可读存储介质,涉及大数据以及云技术领域。该方法包括:获取待处理文本;对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列;将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系;其中,类序列规则库中包括特定语义关系对应的语法关系序列规则,语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。在本申请实施例中,由于语法关系序列规则是对进行语法关系的类序列规则挖掘得到的,此时不依赖于规则和制定模式,提高了模型识别语义关系的泛化能力,具备良好的可操作性。

【技术实现步骤摘要】
语义关系的识别方法、装置、电子设备及可读存储介质
本申请涉及大数据以及云技术的
,具体而言,本申请涉及一种语义关系的识别方法、装置、电子设备及可读存储介质。
技术介绍
随着语言的发展和互联网用语的不断变化衍生,特定语义关系识别对于自然语言理解是个重要的任务,包括知识图谱构建、领域知识库构建、关系链识别、词条标签自动化构建等在内的诸多应用场景都离不开特定语义关系识别。特定语义关系包括上下义关系、总分关系、同义关系、反义关系等,以及从其他逻辑关系定义中的种属关系、组成关系等,涵盖访问很广。目前在进行语义关系识别时,主要采用的方式为基于模式匹配的语义关系识别方法和基于机器学习或深度学习的语义关系识别方法。但是经研究发现,基于模式匹配的语义关系识别方法只能够抽取具有人工指定规则的显示关系,而许多的语义关系隐含模式是灵活变化的,该方法极大降低了关系抽取的覆盖率,同时规则扩展要依赖专家和先验知识库,提高了人力成本和耗时,线上更新不够及时;而基于机器学习的方法主要依赖于特征工程,特征工程往往要进行繁琐的特征选择和特征提取,计算开销大且容易存在错误传播的问题。因此,如何快速有效的进行语义关系识别是一个需要解决的重要问题。
技术实现思路
本申请实施例提供一种语义关系的识别方法、装置、电子设备及可读存储介质,能够快速有效的进行语义关系识别。一方面,本申请实施例提供了一种语义关系的识别方法,该方法包括:获取待处理文本;对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列;将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系;其中,类序列规则库中包括特定语义关系对应的语法关系序列规则,语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。另一方面,本申请实施例提供了一种语义关系的识别装置,包括:文本获取模块,用于获取待处理文本;文本分析模块,用于对待处理文本进行上下文分析,得到待处理文本中包含的语法关系序列;语法关系匹配模块,用于将语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定待处理文本是否包含特定语义关系;其中,类序列规则库中包括特定语义关系对应的语法关系序列规则,语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。再一方面,本申请实施例提供了一种电子设备,该电子设备包括处理器以及存储器:存储器被配置用于存储计算机程序,该计算机程序在由处理器执行时,使得处理器执行本申请任一方面所提供的方法。又一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机可以执行本申请任一方面所提供的方法。本申请实施例提供的技术方案带来的有益效果是:在本申请实施例中,可以通过待处理文本包含的语法关系序列与特定语义关系的类序列规则库进行匹配,然后基于匹配结果,确定待处理文本是否包含特定语义关系。在此过程中,由于语法关系序列规则是通过对包含特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的,此时不依赖于规则和制定模式,能够随着样本文本的变化而变化,提高了模型识别语义关系的泛化能力,且挖掘得到的类序列规则泛化性能较好,可以有效的减少人力维护规则的成本,并且不需要神经网络模型等复杂网络训练也能够高效且灵活地识别出特定语义关系,具备良好的可操作性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。图1为本申请实施例提供的一种语义关系的识别方法的流程示意图;图2为本申请实施例提供的一种句法依存关系标注的示意图;图3为本申请实施例提供的另一种语义关系的识别方法示意图;图4a为本申请实施例提供的一种语义依存关系标注的示意图;图4b为本申请实施例提供的再一种语义依存关系标注的示意图;图4c为本申请实施例提供的又一种语义依存关系标注的示意图;图4d为本申请实施例提供的另一种语义依存关系标注的示意图;图5为本申请实施例提供的一种语义关系的识别装置的结构示意图;图6为本申请实施例提供的一种电子设备的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本申请实施例提供一种语义关系的识别方法、装置、电子设备及可读存储介质,该方法中所涉及到的数据处理/计算可以基于云计算(cloudcomputing)的方式进行处理。其中,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(InfrastructureasaService,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS(InfrastructureasaService,基础设施即服务)层上可以部署PaaS(PlatformasaService,平台即服务)层,PaaS层之上再部署SaaS(SoftwareasaService,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。可选的,本申请实施例中所涉及到的数据可以为大数据,而大数据(Bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流本文档来自技高网
...

【技术保护点】
1.一种语义关系的识别方法,其特征在于,包括:/n获取待处理文本;/n对所述待处理文本进行上下文分析,得到所述待处理文本中包含的语法关系序列;/n将所述语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定所述待处理文本是否包含所述特定语义关系;/n其中,所述类序列规则库中包括所述特定语义关系对应的语法关系序列规则,所述语法关系序列规则是通过对包含所述特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。/n

【技术特征摘要】
1.一种语义关系的识别方法,其特征在于,包括:
获取待处理文本;
对所述待处理文本进行上下文分析,得到所述待处理文本中包含的语法关系序列;
将所述语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定所述待处理文本是否包含所述特定语义关系;
其中,所述类序列规则库中包括所述特定语义关系对应的语法关系序列规则,所述语法关系序列规则是通过对包含所述特定语义关系的多个样本文本进行语法关系的类序列规则挖掘得到的。


2.根据权利要求1所述方法,其特征在于,所述类序列规则库中包括词性关系序列规则、句法关系序列规则或语义关系序列规则中的至少一种,所述语法关系序列包括所述词性关系序列、句法关系序列或语义关系序列中的至少一种;
所述对所述待处理文本进行上下文分析,得到所述待处理文本中包含的语法关系序列,包括以下至少一项:
对所述待处理文本进行分词,对得到的分词结果中的各词进行词性标注,并基于所述各词的上下文关系,得到所述待处理文本对应的词性关系序列;
对所述待处理文本进行句法依存分析,得到所述待处理文本对应的句法关系序列;
对所述待处理文本进行语义依存分析,得到所述待处理文本对应的语义关系序列。


3.根据权利要求2所述方法,其特征在于,所述将所述语法关系序列与特定语义关系的类序列规则库进行匹配,基于匹配结果,确定所述待处理文本是否包含所述特定语义关系,包括:
将所述语法关系序列中的各序列与所述类序列规则库中对应的语法关系序列规则分别进行匹配,若所述语法关系序列中至少一种序列与所述类序列规则库相对应的语法关系序列规则匹配,则确定所述待处理文本含所述特定语义关系。


4.根据权利要求3所述方法,其特征在于,对于所述类序列规则库中的任一语法关系序列规则,若所述语法关系序列规则包括至少两个规则,所述将所述语法关系序列中的各序列与所述类序列规则库中对应的语法关系序列规则分别进行匹配,包括:
对于包含至少两个规则的所述语法关系序列规则,将所述语法关系序列中该语法关系序列规则对应的序列分别与所述至少两个规则进行匹配,若该序列与所述至少两个规则中的任一规则匹配,则确定该序列与该语法关系序列规则匹配。


5.根据权利要求1至4中任一项所述方法,其特征在于,所述语法关系序列规则所包含的每个规则还带有标注信息,对于任一规则,所述标注信息表征了所述特定语义关系在该规则中对应的位置信息;
所述方法还包括:
若确定所述待处理文本中包含所述特定语义关系,根据所述语法关系序列规则中与所述语法关系序列相匹配的规则中的标注信息,...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1