基于语法模式的科技词表扩充方法、装置、终端、及介质制造方法及图纸

技术编号:23085132 阅读:21 留言:0更新日期:2020-01-11 01:10
本申请提供基于语法模式的科技词表扩充方法、装置、终端、及介质,其中的科技词表扩充方法包括:基于语法模式从一或多份文本中抽取多个实体关系;以扩充前的原科技词表中的一或多个词汇为搜索内容,在所抽取的多个实体关系中确定关联于每个所述搜索内容的一或多个实体关系;基于所述关联于每个所述搜索内容的实体关系对所述原科技词表进行扩充,以形成相较于所述原科技词表具有更大的词汇层级体系的新科技词表。本申请的技术方案旨在提供一种基于语法模式的词表自动扩充方案,能够对STKOS词表进行高效且智能的词表扩充,紧跟科技发展的步伐,从而有效解决现有技术中的难题。

The method, device, terminal and medium of expanding Thesaurus of science and technology based on grammar mode

【技术实现步骤摘要】
基于语法模式的科技词表扩充方法、装置、终端、及介质
本申请涉及科技词表
,特别是涉及基于语法模式的科技词表扩充方法、装置、终端、及介质。
技术介绍
STKOS词表是一种基于国际先进知识组织技术和方法,并借鉴国内外已有的知识组织系统建设经验所建成的面向计算机应用的超级科技词表。STKOS词表有利于更好地开发利用科技文献、专利等资源,对于国家信息产业提升、文献共享等多方面有重要信息。但是,STKOS词表的扩充并没有紧跟科技发展步伐,尚存在新词更新不及时、更新方法费时、人力投入多等情况。因此,如何对STKOS词表进行高效且智能地扩充成为了本领域亟需解决的一项技术难题。申请内容鉴于以上所述现有技术的缺点,本申请的目的在于提供基于语法模式的科技词表扩充方法、装置、终端、及介质,用于解决现有技术中的STKOS词表不能进行高效且智能的词表扩充的技术问题。为实现上述目的及其他相关目的,本申请的第一方面提供一种基于语法模式的科技词表扩充方法,其包括:基于语法模式从一或多份文本中抽取多个实体关系;以扩充前的原科技词表中的一或多个词汇为搜索内容,在所抽取的多个实体关系中确定关联于每个所述搜索内容的一或多个实体关系;基于所述关联于每个所述搜索内容的实体关系对所述原科技词表进行扩充,以形成相较于所述原科技词表具有更大的词汇层级体系的新科技词表。于本申请的第一方面的一些实施例中,所述方法还包括:根据实体关系在大规模语料中出现的频次,确定所述新科技词表中提取错误的实体关系,以供修正。于本申请的第一方面的一些实施例中,所述方法还包括:若一上位实体所对应的多个下位实体中的任意两个下位实体与该上位实体所分别构成的第一实体关系和第二实体关系在大规模语料中出现的频次,均高于所述任意两个下位实体所构成的第三实体关系在所述大规模语料中出现的频次,则确定所述第三实体关系是抽取错误的实体关系。于本申请的第一方面的一些实施例中,所述方法包括:若一实体关系中的实体可分割为两个及以上的独立词语,则判断所述两个及以上的独立词语一同出现的频次是否大于预设阈值;若大于预设阈值,则确定所述两个及以上的独立词语隶属于同一实体。于本申请的第一方面的一些实施例中,所述方法包括:若一实体关系中的实体能分割为两个及以上的独立词语,则判断各个独立词语单独出现的频次是否大于一同出现的频次;若是,则确定该独立词语不属于该实体。于本申请的第一方面的一些实施例中,所述科技词表包括STKOS词表。于本申请的第一方面的一些实施例中,所述实体关系中的实体具有隶属关系。为实现上述目的及其他相关目的,本申请的第二方面提供一种基于语法模式的科技词表扩充装置,其包括:实体关系抽取模块,用于基于语法模式从一或多份文本中抽取多个实体关系;词表扩充模块,用于以扩充前的原科技词表中的一或多个词汇为搜索内容,在所抽取的多个实体关系中确定关联于每个所述搜索内容的一或多个实体关,并用于基于所述关联于每个所述搜索内容的实体关系对所述原科技词表进行扩充,以形成相较于所述原科技词表具有更大的词汇层级体系的新科技词表。为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于语法模式的科技词表扩充方法。为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述基于语法模式的科技词表扩充方法。如上所述,本申请的基于语法模式的科技词表扩充方法、装置、终端、及介质,具有以下有益效果:本申请的技术方案旨在提供一种基于语法模式的词表自动扩充方案,能够对STKOS词表进行高效且智能的词表扩充,紧跟科技发展的步伐,从而有效解决现有技术中的难题。附图说明图1显示为本申请一实施例中的基于语法模式的科技词表扩充方法的流程示意图。图2显示为本申请一实施例中的基于语法模式的科技词表扩充方法的流程示意图。图3显示为本申请一实施例中的基于语法模式的科技词表扩充方法的流程示意图。图4显示为本申请一实施例中的基于语法模式的科技词表扩充方法的流程示意图。图5显示为本申请一实施例中的基于语法模式的科技词表扩充方法的流程示意图。图6显示为本申请一实施例中的基于语法模式的科技词表扩充装置的结构示意图。图7显示为本申请一实施例中电子终端的结构示意图。具体实施方式以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。针对现有技术中的STKOS词表的扩充并没有紧跟科技发展步伐,尚存在新词更新不及时、更新方法费时、人力投入多等技术问题,本专利技术提供基于语法模式的科技词表扩充方法、装置、终端、及介质,来有效解决现有技术中的这些问题。本专利技术的技术方案旨在提供一种基于语法模式的词表自动扩充方案,从而对STKOS词表进本文档来自技高网...

【技术保护点】
1.一种基于语法模式的科技词表扩充方法,其特征在于,包括:/n基于语法模式从一或多份文本中抽取多个实体关系;/n以扩充前的原科技词表中的一或多个词汇为搜索内容,在所抽取的多个实体关系中确定关联于每个所述搜索内容的一或多个实体关系;/n基于所述关联于每个所述搜索内容的实体关系对所述原科技词表进行扩充,以形成相较于所述原科技词表具有更大的词汇层级体系的新科技词表。/n

【技术特征摘要】
1.一种基于语法模式的科技词表扩充方法,其特征在于,包括:
基于语法模式从一或多份文本中抽取多个实体关系;
以扩充前的原科技词表中的一或多个词汇为搜索内容,在所抽取的多个实体关系中确定关联于每个所述搜索内容的一或多个实体关系;
基于所述关联于每个所述搜索内容的实体关系对所述原科技词表进行扩充,以形成相较于所述原科技词表具有更大的词汇层级体系的新科技词表。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据实体关系在大规模语料中出现的频次,确定所述新科技词表中提取错误的实体关系,以供修正。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若一上位实体所对应的多个下位实体中的任意两个下位实体与该上位实体所分别构成的第一实体关系和第二实体关系在大规模语料中出现的频次,均高于所述任意两个下位实体所构成的第三实体关系在所述大规模语料中出现的频次,则确定所述第三实体关系是抽取错误的实体关系。


4.根据权利要求2所述的方法,其特征在于,所述方法包括:
若一实体关系中的实体可分割为两个及以上的独立词语,则判断所述两个及以上的独立词语一同出现的频次是否大于预设阈值;
若大于预设阈值,则确定所述两个及以上的独立词语隶属于同一实体。


5.根据权利要求2所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:田欣朱悦翁泉飞胡寅骏杨磊
申请(专利权)人:上海科技发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1