确定文本条目合理性的方法、电子设备及存储介质技术

技术编号:36271351 阅读:47 留言:0更新日期:2023-01-07 10:13
本发明专利技术实施例涉及一种确定文本条目合理性的方法、电子设备及存储介质,包括:获取待处理的文本条目;对文本条目进行解析,获取与文本条目对应的多个统计位格;根据多个统计位格,对文本条目进行解析,获取多个文本子条目;获取第一文本子条目的第一位格、第一位格信息,以及与第一文本子条目对应的第一信念值;根据第一位格,从预构建的条目数据库中查找与第一文本子条目对应的第一目标条目;当确定存在第一目标条目时,获取与第一目标条目的第一位格对应的第二位格信息,和与第一目标条目对应的第二信念值;根据第一位格的位格类型,从第一信念值、第二信念值、第一位格信息、第二位格信息中选取多个目标参数,确定第一文本子条目的合理性。目的合理性。目的合理性。

【技术实现步骤摘要】
确定文本条目合理性的方法、电子设备及存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种确定文本条目合理性的方法、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,采用计算机处理自然语言文本来抽取有价值的信息成为一个重要领域。然而,由于自然语言文本的来源、表述等问题,自然语言文本中不仅仅包括有正确、有效的信息,也可能存在大量杂乱的信息。计算机往往很难进行区分,因此提取出的信息是良莠不齐,甚至互相矛盾的。
[0003]目前解决该问题的技术主要是提前进行文本清洗,人工过滤错误的信息再交给计算机处理。但是,由于人的知识有限、主观性较强,该方法无法排除所有错误的信息,同时工作量也较大、效率低下。另一种方案是利用神经网络完成上述工作。但是,这种方法往往需要大量的标注数据,大量数据在实际业务中很难获得,同时也需要大量人工标注。即使准备好了标注数据,训练神经网络模型也需要大量的算力资源,成本较高。

技术实现思路

[0004]本申请提供了一种确定文本条目合理性的方法、电子设备及存储介质,以解决现有技术中上述部分或全部的问题。
[0005]第一方面,本申请提供了一种确定文本条目合理性的方法,该方法包括:获取待处理的文本条目;对文本条目进行解析,获取与文本条目对应的多个统计位格;根据多个统计位格,对文本条目进行解析,获取与文本条目对应的多个文本子条目;获取第一文本子条目的第一位格、与第一位格对应的第一位格信息,以及获取与第一文本子条目对应的第一信念值;根据第一位格,从预构建的条目数据库中查找与第一文本子条目对应的第一目标条目;当确定存在第一目标条目时,获取与第一目标条目的第一位格对应的第二位格信息,和与第一目标条目对应的第二信念值;根据第一位格的位格类型,从第一信念值、第二信念值、第一位格信息、第二位格信息中选取多个目标参数,确定第一文本子条目的合理性,其中第一文本子条目为多个文本子条目中的任一个文本子条目。
[0006]第二方面,提供了一种确定文本条目合理性的系统,该系统包括:获取模块,用于获取待处理的文本条目;解析模块,用于对所述文本条目进行解析,获取与所述文本条目对应的多个统计位格;根据多个所述统计位格,对所述文本条目进行解析,获取与所述文本条目对应的多个
文本子条目;所述获取模块,还用于获取第一文本子条目的第一位格、与所述第一位格对应的第一位格信息,以及获取与所述第一文本子条目对应的第一信念值;查找模块,用于根据所述第一位格,从预构建的条目数据库中查找与所述第一文本子条目对应的第一目标条目;处理模块,用于当确定存在所述第一目标条目时,获取与所述第一目标条目的第一位格对应的第二位格信息,和与所述第一目标条目对应的第二信念值;根据所述第一位格的位格类型,从所述第一信念值、所述第二信念值、所述第一位格信息、所述第二位格信息中选取多个目标参数,确定所述第一文本子条目的合理性,其中所述第一文本子条目为多个所述文本子条目中的任一个文本子条目。
[0007]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例的确定文本条目合理性的方法的步骤。
[0008]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面任一项实施例的确定文本条目合理性的方法的步骤。
[0009]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,获取待处理的文本条目,对文本条目进行解析,获取与文本条目对应的多个统计位格。然后,根据多个统计位格,对文本条目进行解析,获取多个文本子条目。然后,针对每一个文本子条目,分别获取第一位格、与第一位格信息,以及第一信念值。根据第一位格,从预构建的条目数据库中选取与第一文本子条目对应的第一目标条目。当确定第一目标条目存在时,获取与第一目标条目的第一位格对应的第二位格信息,和与第一目标条目对应的第二信念值。最终根据第一位格的类型,从第一信念值、第二信念值、第一位格信息,以及第二位格信息中选取多个目标参数,进而确定该条文本子条目的合理性。通过上述方案,可以从自然语言文本中选取更加合理的文本条目,进而获取更加正确、有效的信息。该过程中,规避了人工过滤错误信息的方式所存在的知识有限、主观性强、工作量大效率低等缺陷,同时该方案也无需大量人工标注,更无需训练神经网络模型,进而节省了大量的算力资源,降低工作成本。
附图说明
[0010]图1为本专利技术实施例提供的一种确定文本条目合理性的方法流程示意图;图2为本专利技术实施例提供的另一种确定文本条目合理性的方法流程示意图;图3为本专利技术实施例提供的另一种确定文本条目合理性的方法流程示意图;图4为本专利技术实施例提供的另一种确定文本条目合理性的方法流程示意图;图5为本专利技术实施例提供的一种确定文本条目合理性的装置结构示意图;图6为本专利技术实施例提供一种电子设备结构示意图。
具体实施方式
[0011]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0012]为便于对本专利技术实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本专利技术实施例的限定。
[0013]针对
技术介绍
中所提及的技术问题,本申请实施例提供了一种确定文本条目合理性的方法,具体参见图1所示,图1为本专利技术实施例提供的一种确定文本条目合理性的方法流程示意图。
[0014]在介绍本申请实施例的方法步骤之前,首先说明一些准备工作,具体参见如下:首先为每一条文本条目设置有初始信念值。信念值代表该文本条目的可信度。文本条目例如为知识条目,或者其他条目。以下以知识条目为例进行说明。知识条目的信念值会动态变化。不同来源的知识显然具有不同的信念值。专家在其领域内说出的知识要比一般用户更具有可信度,一个经常回答正确某个领域的问题的用户比普通用户更有可能继续回答对该领域的问题
……
因此,同样的知识需要根据来源的不同设置不同的信念值,根据不同来源的置信度值来确定,例如普通用户的初始置信度为1,而专家在其擅长领域的初始置信度为4。
[0015]为了更加准确地确定用户对某条知识的置信度,需要将知识划分出领域,同时用户的置信度也要划分出领域,即一个用户有多个知晓程度(0到1之间的浮点值),分别对应多个领域。每一条待处理的知识条目都需要首先判断其所属的领域,然后查找该用户对该领域的知晓程度,如果没有找到则使用默认知晓程度例如0.5,专家的默认知晓程度为1。找到知晓程度后需要采用“信念值=置信度=4
×
知本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定文本条目合理性的方法,其特征在于,所述方法包括:获取待处理的文本条目;对所述文本条目进行解析,获取与所述文本条目对应的多个统计位格;根据多个所述统计位格,对所述文本条目进行解析,获取与所述文本条目对应的多个文本子条目;获取第一文本子条目的第一位格、与所述第一位格对应的第一位格信息,以及获取与所述第一文本子条目对应的第一信念值;根据所述第一位格,从预构建的条目数据库中查找与所述第一文本子条目对应的第一目标条目;当确定存在所述第一目标条目时,获取与所述第一目标条目的第一位格对应的第二位格信息,和与所述第一目标条目对应的第二信念值;根据所述第一位格的位格类型,从所述第一信念值、所述第二信念值、所述第一位格信息、所述第二位格信息中选取多个目标参数,确定所述第一文本子条目的合理性,其中所述第一文本子条目为多个所述文本子条目中的任一个文本子条目。2.根据权利要求1所述的方法,其特征在于,多个所述统计位格中每一个所述统计位格分别具有与之对应的优先级;所述根据多个所述统计位格,对所述文本条目进行解析,获取与所述文本条目对应的多个文本子条目,具体包括:根据每一个所述统计位格的优先级,对多个所述统计位格进行排序;按照排序顺序中排序在第i位的统计位格,在当前文本条目中剔除排序在第i位的统计位格,生成第i条文本子条目,其中,当i为1时,当前文本条目为所述文本条目,当i为大于1时,当前文本条目为所述当前文本条目为在前一个文本条目中剔除第i

1位的统计位格后,生成的第i

1条文本子条目,i为正整数;直至所述排序顺序中的最后一个统计位格在当前文本条目中剔除后,生成最后一个文本子条目后结束,获取与所述文本条目对应的多个文本子条目。3.根据权利要求1所述的方法,其特征在于,当所述第一位格的位格类型为第一预设位格类型时,所述从所述第一信念值、所述第二信念值、所述第一位格信息、所述第二位格信息中选取多个目标参数,确定所述第一文本子条目的合理性,具体包括:选取所述第一位格信息、所述第二信念值,以及所述第二位格信息作为所述目标参数;根据所述目标参数,确定所述第一文本子条目的合理性。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标参数,确定所述第一文本子条目的合理性,具体包括:当所述第二信念值小于或等于第一预设信念阈值,且所述第一位格信息与所述第二位格信息之间的差值小于或等于第一预设位格信息阈值,大于或等于第二预设位格信息阈值时,确定所述第一文本子条目合理。5.根据权利要求1所述的方法,其特征在于,当确定所述第一文本子条目不合理时,所述方法还包括:根据所述第一信念值、所述第一位格信息、所述第二信念值,以及所述第二位格信息,更新所述第一目标条目的信念值。6.根据权利要求1所述的方法,其特征在于,当所述第一位格的位格类型为第二预设位
格类型时,所述从所述第一信念值、所述第二信念值、所述第一位格信息、所述第二位格信息中选取多个目标参数,确定所述第一文本子条目的合理性,具体包括:当确定存在所述第一目标条目时,将与所述第一文本子条目对应的第一信念值加载到所述第一目标条目对应的第二信念值上;或者,当确定未存在所述第一目标条目时,将所述第一文本子条目作为所述第一目标条目,并将所述第一信念值作为所述第一目标条目对应的第二信念值;将所述第一文本子条目中的所述第一位格信息替换为预设信息后,寻找具有所述预设信息的第二目标条目,并读取所述第二目标条目的第三信念值;根据所述第一信念值和所...

【专利技术属性】
技术研发人员:钱小一刘逸川江冠斌陈美如陈浩
申请(专利权)人:杭州北冥星眸科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1