一种信息识别方法和装置制造方法及图纸

技术编号:24939059 阅读:14 留言:0更新日期:2020-07-17 21:09
本申请实施例公开了一种信息识别方法和装置。所述方法包括:获取具有相同姓名信息的至少两个人物的常识信息;确定每个常识信息中的至少两个特征信息;对每个常识信息计算所述常识信息中每个特征信息与预先获取的文本描述信息之间的相关度,得到每个常识信息中每个特征信息对应的局部相关度信息;根据每个常识信息中每个特征信息对应的局部相关度信息,对每个常识信息的特征信息进行筛选,得到每个常识信息中目标内容;根据每个常识信息中目标内容与所述文本描述信息,确定所述至少两个人物中与所述文本描述信息匹配的人物。

【技术实现步骤摘要】
一种信息识别方法和装置
本申请实施例涉及信息处理领域,尤指一种信息识别方法和装置。
技术介绍
在利用机器学习识别信息的应用场景中,当前机器对非结构化文本中相同姓名的人物如何区分还存在较大的困难,比如仅利用搜索引擎显示的同一个人名可以有数百个;当一段文本中出现某个人的名字时,机器将难以准确地判断出此姓名信息具体所指。在相关技术中,基于机器学习的同名人物搜索方法,包括:针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档;分别提取各个相关文档中的人物关系特征信息,统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度;根据各个相关文档各自包含的人物名称以及所述关系强度,为各个相关文档建立人物关系特征向量;根据所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。在实际应用中,上述同名人物搜索方法的准确度仍需要提高。
技术实现思路
为了解决上述任一技术问题,本申请实施例提供了一种信息识别方法和装置。为了达到本申请实施例目的,本申请实施例提供了一种信息识别方法,包括:获取具有相同姓名信息的至少两个人物的常识信息;确定每个常识信息中的至少两个特征信息;对每个常识信息计算所述常识信息中每个特征信息与预先获取的文本描述信息之间的相关度,得到每个常识信息中每个特征信息对应的局部相关度信息;根据每个常识信息中每个特征信息对应的局部相关度信息,对每个常识信息的特征信息进行筛选,得到每个常识信息中目标内容;根据每个常识信息中目标内容与所述文本描述信息,确定所述至少两个人物中与所述文本描述信息匹配的人物。一种信息识别装置,包括:获取模块,用于获取具有相同姓名信息的至少两个人物的常识信息;第一确定模块,用于从每个常识信息中确定至少两个特征信息;计算模块,用于对每个常识信息计算所述常识信息中每个特征信息与预先获取的文本描述信息之间的相关度,得到每个常识信息中每个特征信息对应的局部相关度信息;筛选模块,用于根据每个常识信息中每个特征信息对应的局部相关度信息,对每个常识信息的特征信息进行筛选,得到每个常识信息中目标内容;第二确定模块,用于根据每个常识信息中目标内容与所述文本描述信息,确定所述至少两个人物中与所述文本描述信息匹配的人物。一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上文所述的方法。一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文所述的方法。上述技术方案中的一个技术方案具有如下优点或有益效果:通过获取具有相同姓名信息的至少两个人物的常识信息,确定每个常识信息中的至少两个特征信息,再对每个常识信息计算所述常识信息中每个特征信息与预先获取的文本描述信息之间的相关度,得到每个常识信息中每个特征信息对应的局部相关度信息,并根据每个常识信息中每个特征信息对应的局部相关度信息,对每个常识信息的特征信息进行筛选,得到每个常识信息中目标内容,根据每个常识信息中目标内容与所述文本描述信息,确定所述至少两个人物中与所述文本描述信息匹配的人物,实现从局部到整体的推理思想,达到提供可解释性的解决方案的目的,通过确定常识信息中的内容对同名人物识别的相关性程度,从常识信息中筛选出目标内容,利用目标内容确定与文本描述信息匹配的人物,提高在缺失人物简历信息时的识别精度和效率。本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。图1为本申请实施例提供的信息识别方法的流程图;图2为本申请实施例提供的信息识别方法的示意图;图3为本申请实施例提供的局部相关度模型的示意图;图4为本申请实施例提供的多级聚合模型的示意图;图5为本申请实施例提供的信息识别装置的结构图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。在实现本申请过程中,专利技术人发现,相关技术中识别准确率低的原因在于,在识别过程中所使用的无监督聚类方法只能够聚类成指定数量的类,但却不能够说明每一个类具体所指,因此,在对同名识别时,不能确定每个姓名具体所指,因此,得到内容缺乏可解释性,不能够保证准确率。基于上述分析,本申请实施例通过常识推理技术,将人的常识融入到机器对文本理解的先验知识当中,将常识推理的技术应用到文本段落中同名人物的识别能够有效提高机器的理解能力,解决文本段落中同名人物具体所指的问题。图1为本申请实施例提供的信息识别方法的流程图。如图1所示,所述方法包括:步骤101、获取具有相同姓名信息的至少两个人物的常识信息;在一个示例性实施例中,将百科人物知识中的人物概括和基本信息作为理解基础,即所具备的常识信息,其中常识信息的获取可以从互联网上搜索的人物百科知识中获取。在一个示例性实施例中,常识信息可以为人物的户籍信息、年龄信息、人物生平信息、亲属信息中的至少一个。以人物的名称为张三为例,人物百科知识中记录有姓名为张三的多个常识信息,可以包括:户籍所在地为A省从事医生职业的张三;户籍所在地为B省C市的从事教师职业的张三;年龄为28岁的从事演员行业并参演两部电视剧的张三。步骤102、确定每个常识信息中的至少两个特征信息;在一个示例性实施例中,不同常识信息中的特征的数量可以相同或者不同,特征的内容也可以不同。在一个示例性实施例中,所述确定每个常识信息中的至少两个特征信息,包括:获取每个常识信息所包含的内容;将内容符合预设相似内容的判断条件的文本作为一个文字片段,得到每个常识信息中的至少两个文本片段,将每个文本片段作为一个特征信息。以上文所列的例子为例,户籍所在地为A省从事医生职业的张三,可以得到两个特征,分别为“户籍所在地为A省”以及“从事医生职业”。所述相似内容的判断条件可以根据文本内容所表达的内容之间的上下文信息来判断。如果两个文本内容之间的上下文相关度大于预设的阈值,则表示两个文本内容的内容相似,否则,表示两个文本内容不相似。以上文所列的例子为例,“户籍所在地为B省C市”以及“从事演员行业并参演两部电视剧”,可以均作为一个特征信息。步骤103、对本文档来自技高网...

【技术保护点】
1.一种信息识别方法,包括:/n获取具有相同姓名信息的至少两个人物的常识信息;/n确定每个常识信息中的至少两个特征信息;/n对每个常识信息计算所述常识信息中每个特征信息与预先获取的文本描述信息之间的相关度,得到每个常识信息中每个特征信息对应的局部相关度信息;/n根据每个常识信息中每个特征信息对应的局部相关度信息,对每个常识信息的特征信息进行筛选,得到每个常识信息中目标内容;/n根据每个常识信息中目标内容与所述文本描述信息,确定所述至少两个人物中与所述文本描述信息匹配的人物。/n

【技术特征摘要】
1.一种信息识别方法,包括:
获取具有相同姓名信息的至少两个人物的常识信息;
确定每个常识信息中的至少两个特征信息;
对每个常识信息计算所述常识信息中每个特征信息与预先获取的文本描述信息之间的相关度,得到每个常识信息中每个特征信息对应的局部相关度信息;
根据每个常识信息中每个特征信息对应的局部相关度信息,对每个常识信息的特征信息进行筛选,得到每个常识信息中目标内容;
根据每个常识信息中目标内容与所述文本描述信息,确定所述至少两个人物中与所述文本描述信息匹配的人物。


2.根据权利要求1所述的方法,其特征在于,所述确定每个常识信息中的至少两个特征信息,包括:
获取每个常识信息所包含的内容;
将内容符合预设相似内容的判断条件的文本作为一个文字片段,得到每个常识信息中的至少两个文本片段,将每个文本片段作为一个特征信息。


3.根据权利要求1所述的方法,其特征在于,所述局部相关度信息是根据如下至少一个信息来确定,包括:
计算每个特征信息与所述文本描述信息的上下文相关性;
计算每个特征信息中每个字与所述文本特征信息中每个字的文字相关性;
确定每个特征信息与所述文本特征信息的关注度信息。


4.根据权利要求1至3任一所述的方法,其特征在于,所述每个常识信息中的目标内容是通过如下方式得到的,包括:
根据每个常识信息中每个特征信息对应的局部相关度信息,确定每个常识信息中每个特征信息的权重值;
按照每个常识信息中每个特征信息的权重值,对每个常识信息中的特征信息进行筛选,选择权重值最大的至少两个特征对应的文本片段,作为目标内容。


5.一种信息识别装置,包括:
获取模块,用于获取具有相同姓名信息的至少两个人物的常识信息;
第一确定模块,用于从每个常识信息中确定至少两个特征信息;
计算模块,用于对每个常识信息计算所述常识信息...

【专利技术属性】
技术研发人员:邓礼志
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1