信息抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28295628 阅读:13 留言:0更新日期:2021-04-30 16:19
本申请公开了一种信息抽取方法、装置、电子设备及存储介质。其中,所述方法包括:从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。

【技术实现步骤摘要】
信息抽取方法、装置、电子设备及存储介质
本申请涉及数据
,尤其涉及一种信息抽取方法、装置、电子设备及存储介质。
技术介绍
相关技术中,需要从用户发表的评论或者用于表达观点的文字中提取观点进行数据分析,在提取观点的时候可以通过数据模型、序列标注或者根据词性结果抽取相应的信息,但是需要耗费大量的资源,并且复杂度高,降低了信息抽取的准确率。
技术实现思路
有鉴于此,本申请实施例提供一种信息抽取方法、装置、电子设备及存储介质,以至少解决相关技术在进行信息抽取过程中需要耗费大量的资源、准确率低的问题。本申请实施例的技术方案是这样实现的:本申请实施例提供了一种信息抽取方法,包括:从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。上述方案中,通过以下方式生成设定数据库:基于至少一个第二文本,确定第一集合;所述第二文本为文本样本;所述第一集合为由所述至少一个第二文本中的所有评价对象和所有评价词语组成的集合;对所述第一集合中的每个词语添加第一信息;所述第一信息用于表征词语的词语类型;所述词语类型包括评价对象或评价词语;基于第一集合中每个词语的第一信息,确定第一集合中每个第二词语组合对应的匹配概率;所述第二词语组合由所述第一集合中的一个评价对象和一个评价词语组成。上述方案中,所述设定数据库以哈希存储的方式将评价对象与评价词语的匹配概率进行存储。上述方案中,所述从第一文本中提取第一词语组合,包括:确定所述第一文本中的所述第一词语;基于所述第一词语在所述第一文本中的位置,在设定长度的滑动窗口内确定与所述第一词语对应的第二词语。上述方案中,所述确定所述第一文本中的所述第一词语,包括:根据所述设定数据库存储的评价对象,将所述第一文本中词语类型为评价对象的词语确定为所述第一词语;所述在设定的滑动窗口内确定与所述第一词语对应的第二词语,包括:根据所述设定数据库存储的评价词语,将所述设定的滑动窗口内词语类型为评价词语的词语确定为所述第二词语。上述方案中,所述设定数据库还包括评价对象的第二信息与评价词语的第二信息,所述第二信息用于表征对应的词语能否独立表达评价观点;所述方法还包括:在所述至少一个第一词语组合中不存在第一词语组合对应的第一概率大于或等于设定阈值时,根据所述设定数据库的第二信息,将所述至少一个第一词语组合中符合设定条件的第一词语或第二词语确定为所述第一文本的信息抽取结果;所述第一设定条件表征词语能独立表达评价观点。上述方案中,所述方法还包括:在所述至少一个第一词语组合中每个第一词语组合的第一词语或第二词语均不符合所述设定条件的情况下,根据所述设定数据库存储的评价词语,将所述第一文本中词语类型为评价词语的词语确定为第三词语;根据所述设定数据库的第二信息,将符合所述设定条件的第三词语确定为所述第一文本的信息抽取结果。本申请实施例还提供了一种信息抽取装置,包括:第一提取单元,从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;第一确定单元,用于根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;第二提取单元,用于将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。本申请实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。在本专利技术实施例中,从第一文本中提取至少一个第一词语组合,第一词语组合由第一词语与第二词语组成,第一词语表征第一文本中的评价对象,第二词语表征评价第一词语的评价词语,根据设定数据库确定至少一个第一词语组合中每个第一词语组合对应的第一概率,设定数据库用于存储评价对象与评价词语的匹配概率,第一概率表征第一词语与第二词语的匹配概率,将至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为第一文本的信息抽取结果,信息抽取结果表征第一文本的评价观点,能够根据构建的设定数据库,利用匹配概率的统计意义,提取待处理文本中的有效观点,避免使用复杂的算法进行信息的抽取,从而能够提高信息抽取的效率以及提高信息抽取的准确性。附图说明图1为本专利技术一实施例提供的信息抽取方法的实现流程示意图;图2为本专利技术又一实施例提供的信息抽取方法的实现流程示意图;图3为本专利技术又一实施例提供的信息抽取方法的实现流程示意图;图4为本专利技术又一实施例提供的信息抽取方法的实现流程示意图;图5为本专利技术一应用实施例提供的信息抽取方法的流程示意图;图6为本专利技术一实施例提供的信息抽取装置的结构示意图;图7为本专利技术一实施例提供的电子设备的硬件组成结构示意图。具体实施方式下面结合附图及具体实施例对本申请作进一步详细的说明。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置以及方法的详细说明,以免不必要的细节妨碍本申请的描述。需要说明的是,本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本申请实施例提供了一种信息抽取方法,图1为本申请实施例的信息抽取方法的一种流程示意图。如图1所示,所述方法包括:S101:从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语。这里,从第一文本提取至少一个第一词语组合,其中,第一文本可以为需要进行信息抽取的待处理文本,每一本文档来自技高网...

【技术保护点】
1.一种信息抽取方法,其特征在于,包括:/n从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;/n根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;/n将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。/n

【技术特征摘要】
1.一种信息抽取方法,其特征在于,包括:
从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;
根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;
将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。


2.根据权利要求1所述的信息抽取方法,其特征在于,通过以下方式生成设定数据库:
基于至少一个第二文本,确定第一集合;所述第二文本为文本样本;所述第一集合为由所述至少一个第二文本中的所有评价对象和所有评价词语组成的集合;
对所述第一集合中的每个词语添加第一信息;所述第一信息用于表征词语的词语类型;所述词语类型包括评价对象或评价词语;
基于第一集合中每个词语的第一信息,确定第一集合中每个第二词语组合对应的匹配概率;所述第二词语组合由所述第一集合中的一个评价对象和一个评价词语组成。


3.根据权利要求1所述的信息抽取方法,其特征在于,所述设定数据库以哈希存储的方式将评价对象与评价词语的匹配概率进行存储。


4.根据权利要求1所述的信息抽取方法,其特征在于,所述从第一文本中提取第一词语组合,包括:
确定所述第一文本中的所述第一词语;
基于所述第一词语在所述第一文本中的位置,在设定长度的滑动窗口内确定与所述第一词语对应的第二词语。


5.根据权利要求4所述的信息抽取方法,其特征在于,所述确定所述第一文本中的所述第一词语,包括:
根据所述设定数据库存储的评价对象,将所述第一文本中词语类型为评价对象的词语确定为所述第一词语;
所述在设定的滑动窗口内确定与所述第一词语对应的第二词语,包括:
根据所述设定数据库存储的评价词语,将所述设定的滑动窗口内词语类型为评价词...

【专利技术属性】
技术研发人员:林静琼张晓敏
申请(专利权)人:深圳市欢太科技有限公司OPPO广东移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1