资料识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号:25637848 阅读:15 留言:0更新日期:2020-09-15 21:30
本申请提供一种资料识别方法及装置、电子设备、存储介质,该方法包括:从文本中筛选出符合预设规则的句子,获得预设目标;通过命名实体识别和依存句法分析从预设目标的上下文提取预设目标的第一主语;将预设目标作为已构建的分类模型的输入,获得分类模型输出的预设目标的第二主语;根据第一主语和第二主语,得到预设目标的正确主语。从而可以从存在大量实体的文本中获取指定内容的主语,将该方法应用于观点提出者的识别时,可以提高观点提出者的识别准确率,扩展了系统功能。

【技术实现步骤摘要】
资料识别方法及装置、电子设备、存储介质
本申请涉及数据处理
,特别涉及一种资料识别方法及装置、电子设备、计算机可读存储介质。
技术介绍
观点是实体提出的对某个实体或者某个实体的属性的看法,因此属于主观内容,即便是中立的情感,也是实体通过主观的判断给出的观点。观点抽取是指从原始的新闻文本中,识别表达任务观点的句子,并从中抽取出观点要素,如观点持有者、观点评价的对象、观点发表的时间、观点提出的地点以及观点持有者对评价对象的情感态度等,也就是说需要确定一篇文档中哪些是观点、哪些实体在什么时间和地点发表了这些观点,然后再进行观点内容的挖掘。目前观点抽取主要集中在确定表达观点的实体前提下,对评论性的语言进行内容的挖掘,抽取属性(例如酒店的服务、电脑的质量)、评价词和情感极性判断。实际上这个任务是真正的观点抽取的后续任务,可见,目前主要关注的是观点内容的挖掘,无法从存在大量实体的文本中确定表达观点的实体,导致系统功能受限。
技术实现思路
本申请实施例提供了资料识别方法,用以从存在大量实体的文本中获取指定内容的主语,扩展系统功能。本申请实施例提供了一种资料识别方法,包括:从文本中筛选出符合预设规则的句子,获得预设目标;通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语;将所述预设目标作为已构建的分类模型的输入,获得所述分类模型输出的所述预设目标的第二主语;根据所述第一主语和所述第二主语,得到所述预设目标的正确主语。在一实施例中,所述预设目标为观点,所述从文本中筛选出符合预设规则的句子,获得预设目标,包括:按照表达观点的标准句式,从所述文本中提取与所述标准句式匹配的句子。在一实施例中,在所述按照表达观点的标准句式,从所述文本中提取与所述标准句式匹配的句子之后,所述方法还包括:根据已构建的情感词库,对所述文本中剩余的句子进行扫描,筛选出包含所述情感词库中情感词的句子。在一实施例中,所述方法还包括:通过命名实体识别和规则判断,从所述文本中筛选出所述观点的提出地点。在一实施例中,所述方法还包括:根据已构建的时间词库,从所述文本中提取所述观点的相对提出时间;根据所述文本的发布时间,对所述相对提出时间进行换算,获得所述观点的绝对提出时间。在一实施例中,在所述根据所述第一主语和所述第二主语,得到所述预设目标的正确主语之后,所述方法还包括:将所述观点和所述观点的正确主语进行关联存储。在一实施例中,在所述根据所述第一主语和所述第二主语,得到所述预设目标的正确主语之后,所述方法还包括:通过计算所述文本与不同事件的语义相似度,确定所述文本归属的目标事件;将所述观点以及所述观点的正确主语与所述目标事件关联存储。本申请实施例还提供了一种资料识别装置,包括:目标筛选模块,用于从文本中筛选出符合预设规则的句子,获得预设目标;主语分析模块,用于通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语;主语分类模块,用于将所述预设目标作为已构建的分类模型的输入,获得所述分类模型输出的所述预设目标的第二主语;主语确定模块,用于根据所述第一主语和所述第二主语,得到所述预设目标的正确主语。本申请实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述资料识别方法。本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述资料识别方法。本申请上述实施例提供的技术方案,可以从文本中筛选出符合预设规则的预设目标,并通过命名实体识别以及依存句法分析,可以从文本中确定预设目标的第一主语。由于依存句法分析可能存在错误,进而通过分类模型识别预设目标的第二主语,结合第一主语和第二主语,确定预设目标的正确主语。从而可以从存在大量实体的文本中获取指定内容的主语,将该方法应用于观点提出者的识别时,可以提高观点提出者的识别准确率,扩展了系统功能。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。图1为本申请一实施例提供的资料识别方法的应用场景示意图。图2是本申请一实施例提供的资料识别方法的流程示意图;图3是本申请另一实施例提供的资料识别方法的流程示意图;图4是本申请实施例提供的资料识别装置的框架示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。图1为本申请实施例提供的资料识别方法的应用场景示意图。如图1所示,该应用场景包括服务端110,服务端110可以采用本申请实施例提供的方法从新闻或评论性文章中获取不同观点对应的提出者。服务端110可以是服务器、服务器集群或者云计算中心。在一实施例中,该应用场景还可以包括多个客户端120,服务端110可以从多个客户端120采集新闻或评论性文章。客户端120可以是运行应用程序的个人电脑(personalcomputer,PC)、平板电脑、智能手机、个人数字助理(personaldigitalassistant,PDA)等。本申请实施例还提供了一种电子设备。该电子设备可以是图1所示的服务端110。如图1所示,服务端110可以包括处理器111;用于存储处理器111可执行指令的存储器112;其中,该处理器111被配置为执行本申请提供的资料识别方法。存储器112可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(StaticRandomAccessMemory,简称SRAM),电可擦除可编程只读存储器(ElectricallyErasableProgrammableRead-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammableReadOnlyMemory,简称EPROM),可编程只读存储器(ProgrammableRed-OnlyMemory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器111执行以完成本申请实施例提供的资料识别方法。图2是本申请实施例提供的资料识别方法的流程示意图,如图2所示,该方法包括以下步骤S210-步骤S240。步骤S210:从文本中筛选出符合预设规则的句子,获得预设本文档来自技高网...

【技术保护点】
1.一种资料识别方法,其特征在于,包括:/n从文本中筛选出符合预设规则的句子,获得预设目标;/n通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语;/n将所述预设目标作为已构建的分类模型的输入,获得所述分类模型输出的所述预设目标的第二主语;/n根据所述第一主语和所述第二主语,得到所述预设目标的正确主语。/n

【技术特征摘要】
1.一种资料识别方法,其特征在于,包括:
从文本中筛选出符合预设规则的句子,获得预设目标;
通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语;
将所述预设目标作为已构建的分类模型的输入,获得所述分类模型输出的所述预设目标的第二主语;
根据所述第一主语和所述第二主语,得到所述预设目标的正确主语。


2.根据权利要求1所述的方法,其特征在于,所述预设目标为观点,所述从文本中筛选出符合预设规则的句子,获得预设目标,包括:
按照表达观点的标准句式,从所述文本中提取与所述标准句式匹配的句子。


3.根据权利要求2所述的方法,其特征在于,在所述按照表达观点的标准句式,从所述文本中提取与所述标准句式匹配的句子之后,所述方法还包括:
根据已构建的情感词库,对所述文本中剩余的句子进行扫描,筛选出包含所述情感词库中情感词的句子。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过命名实体识别和规则判断,从所述文本中筛选出所述观点的提出地点。


5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据已构建的时间词库,从所述文本中提取所述观点的相对提出时间;
根据所述文本的发布时间,对所述相对提出时间进行换算,获得所述观点的绝对提出时间。


6.根据权利要求2所述的方...

【专利技术属性】
技术研发人员:张发恩姜勇越
申请(专利权)人:创新奇智上海科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1