一种自然语言处理方法及装置制造方法及图纸

技术编号:18256451 阅读:48 留言:0更新日期:2018-06-20 08:15
本发明专利技术实施例公开一种自然语言处理方法,包括:获取第一分析序列,第一分析序列包括至少一个命名实体和关联词,并且至少一个命名实体与关联词之间具有第一语序,关联词为表征命名实体之间的关联关系的字词;获取标注序列,标注序列包括至少一个预设命名实体和预设关联词,并且至少一个预设命名实体与预设关联词之间具有第二语序,每个预设命名实体对应一种关联关系的角色,预设关联词为表征预设命名实体之间的关联关系的字词;比较第一语序和第二语序是否匹配,如果是,则设置第一分析序列中命名实体的角色与标注序列中对应的预设命名实体的角色相同。采用上述方法以挖掘出文本中命名实体之间的关联关系、命名实体的角色等有价值的信息。

A method and device for Natural Language Processing

An embodiment of the invention discloses a Natural Language Processing method, including: obtaining the first analysis sequence, the first analysis sequence includes at least one named entity and association word, and at least one named entity and association word has the first word order, the association word is the word that characterizing the association relationship between the named entities; The annotation sequence includes at least one presupposed named entity and presupposed association word, and at least one presupposition named entity and presupposition Association have second word order, each presupposition entity corresponds to a kind of association relationship, and the default word is the word that characterizing the association relationship between the presupposition name entities; Whether the first word order and the second word order match, if so, set the role of the named entity in the first analysis sequence and the role of the corresponding named entity in the tagged sequence. The above methods are used to extract valuable information such as the relationship between named entities in the text, and the role of the named entity.

【技术实现步骤摘要】
一种自然语言处理方法及装置
本专利技术涉及自然语言处理
,具体涉及一种自然语言处理方法及装置。
技术介绍
企业的公告、研报、新闻、裁判文书等文本中有大量涉及命名实体的文字描述,例如企业与企业之间的关系、企业与个人之间的关系、企业的内部组织架构等。对企业决策者或者管理者而言,这些信息有助于了解企业/行业动态、判断企业/行业风险,以及预测企业/行业前景。在信息爆炸的今天,要从海量且篇幅冗长的企业的公告、研报等文本中挖掘出这些有价值的信息,就需要依靠自然语言处理(naturallanguageprocessing,NLP)技术。相对于英语等外语来说,汉语没有形态变化,更多地依赖语序来表现语法或者表达不同的语义。也就是说,即使句子中的字词相同或类似,但语序不同,所表达的语义就可能存在较大差异。例如,“A公司收购B公司的股权”、“B公司收购A公司的股权”,这两个句子中的字词相同但语义完全不同,相应地,句子中所包含的企业之间的关系也不相同。在前一个句子中,A公司是收购公司,B公司是被收购公司;在后一个句子中,A公司是被收购公司,B公司是收购公司。现有的自然语言处理的方法主要通过计算文本的相似度来挖掘出文本中的信息,例如采用余弦相似度法、编辑距离算法等。但是,计算文本相似度的方法对于中文语序问题的处理能力比较弱。当面对字词相似度高但语序不同的两个汉语文本时,采用计算文本相似度的方法所计算得到两个文本的相似度很高,从而认为两个文本的语义相近,因此无法准确地挖掘出这两个文本的各自实际表达的语义,因此也无法应用于挖掘文本中命名实体之间的关系等有价值的信息上。
技术实现思路
为解决上述技术问题,本申请提供一种新的自然语言处理方法,以挖掘出文本中命名实体之间的关联关系、命名实体在关联关系中的角色等有价值的信息。第一方面,提供一种自然语言处理方法,包括:获取第一分析序列,所述第一分析序列中包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实体之间的关联关系的字词;获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字词;比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。结合第一方面,在第一方面第一种可能的实现方式中,所述第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,其中,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;所述标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,其中,所述预设关键词为在标注序列中影响所述预设命名实体的角色的字词;比较所述第一语序和所述第二语序是否匹配的步骤,具体为:比较所述第三语序和所述第四语序是否匹配。结合第一方面的第一种实现方式,在第一方面第二种可能的实现方式中,获取第一分析序列的步骤,包括:获取待分析文本;提取所述待分析文本中的命名实体;利用语言模型提取所述待分析文本中的关联词和关键词,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键词;将提取到的命名实体、关联词和关键词按照其各自在待分析文本中语序组合,得到第一分析序列。结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,所述语言模型还包括与所述关键词对应的至少一个同义词;利用语言模型提取所述待分析文本中的关联词和关键词的步骤,包括:如果所述待分析文本包括所述语言模型中的关联词,则提取所述关联词,并将与所述关联词对应的关键词组中的关键词分别与所述待分析文本匹配;如果所述待分析文本包括任一个关键词或所述关键词对应的同义词,则提取所述关键词。结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,提取所述待分析文本中的命名实体的步骤,包括:识别所述待分析文本中的预识别命名实体;如果两个预识别命名实体的位置相邻,则将两个预识别命名实体合并为一个命名实体并提取。结合第一方面及上述可能的实现方式,在第一方面第五种可能的实现方式中,提取所述待分析文本中的命名实体的步骤,包括:识别所述待分析文本中的预识别命名实体;如果一个句子中的两个预识别命名实体为并列关系,则将两个预识别命名实体和二者之间的并列连接词合并为一个命名实体。结合第一方面及上述可能的实现方式,在第一方面第六种可能的实现方式中,获取标注序列的步骤,包括:将所述第一分析序列的关联词与预设数据库中的标注序列的预设关联词进行匹配,所述预设数据库中包括至少两个标注序列,至少两个所述标注序列的预设关联词不相同;如果所述第一分析序列的关联词与标注序列的预设关联词相同,则获取所述标注序列。第二方面,提供一种自然语言处理装置,包括:获取单元,用于获取第一分析序列以及获取标注序列,其中,所述第一分析序列中包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,所述关联词为表征命名实体之间的关联关系的字词,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,所述预设关联词为表征预设命名实体之间的关联关系的字词;处理单元,用于比较所述第一语序和所述第二语序是否匹配,在所述第一语序与所述第二语序匹配的情况下设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。结合第二方面,在第二方面第一种可能的实现方式中,所述获取单元获取的第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;所述获取单元获取的标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,所述预设关键词为在标注序列中影响所述预设命名实体的角色的字词;所述处理单元具体用于比较所述第三语序和所述第四语序是否匹配。结合第二方面的第一种实现方式,在第二方面第二种可能的实现方式中,所述获取单元还用于获取待分析文本,提取所述待分析文本中的命名实体,利用语言模型提取所述待分析文本中的关联词和关键词,以及,将提取到的命名实体、关联词和关键词按照其各自在待分析文本中语序组合,得到第一分析序列,其中,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键词。本申请的自然语言处理方法,首先获取第一分析序列和标注序列,然后比对第一分析序列与标注序列的语序。在二者语序匹配的情况下,将标注序列中预设命名实体的角色赋予给第一分析序列中对应的命名实体,从而准确地挖掘出了文本中命名实体在关联关系中的角色,有助于企业决策者或者管理者等人员快速地了解企业/行业动态。同时,该自然语言处理方法不是基于固定句式来挖掘命名实体的角色,而是利用标注序列和第一分析序列来挖掘。这里的第一分析序列包本文档来自技高网...
一种自然语言处理方法及装置

【技术保护点】
1.一种自然语言处理方法,其特征在于,包括:获取第一分析序列,所述第一分析序列包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实体之间的关联关系的字词;获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字词;比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。

【技术特征摘要】
1.一种自然语言处理方法,其特征在于,包括:获取第一分析序列,所述第一分析序列包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实体之间的关联关系的字词;获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字词;比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。2.根据权利要求1所述的自然语言处理方法,其特征在于,所述第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,其中,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;所述标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,其中,所述预设关键词为在标注序列中影响所述预设命名实体的角色的字词;所述比较所述第一语序和所述第二语序是否匹配的步骤,具体为:比较所述第三语序和所述第四语序是否匹配。3.根据权利要求2所述的自然语言处理方法,其特征在于,获取第一分析序列的步骤,包括:获取待分析文本;提取所述待分析文本中的命名实体;利用语言模型提取所述待分析文本中的关联词和关键词,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键词;将提取到的命名实体、关联词和关键词按照其各自在待分析文本中的语序组合,得到第一分析序列。4.根据权利要求3所述的自然语言处理方法,其特征在于,所述语言模型还包括与所述关键词对应的至少一个同义词;利用语言模型提取所述待分析文本中的关联词和关键词的步骤,包括:如果所述待分析文本包括所述语言模型中的关联词,则提取所述关联词,并将与所述关联词对应的关键词组中的关键词分别与所述待分析文本匹配;如果所述待分析文本包括任一个关键词或所述关键词对应的同义词,则提取所述关键词。5.根据权利要求3所述的自然语言处理方法,其特征在于,提取所述待分析文本中的命名实体的步骤,包括:识别所述待分析文本中的预识别命名实体;如果两个预识别命名实体的位置相邻,则将两个预识别命名实体合并为一个命名实体并提取...

【专利技术属性】
技术研发人员:任宁
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1