An embodiment of the invention discloses a Natural Language Processing method, including: obtaining the first analysis sequence, the first analysis sequence includes at least one named entity and association word, and at least one named entity and association word has the first word order, the association word is the word that characterizing the association relationship between the named entities; The annotation sequence includes at least one presupposed named entity and presupposed association word, and at least one presupposition named entity and presupposition Association have second word order, each presupposition entity corresponds to a kind of association relationship, and the default word is the word that characterizing the association relationship between the presupposition name entities; Whether the first word order and the second word order match, if so, set the role of the named entity in the first analysis sequence and the role of the corresponding named entity in the tagged sequence. The above methods are used to extract valuable information such as the relationship between named entities in the text, and the role of the named entity.
【技术实现步骤摘要】
一种自然语言处理方法及装置
本专利技术涉及自然语言处理
,具体涉及一种自然语言处理方法及装置。
技术介绍
企业的公告、研报、新闻、裁判文书等文本中有大量涉及命名实体的文字描述,例如企业与企业之间的关系、企业与个人之间的关系、企业的内部组织架构等。对企业决策者或者管理者而言,这些信息有助于了解企业/行业动态、判断企业/行业风险,以及预测企业/行业前景。在信息爆炸的今天,要从海量且篇幅冗长的企业的公告、研报等文本中挖掘出这些有价值的信息,就需要依靠自然语言处理(naturallanguageprocessing,NLP)技术。相对于英语等外语来说,汉语没有形态变化,更多地依赖语序来表现语法或者表达不同的语义。也就是说,即使句子中的字词相同或类似,但语序不同,所表达的语义就可能存在较大差异。例如,“A公司收购B公司的股权”、“B公司收购A公司的股权”,这两个句子中的字词相同但语义完全不同,相应地,句子中所包含的企业之间的关系也不相同。在前一个句子中,A公司是收购公司,B公司是被收购公司;在后一个句子中,A公司是被收购公司,B公司是收购公司。现有的自然语言处理的方法主要通过计算文本的相似度来挖掘出文本中的信息,例如采用余弦相似度法、编辑距离算法等。但是,计算文本相似度的方法对于中文语序问题的处理能力比较弱。当面对字词相似度高但语序不同的两个汉语文本时,采用计算文本相似度的方法所计算得到两个文本的相似度很高,从而认为两个文本的语义相近,因此无法准确地挖掘出这两个文本的各自实际表达的语义,因此也无法应用于挖掘文本中命名实体之间的关系等有价值的信息上。
技术实现思路
...
【技术保护点】
1.一种自然语言处理方法,其特征在于,包括:获取第一分析序列,所述第一分析序列包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实体之间的关联关系的字词;获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字词;比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。
【技术特征摘要】
1.一种自然语言处理方法,其特征在于,包括:获取第一分析序列,所述第一分析序列包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实体之间的关联关系的字词;获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字词;比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。2.根据权利要求1所述的自然语言处理方法,其特征在于,所述第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,其中,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;所述标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,其中,所述预设关键词为在标注序列中影响所述预设命名实体的角色的字词;所述比较所述第一语序和所述第二语序是否匹配的步骤,具体为:比较所述第三语序和所述第四语序是否匹配。3.根据权利要求2所述的自然语言处理方法,其特征在于,获取第一分析序列的步骤,包括:获取待分析文本;提取所述待分析文本中的命名实体;利用语言模型提取所述待分析文本中的关联词和关键词,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键词;将提取到的命名实体、关联词和关键词按照其各自在待分析文本中的语序组合,得到第一分析序列。4.根据权利要求3所述的自然语言处理方法,其特征在于,所述语言模型还包括与所述关键词对应的至少一个同义词;利用语言模型提取所述待分析文本中的关联词和关键词的步骤,包括:如果所述待分析文本包括所述语言模型中的关联词,则提取所述关联词,并将与所述关联词对应的关键词组中的关键词分别与所述待分析文本匹配;如果所述待分析文本包括任一个关键词或所述关键词对应的同义词,则提取所述关键词。5.根据权利要求3所述的自然语言处理方法,其特征在于,提取所述待分析文本中的命名实体的步骤,包括:识别所述待分析文本中的预识别命名实体;如果两个预识别命名实体的位置相邻,则将两个预识别命名实体合并为一个命名实体并提取...
【专利技术属性】
技术研发人员:任宁,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。