名词词库提取方法、电子装置及计算机可读存储介质制造方法及图纸

技术编号:18972338 阅读:28 留言:0更新日期:2018-09-19 03:37
本发明专利技术公开了一种名词词库提取方法,该方法包括:对文本内容进行命名实体识别和词性标注;去掉时间词、地点词、量词、角色词后得到简化的句子;对所述简化的句子进行句法结构分析;在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表;对所述初步词表进行互信息计算和过滤,得到最终的名词词表。本发明专利技术实施例还公开了一种电子装置和计算机可读存储介质。所述名词词库提取方法、电子装置及计算机可读存储介质,能够实现对特定词性的词语及合成词进行词库提取,提升用户体验。

Noun phrase extraction method, electronic device and computer readable storage medium

The invention discloses a method for extracting NOUN lexicon, which comprises: identifying named entity and tagging part of speech for text content; simplifying sentences after removing time words, place words, quantifiers and role words; analyzing syntactic structure of the simplified sentences; and analyzing leaves in the syntactic structure tree obtained by analysis. The node traverses deeply to the root node, searches for nouns and noun compounds, and obtains a preliminary glossary; calculates and filters the mutual information of the preliminary glossary, and obtains the final glossary. The embodiment of the invention also discloses an electronic device and a computer readable storage medium. The method for extracting the noun lexicon, the electronic device and the computer readable storage medium can realize the lexicon extraction of the specific part of speech and the compound words, and enhance the user experience.

【技术实现步骤摘要】
名词词库提取方法、电子装置及计算机可读存储介质
本专利技术涉及文本识别
,尤其涉及一种名词词库提取方法、电子装置及计算机可读存储介质。
技术介绍
针对法律领域的事实情节等文本内容,经常需要提取其中的名词等词库,以便后续进行分析。目前词库提取的方案有两种:一种是在网上爬取某些网站(如搜狗词库)中的词;另一种是通过互信息、信息熵或者其他深度学习算法和大量的语料去提取组合词语。然而,这两种方式得到的词或合成词语的词性多样,无法得到特定的对应名词词性的词库。
技术实现思路
本专利技术的主要目的在于提出一种名词词库提取方法、电子装置及计算机可读存储介质,旨在解决如何提取名词词性的词库的问题。为实现上述目的,本专利技术提供的一种名词词库提取方法,该方法包括步骤:对文本内容进行命名实体识别和词性标注;去掉时间词、地点词、量词、角色词后得到简化的句子;对所述简化的句子进行句法结构分析;在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表;及对所述初步词表进行互信息计算和过滤,得到最终的名词词表。可选地,使用语言技术平台LTP进行所述命名实体识别、词性标注及句法结构分析。可选地,所述句法结构分析得到所述简化的句子中每个节点对应的父节点,以及与父节点之间的语法关系。可选地,所述在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表的步骤包括,从所述简化的句子的节点中去掉所有标点符号;从去掉标点符号的句法结构树中查找所有叶子节点;从每个叶子节点开始由下向上到根节点进行深度遍历,查找名词和名词合成词;将查找到的名词和名词合成词记入所述初步词表。可选地,所述名词为词性‘pos’为‘n’,且与父节点不相邻的节点。可选地,针对所述名词合成词,在所述遍历时判断定中关系ATT、动宾关系VOB、前置宾语FOB三种语法关系,包括:若叶子节点的语法关系‘relate’为ATT,且当前节点的词性‘pos’不属于预设列表['nh','nt','nl','o','m','wp','x','r','q','u','e']其中之一,并且当前节点与父节点相邻,则将该当前节点与其父节点组合,并继续向上查找到语法关系不是ATT的节点,将得到的组合词作为一个名词合成词;若叶子节点的语法关系‘relate’为VOB或FOB,且与父节点相邻,并且父节点的长度为1,则将当前节点与其父节点组合,作为一个名词合成词。可选地,所述对所述初步词表进行互信息计算和过滤,得到最终的名词词表的步骤包括:计算所述初步词表中的名词组合词的互信息值;过滤所述互信息值小于预设值的名词组合词,得到最终的名词词表。可选地,所述预设值为4。此外,为实现上述目的,本专利技术还提出一种电子装置,所述电子装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的名词词库提取程序,所述名词词库提取程序被所述处理器执行时实现如上述的名词词库提取方法的步骤。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有名词词库提取程序,所述名词词库提取程序被处理器执行时实现如上述的名词词库提取方法的步骤。本专利技术提出的名词词库提取方法、电子装置及计算机可读存储介质,能够通过对文本内容进行命名实体识别、词性标注、句法结构分析等处理,并在找到句法结构树的叶子节点后,由叶子节点向根节点进行深度遍历,查找名词和名词合成词,然后根据互信息计算进行过滤,得到最终的名词词表,从而从所述文本内容中提取出名词词性的词表,以便后续进行相应分析。该方案可以针对特定词性的词语及合成词进行词库提取,提升了用户体验。附图说明图1为本专利技术第一实施例提出的一种电子装置的架构图;图2为本专利技术第二实施例提出的一种名词词库提取方法的流程图;图3为本专利技术第三实施例提出的一种名词词库提取方法的流程图;图4为本专利技术一实施例中进行命名实体识别和词性标注后的结果的示意图;图5为本专利技术一实施例中进行句法结构分析后的结果的示意图;图6为本专利技术一实施例中去掉所有标点符号后的结果的示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例一参阅图1所示,本专利技术第一实施例提出一种电子装置2。所述电子装置2可以是移动电话、智能电话、笔记本电脑、PAD(平板电脑)等可移动设备,以及诸如台式计算机、服务器等固定终端,用于对法律领域的事实情节等文本内容进行名词提取。所述电子装置2包括存储器20、处理器22和名词词库提取程序28。其中,所述存储器20至少包括一种类型的可读存储介质,用于存储安装于所述电子装置2的操作系统和各类应用软件,例如名词词库提取程序28的程序代码等。此外,所述存储器20还可以用于暂时地存储已经输出或者将要输出的各类数据。所述处理器22在一些实施例中可以是中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作。本实施例中,所述处理器22用于运行所述存储器20中存储的程序代码或者处理数据,例如运行所述名词词库提取程序28等。所述名词词库提取程序28被所述处理器22执行时,实现如下步骤:(1)对文本内容进行命名实体识别和词性标注。(2)去掉时间词、地点词、量词、角色词后得到简化的句子。(3)对所述简化的句子进行句法结构分析。(4)在得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表。(5)对所述初步词表进行互信息计算和过滤,得到最终的名词词表。上述步骤的详细说明请参阅下述第二实施例和第三实施例,在此不再赘述。本领域技术人员可以理解,图1中示出的结构并不构成对所述电子装置2的限定,所述电子装置2还可以包括其他必要部件,或者组合某些部件,或者不同的部件布置。实施例二参阅图2所示,本专利技术第二实施例提出一种名词词库提取方法。在本实施例中,根据不同的需求,图2所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。该方法包括以下步骤:S10,对文本内容进行命名实体识别和词性标注。具体地,当需要对法律领域的事实情节等文本内容进行名词提取时,首先获取文本内容,然后使用语言技术平台(LanguageTechnologyPlatform,LTP)将该文本切分为多个节点,并进行命名实体识别(NamedEntityRecognition,NER)和词性标注(Part-of-speechTagging,POS)。LTP中采用863词性标注集,例如‘n’为一般性名词、‘a’为形容词等。例如,文本内容为:“2016年10月18日,被告人陶守松至太仓市沙溪镇半泾村十四组13号001室,入户窃得被害人陈某房间内电磁炉1个、锅1个、烧水壶1个、电动自行车1辆。”当使用LTP进行命名实体识别和词性标注后,结果如图4所示。其中,‘ne’表示命名实体,‘pos’表示词性。S20,去掉时间词、地点词、量词、角色词后得到简化的句子。具体地,当对所述文本进行命名实体识别和词性标注后,去掉时间词(‘ne’中包含time)、地点词(‘ne’中包含本文档来自技高网...

【技术保护点】
1.一种名词词库提取方法,其特征在于,该方法包括步骤:对文本内容进行命名实体识别和词性标注;去掉时间词、地点词、量词、角色词后得到简化的句子;对所述简化的句子进行句法结构分析;在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表;及对所述初步词表进行互信息计算和过滤,得到最终的名词词表。

【技术特征摘要】
1.一种名词词库提取方法,其特征在于,该方法包括步骤:对文本内容进行命名实体识别和词性标注;去掉时间词、地点词、量词、角色词后得到简化的句子;对所述简化的句子进行句法结构分析;在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表;及对所述初步词表进行互信息计算和过滤,得到最终的名词词表。2.根据权利要求1所述的名词词库提取方法,其特征在于,使用语言技术平台LTP进行所述命名实体识别、词性标注及句法结构分析。3.根据权利要求1或2所述的名词词库提取方法,其特征在于,所述句法结构分析得到所述简化的句子中每个节点对应的父节点,以及与父节点之间的语法关系。4.根据权利要求3所述的名词词库提取方法,其特征在于,所述在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表的步骤包括,从所述简化的句子的节点中去掉所有标点符号;从去掉标点符号的句法结构树中查找所有叶子节点;从每个叶子节点开始由下向上到根节点进行深度遍历,查找名词和名词合成词;将查找到的名词和名词合成词记入所述初步词表。5.根据权利要求4所述的名词词库提取方法,其特征在于,所述名词为词性‘pos’为‘n’,且与父节点不相邻的节点。6.根据权利要求4所述的名词词库提取方法,其特征在于,针对所述名词合成词,在所述遍历时判断定中关系ATT、动宾关系VOB、前置...

【专利技术属性】
技术研发人员:李晓辉
申请(专利权)人:北京智慧正安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1