The invention discloses a method for extracting NOUN lexicon, which comprises: identifying named entity and tagging part of speech for text content; simplifying sentences after removing time words, place words, quantifiers and role words; analyzing syntactic structure of the simplified sentences; and analyzing leaves in the syntactic structure tree obtained by analysis. The node traverses deeply to the root node, searches for nouns and noun compounds, and obtains a preliminary glossary; calculates and filters the mutual information of the preliminary glossary, and obtains the final glossary. The embodiment of the invention also discloses an electronic device and a computer readable storage medium. The method for extracting the noun lexicon, the electronic device and the computer readable storage medium can realize the lexicon extraction of the specific part of speech and the compound words, and enhance the user experience.
【技术实现步骤摘要】
名词词库提取方法、电子装置及计算机可读存储介质
本专利技术涉及文本识别
,尤其涉及一种名词词库提取方法、电子装置及计算机可读存储介质。
技术介绍
针对法律领域的事实情节等文本内容,经常需要提取其中的名词等词库,以便后续进行分析。目前词库提取的方案有两种:一种是在网上爬取某些网站(如搜狗词库)中的词;另一种是通过互信息、信息熵或者其他深度学习算法和大量的语料去提取组合词语。然而,这两种方式得到的词或合成词语的词性多样,无法得到特定的对应名词词性的词库。
技术实现思路
本专利技术的主要目的在于提出一种名词词库提取方法、电子装置及计算机可读存储介质,旨在解决如何提取名词词性的词库的问题。为实现上述目的,本专利技术提供的一种名词词库提取方法,该方法包括步骤:对文本内容进行命名实体识别和词性标注;去掉时间词、地点词、量词、角色词后得到简化的句子;对所述简化的句子进行句法结构分析;在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表;及对所述初步词表进行互信息计算和过滤,得到最终的名词词表。可选地,使用语言技术平台LTP进行所述命名实体识别、词性标注及句法结构分析。可选地,所述句法结构分析得到所述简化的句子中每个节点对应的父节点,以及与父节点之间的语法关系。可选地,所述在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表的步骤包括,从所述简化的句子的节点中去掉所有标点符号;从去掉标点符号的句法结构树中查找所有叶子节点;从每个叶子节点开始由下向上到根节点进行深度遍历,查找名词和名词合成词;将查 ...
【技术保护点】
1.一种名词词库提取方法,其特征在于,该方法包括步骤:对文本内容进行命名实体识别和词性标注;去掉时间词、地点词、量词、角色词后得到简化的句子;对所述简化的句子进行句法结构分析;在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表;及对所述初步词表进行互信息计算和过滤,得到最终的名词词表。
【技术特征摘要】
1.一种名词词库提取方法,其特征在于,该方法包括步骤:对文本内容进行命名实体识别和词性标注;去掉时间词、地点词、量词、角色词后得到简化的句子;对所述简化的句子进行句法结构分析;在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表;及对所述初步词表进行互信息计算和过滤,得到最终的名词词表。2.根据权利要求1所述的名词词库提取方法,其特征在于,使用语言技术平台LTP进行所述命名实体识别、词性标注及句法结构分析。3.根据权利要求1或2所述的名词词库提取方法,其特征在于,所述句法结构分析得到所述简化的句子中每个节点对应的父节点,以及与父节点之间的语法关系。4.根据权利要求3所述的名词词库提取方法,其特征在于,所述在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表的步骤包括,从所述简化的句子的节点中去掉所有标点符号;从去掉标点符号的句法结构树中查找所有叶子节点;从每个叶子节点开始由下向上到根节点进行深度遍历,查找名词和名词合成词;将查找到的名词和名词合成词记入所述初步词表。5.根据权利要求4所述的名词词库提取方法,其特征在于,所述名词为词性‘pos’为‘n’,且与父节点不相邻的节点。6.根据权利要求4所述的名词词库提取方法,其特征在于,针对所述名词合成词,在所述遍历时判断定中关系ATT、动宾关系VOB、前置...
【专利技术属性】
技术研发人员:李晓辉,
申请(专利权)人:北京智慧正安科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。