【技术实现步骤摘要】
名词短语的提取方法、系统、存储介质及电子设备
[0001]本专利技术涉及文本处理领域,具体地说,尤其涉及一种面向专业领域的 名词短语的提取方法、系统、存储介质及电子设备。
技术介绍
[0002]中文分词将连续的字序列按照一定的规范重新组合成词序列,常见的 分词一般都是基于通用领域的。关键词提取是从词序列中根据某些原理提 取出能够表达文本中心的词语,它是在通用领域的分词结果上进行的,并 且只能提取出一系列单个词语,而单个词语仍然是碎片化的,并不足以表 达完整的专业领域的词语含义。比如“知识”、“图谱”,“主动”、“学 习”、“技术”,这些单个词语并不能明确表达专业领域的“知识图谱
”ꢀ
和“主动学习技术”。因此急需开发一种克服上述缺陷的面向专业领域的 名词短语的提取方法、系统、存储介质及电子设备。
技术实现思路
[0003]针对上述问题,本专利技术提供一种名词短语的提取方法,其中,包括:
[0004]抽取步骤:通过spacy的中文模型抽取待抽取文本的依存关系获得 token序列,通过实体 ...
【技术保护点】
【技术特征摘要】
1.一种名词短语的提取方法,其特征在于,包括:抽取步骤:通过spacy的中文模型抽取待抽取文本的依存关系获得token序列,通过实体识别服务识别出所述待抽取文本中的实体;提取步骤:根据所述依存关系制定提取规则,根据所述提取规则从所述token序列中提取名词短语序列;整合步骤:对所述名词短语序列进行判断后,根据判断结果将所述名词短语序列中的名词短语进行头尾整合获得规范名词短语序列;合并步骤:将所述实体与所述规范名词短语序列规范名词短语序列进行合并获得最终名词短语序列。2.如权利要求1所述的提取方法,其特征在于,所述抽取步骤包括:依存关系抽取步骤:通过所述中文模型对所述待抽取文本进行依存关系解析获得具有属性值的所述token序列;实体获取步骤:通过所述实体识别服务识别出所述待抽取文本中的实体。3.如权利要求2所述的提取方法,其特征在于,所述提取步骤包括:长度识别步骤:对所述token序列的长度进行识别后输出识别结果;序列输出步骤:根据所述识别结果制定所述提取规则,根据所述提取规则从所述token序列中提取出所述名词短语序列。4.如权利要求1所述的提取方法,其特征在于,所述整合步骤包括:将所述名词短语序列中大于一阈值的token序列进行头尾整合获得所述规范名词短语序列。5.如权利要求1所述的提取方法,其特征在于,所述合并步骤包括:将所述规范名词短语序列和所述实体根据合并规则进行合并从而获得最终名词短语序列。6.一种名词...
【专利技术属性】
技术研发人员:曹梦娣,苑世娇,尤旸,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。