一种用于非结构化文本的短语提取方法及装置制造方法及图纸

技术编号:26377603 阅读:27 留言:0更新日期:2020-11-19 23:46
本发明专利技术属于语言处理技术领域,公开了一种用于非结构化文本的短语提取方法及装置,其方法包括:生成每种短语类型的短语提取规则;获取非结构化文本;根据所述短语提取规则,从所述非结构化文本中提取出短语。本发明专利技术通过建立短语提取规则,有效解决了从非结构化文本中提取所需类型的短语的问题,不仅可获取大量短语,以用于丰富作文素材库,而且相对于人工搜集方式,搜集效率高。

【技术实现步骤摘要】
一种用于非结构化文本的短语提取方法及装置
本专利技术属于语言处理
,特别涉及一种用于非结构化文本的短语提取方法及装置。
技术介绍
在当前语文作文的教学过程中,作文素材的重要性被反复强调。所谓“巧妇难为无米之炊”,如果要想写好作文就必须具有丰富的作文素材,这样写作文时才会做到下笔如有神。目前,作文素材的积累主要通过学生自己阅读课外书籍,然后将书籍中的一些短语记录下来,以便后续写作文时进行灵活应用。但是,由于学生阅读的书籍有限,使得学生自己积累的作文短语素材不足以支撑学生写好各种类型的作文。因此,需要为学生提供一个可供直接学习的作文短语素材库。而在现有技术中,并没有一种可快速搜集作文短语素材的方法,通过人工的方式来搜集作文短语素材,不仅会耗费大量的人力和物力,且效率较低。
技术实现思路
本专利技术的目的是提供一种用于非结构化文本的短语提取方法及装置,通过建立短语提取规则,有效解决了从非结构化文本中提取所需类型的短语的问题,相对于人工搜集方式,搜集效率高。本专利技术提供的技术方案如下:一方面,提供一种用于非结构化文本的短语提取方法,包括:生成每种短语类型的短语提取规则;获取非结构化文本;根据所述短语提取规则,从所述非结构化文本中提取出短语。进一步优选地,所述生成每种短语类型的短语提取规则具体包括:建立短语类型库,所述短语类型库包括多种短语类型;获取每种短语类型的训练样本集,所述训练样本集包括训练文本及提取出的短语;根据每种短语类型的训练样本集,生成每种短语类型对应的短语提取规则。进一步优选地,所述根据每种短语类型的训练样本集,生成每种短语类型对应的短语提取规则具体包括:对训练样本集中的每个训练文本进行分词,得到每个训练文本对应的各个词语、词语的词性,以及词语的位置序列;根据每个训练文本提取出的短语,分析得到每种短语类型对应的短语提取特征,其中,所述短语提取特征包括词性组合特征以及词语位置特征;利用机器学习方法,根据所得到的所述提取特征,生成每种短语类型对应的短语提取规则。进一步优选地,还包括:获取基础词语;所述根据所述短语提取规则,从所述非结构化文本中提取出短语具体包括:根据所述短语提取规则和所述基础词语,从所述非结构化文本中提取出包含所述基础词语的短语。进一步优选地,所述根据所述短语提取规则和所述基础词语,从所述非结构化文本中提取出包含所述基础词语的短语具体包括:在所述非结构化文本中找到所述基础词语;以所述基础词语为基础,根据所述短语提取规则及所述基础词语的词性,从所述非结构化文本中找到符合提取特征的目标词语;组合所述基础词语和所述目标词语,得到包含所述基础词语的短语。另一方面,还提供一种用于非结构化文本的短语提取装置,包括:规则生成模块,用于生成每种短语类型的短语提取规则;文本获取模块,用于获取非结构化文本;短语提取模块,用于根据所述短语提取规则,从所述非结构化文本中提取出短语。进一步优选地,所述规则生成模块包括:短语库建立单元,用于建立短语类型库,所述短语类型库包括多种短语类型;样本集获取单元,用于获取每种短语类型的训练样本集,所述训练样本集包括训练文本及提取出的短语;规则生成单元,用于根据每种短语类型的训练样本集,生成每种短语类型对应的短语提取规则。进一步优选地,所述规则生成单元包括:分词子单元,用于对训练样本集中的每个训练文本进行分词,得到每个训练文本对应的各个词语、词语的词性,以及词语的位置序列;特征分析子单元,用于根据每个训练文本提取出的短语,分析得到每种短语类型对应的短语提取特征,其中,所述短语提取特征包括词性组合特征以及词语位置特征;规则生成子单元,用于利用机器学习方法,根据所得到的所述提取特征,生成每种短语类型对应的短语提取规则。进一步优选地,还包括:词语获取模块,用于获取基础词语;所述短语提取模块,还用于根据所述短语提取规则和所述基础词语,从所述非结构化文本中提取出包含所述基础词语的短语。进一步优选地,所述短语提取模块包括:基础词语查找单元,用于在所述非结构化文本中找到所述基础词语;目标词语查找单元,用于以所述基础词语为基础,根据所述短语提取规则及所述基础词语的词性,从所述非结构化文本中找到符合提取特征的目标词语;词语组合单元,用于组合所述基础词语和所述目标词语,得到包含所述基础词语的短语。与现有技术相比,本专利技术提供的一种用于非结构化文本的短语提取方法及装置具有的有益效果为:本专利技术通过建立短语提取规则,有效解决了从非结构化文本中提取所需类型的短语的问题,不仅可获取大量短语,以用于丰富作文素材库,而且相对于人工搜集方式,搜集效率高。附图说明下面将以明确易懂的方式,结合附图说明优选实施方式,对一种用于非结构化文本的短语提取方法及装置的上述特性、技术特征、优点及其实现方式予以进一步说明。图1是本专利技术一种用于非结构化文本的短语提取方法的第一实施例的流程示意图;图2是本专利技术一种用于非结构化文本的短语提取方法的第二实施例的流程示意图;图3是本专利技术一种用于非结构化文本的短语提取方法的第三实施例的流程示意图;图4是本专利技术一种用于非结构化文本的短语提取方法的第四实施例的流程示意图;图5是本专利技术一种用于非结构化文本的短语提取方法的第五实施例的流程示意图;图6是本专利技术一种用于非结构化文本的短语提取装置的一个实施例的结构示意框图。附图标号说明100、规则生成模块;110、短语库建立单元;120、样本集获取单元;130、规则生成单元;131、分词子单元;132、特征分析子单元;133、规则生成子单元;200、文本获取模块;300、短语提取模块;310、基础词语查找单元;320、目标词语查找单元;330、词语组合单元;400、词语获取模块。具体实施方式为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。为使图面简洁,各图中只示意性地表示出了与本专利技术相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。根据本专利技术提供的第一实施例,如图1所示,一种用于非结构化文本的短语提取方法,包括:S100生成每种短语类型的短语提取规则;具体地,短语类型包括偏正短语、补充本文档来自技高网...

【技术保护点】
1.一种用于非结构化文本的短语提取方法,其特征在于,包括:/n生成每种短语类型的短语提取规则;/n获取非结构化文本;/n根据所述短语提取规则,从所述非结构化文本中提取出短语。/n

【技术特征摘要】
1.一种用于非结构化文本的短语提取方法,其特征在于,包括:
生成每种短语类型的短语提取规则;
获取非结构化文本;
根据所述短语提取规则,从所述非结构化文本中提取出短语。


2.根据权利要求1所述的一种用于非结构化文本的短语提取方法,其特征在于,所述生成每种短语类型的短语提取规则具体包括:
建立短语类型库,所述短语类型库包括多种短语类型;
获取每种短语类型的训练样本集,所述训练样本集包括训练文本及提取出的短语;
根据每种短语类型的训练样本集,生成每种短语类型对应的短语提取规则。


3.根据权利要求2所述的一种用于非结构化文本的短语提取方法,其特征在于,所述根据每种短语类型的训练样本集,生成每种短语类型对应的短语提取规则具体包括:
对训练样本集中的每个训练文本进行分词,得到每个训练文本对应的各个词语、词语的词性,以及词语的位置序列;
根据每个训练文本提取出的短语,分析得到每种短语类型对应的短语提取特征,其中,所述短语提取特征包括词性组合特征以及词语位置特征;
利用机器学习方法,根据所得到的所述提取特征,生成每种短语类型对应的短语提取规则。


4.根据权利要求1-3任一项所述的一种用于非结构化文本的短语提取方法,其特征在于,还包括:
获取基础词语;
所述根据所述短语提取规则,从所述非结构化文本中提取出短语具体包括:
根据所述短语提取规则和所述基础词语,从所述非结构化文本中提取出包含所述基础词语的短语。


5.根据权利要求4所述的一种用于非结构化文本的短语提取方法,其特征在于,所述根据所述短语提取规则和所述基础词语,从所述非结构化文本中提取出包含所述基础词语的短语具体包括:
在所述非结构化文本中找到所述基础词语;
以所述基础词语为基础,根据所述短语提取规则及所述基础词语的词性,从所述非结构化文本中找到符合提取特征的目标词语;
组合所述基础词语和所述目标词语,得到包含所述基础词语的短语。


6.一种用...

【专利技术属性】
技术研发人员:周林
申请(专利权)人:广东小天才科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1