一种目标属性抽取的方法和设备技术

技术编号:14828870 阅读:56 留言:0更新日期:2017-03-16 15:16
本发明专利技术提出了一种目标属性抽取的方法和设备,其中该方法,包括:根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。以此,实现了对目标属性更好地抽取,且具有很好的可移植性以及召回的多样性。

【技术实现步骤摘要】

本专利技术涉及计算机以及信息处理领域,特别涉及一种目标属性抽取的方法和设备
技术介绍
在现有技术中,已有的目标属性抽取的方法,是基于人工确定的抽取规则来进行抽取的,其中,具体的基于人工确定的抽取规则进行抽取的基本思路为:人工制定一些抽取规则,然后符合抽取规则的句子直接抽取得到目标属性。由此,基于人工确定的抽取规则方法中,所有的抽取知识都需要人工进行指定,十分依赖人工,如此这种方法的可移植性以及召回性是极其不够的。
技术实现思路
针对现有技术中的缺陷,本专利技术提出了一种目标属性抽取的方法和设备,用以克服现有技术中的缺陷,以实现更好地对目标属性的抽取。具体的,本专利技术提出了以下具体的实施例:本专利技术实施例提出了一种目标属性抽取的方法,包括:根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。在一个具体的实施例中,所述文本信息是基于搜索引擎对所述目标进行搜索得到的。在一个具体的实施例中,所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型,包括:根据与目标相关的文本信息进行word2vec的词向量表达训练,生成语义扩展模型;先对所述文本信息进行文字转拼音处理,生成拼音文本;针对所述拼音文本进行HMM训练,以生成拼音语义扩展模型。在一个具体的实施例中,所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型,包括:获取与已知目标及已知目标的目标属性相关的文本信息;对所获取的文本信息进行切词处理;对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成训练语料;基于所述训练语料进行目标属性的标注以及CRF参数训练,生成标注模型。在一个具体的实施例中,所述基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性,包括:获取与未知目标及未知目标的目标属性相关的文本信息;对所获取的文本信息进行切词处理;对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成待标注语料;利用所述标注模型对所述待标注语料进行处理,生成已标注语料;从所述已标注语料中抽取所述未知目标的目标属性信息。本专利技术还提出了一种目标属性抽取的设备,包括:第一生成模块,用以根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;第二生成模块,用以基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;抽取模块,用以基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。在一个具体的实施例中,所述文本信息是基于搜索引擎对所述目标进行搜索得到的。在一个具体的实施例中,所述第一生成模块,用于:根据与目标相关的文本信息进行word2vec的词向量表达训练,生成语义扩展模型;先对所述文本信息进行文字转拼音处理,生成拼音文本;针对所述拼音文本进行HMM训练,以生成拼音语义扩展模型。在一个具体的实施例中,所述第二生成模块,用于:获取与已知目标及已知目标的目标属性相关的文本信息;对所获取的文本信息进行切词处理;对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成训练语料;基于所述训练语料进行目标属性的标注以及CRF参数训练,生成标注模型。在一个具体的实施例中,所述抽取模块,用于:获取与未知目标及未知目标的目标属性相关的文本信息;对所获取的文本信息进行切词处理;对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成待标注语料;利用所述标注模型对所述待标注语料进行处理,生成已标注语料;从所述已标注语料中抽取所述未知目标的目标属性信息。与现有技术相比,本专利技术提出了一种目标属性抽取的方法和设备,其中该方法,包括:根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。以此,实现了对目标属性更好地抽取,且具有很好的可移植性以及召回的多样性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提出的一种标属性抽取的方法的流程示意图;图2为本专利技术实施例提出的一种生成标注模型的方法的流程示意图;图3为本专利技术实施例提出的一种目标属性抽取的方法的流程示意图;图4为本专利技术实施例提出的一种目标属性抽取的设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和出示的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。具体的,本专利技术提出了以下具体的实施例:实施例1本专利技术实施例1提出了一种目标属性抽取的方法,如图1所示,包括:步骤101、根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;步骤102、基于所述语义扩展模型和拼音语义扩展模型对已知目标进本文档来自技高网...
一种目标属性抽取的方法和设备

【技术保护点】
一种目标属性抽取的方法,其特征在于,包括:根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。

【技术特征摘要】
1.一种目标属性抽取的方法,其特征在于,包括:根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型;其中,所述目标包括已知目标和未知目标;基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型;基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性。2.如权利要求1所述的方法,其特征在于,所述文本信息是基于搜索引擎对所述目标进行搜索得到的。3.如权利要求1所述的方法,其特征在于,所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型,包括:根据与目标相关的文本信息进行word2vec的词向量表达训练,生成语义扩展模型;先对所述文本信息进行文字转拼音处理,生成拼音文本;针对所述拼音文本进行HMM训练,以生成拼音语义扩展模型。4.如权利要求1所述的方法,其特征在于,所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理,生成标注模型,包括:获取与已知目标及已知目标的目标属性相关的文本信息;对所获取的文本信息进行切词处理;对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成训练语料;基于所述训练语料进行目标属性的标注以及CRF参数训练,生成标注模型。5.如权利要求1所述的方法,其特征在于,所述基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理,以抽取所述未知目标的目标属性,包括:获取与未知目标及未知目标的目标属性相关的文本信息;对所获取的文本信息进行切词处理;对进行了切词处理后的文本信息进行词性标注处理,获取对应的名词以及形容词;利用语义扩展模型对所获取的名词以及形容词进行语义召回,获取语义召回的词;利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回,获取拼音召回的词;其中,语义召回的词和拼音召回的词都对应有分值;对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理,生成待标注语料;利用所述标注模型对所述待标注语料...

【专利技术属性】
技术研发人员:姚佳
申请(专利权)人:深圳市空谷幽兰人工智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1