一种目标属性抽取的方法和设备技术

技术编号：14828870 阅读：56 留言：0更新日期：2017-03-16 15:16

本发明专利技术提出了一种目标属性抽取的方法和设备，其中该方法，包括：根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。以此，实现了对目标属性更好地抽取，且具有很好的可移植性以及召回的多样性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机以及信息处理领域，特别涉及一种目标属性抽取的方法和设备。
技术介绍
在现有技术中，已有的目标属性抽取的方法，是基于人工确定的抽取规则来进行抽取的，其中，具体的基于人工确定的抽取规则进行抽取的基本思路为：人工制定一些抽取规则，然后符合抽取规则的句子直接抽取得到目标属性。由此，基于人工确定的抽取规则方法中，所有的抽取知识都需要人工进行指定，十分依赖人工，如此这种方法的可移植性以及召回性是极其不够的。
技术实现思路
针对现有技术中的缺陷，本专利技术提出了一种目标属性抽取的方法和设备，用以克服现有技术中的缺陷，以实现更好地对目标属性的抽取。具体的，本专利技术提出了以下具体的实施例：本专利技术实施例提出了一种目标属性抽取的方法，包括：根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。在一个具体的实施例中，所述文本信息是基于搜索引擎对所述目标进行搜索得到的。在一个具体的实施例中，所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型，包括：根据与目标相关的文本信息进行word2vec的词向量表达训练，生成语义扩展模型；先对所述文本信息进行文字转拼音处理，生成拼音文本；针对所述拼音文本进行HMM训练，以生成拼音语义扩展模型。在一个具体的实施例中，所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型，...
一种目标属性抽取的方法和设备

【技术保护点】
一种目标属性抽取的方法，其特征在于，包括：根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。

【技术特征摘要】
1.一种目标属性抽取的方法，其特征在于，包括：根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型；其中，所述目标包括已知目标和未知目标；基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型；基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性。2.如权利要求1所述的方法，其特征在于，所述文本信息是基于搜索引擎对所述目标进行搜索得到的。3.如权利要求1所述的方法，其特征在于，所述根据与目标相关的文本信息生成语义扩展模型和拼音语义扩展模型，包括：根据与目标相关的文本信息进行word2vec的词向量表达训练，生成语义扩展模型；先对所述文本信息进行文字转拼音处理，生成拼音文本；针对所述拼音文本进行HMM训练，以生成拼音语义扩展模型。4.如权利要求1所述的方法，其特征在于，所述基于所述语义扩展模型和拼音语义扩展模型对已知目标进行处理，生成标注模型，包括：获取与已知目标及已知目标的目标属性相关的文本信息；对所获取的文本信息进行切词处理；对进行了切词处理后的文本信息进行词性标注处理，获取对应的名词以及形容词；利用语义扩展模型对所获取的名词以及形容词进行语义召回，获取语义召回的词；利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回，获取拼音召回的词；其中，语义召回的词和拼音召回的词都对应有分值；对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理，生成训练语料；基于所述训练语料进行目标属性的标注以及CRF参数训练，生成标注模型。5.如权利要求1所述的方法，其特征在于，所述基于所述标注模型以及所述语义扩展模型和拼音语义扩展模型对所述未知目标进行处理，以抽取所述未知目标的目标属性，包括：获取与未知目标及未知目标的目标属性相关的文本信息；对所获取的文本信息进行切词处理；对进行了切词处理后的文本信息进行词性标注处理，获取对应的名词以及形容词；利用语义扩展模型对所获取的名词以及形容词进行语义召回，获取语义召回的词；利用拼音语义扩展模型对所获取的名词以及形容词进行拼音召回，获取拼音召回的词；其中，语义召回的词和拼音召回的词都对应有分值；对语义召回的词的分值和拼音召回的词的分值进行均衡的离散化处理，生成待标注语料；利用所述标注模型对所述待标注语料...

【专利技术属性】
技术研发人员：姚佳，
申请(专利权)人：深圳市空谷幽兰人工智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人