一种口语化短文本的实体属性提取方法及电子装置制造方法及图纸

技术编号:31225730 阅读:72 留言:0更新日期:2021-12-08 09:30
本发明专利技术提供一种口语化短文本的实体属性提取方法及电子装置,包括对口语化短文本切词及词性标注,并对各标注词性的词语进行命名主体识别,得到实体词语;将口语化短文本映射为主谓宾三元组,获取主谓宾三元组中各词语的依存关系,并使用实体词语对主谓宾三元组中各词语进行实体识别;当主谓宾三元组中的主谓宾满足一触发规则时,提取宾语词组作为实体属性。本发明专利技术采用词性标注、依存句法分析、实体识别以及结合触发词词性规则的综合方法,更加有针对性的提取了口语化短数据的实体属性信息,丰富了口语化短文本领域的结构化信息抽取方法。富了口语化短文本领域的结构化信息抽取方法。富了口语化短文本领域的结构化信息抽取方法。

【技术实现步骤摘要】
一种口语化短文本的实体属性提取方法及电子装置


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种口语化短文本的实体属性提取方法及电子装置。

技术介绍

[0002]随着互联网应用的迅猛发展,通过网络能够获取的文本数据量也呈指数级增长,如何从这些海量文本数据中快速、准确地分析出真正有用的信息,显得尤为关键和紧迫,而这正是信息抽取这一研究领域力图解决的问题。信息抽取的任务是从大量数据中准确、快速地获取目标信息,提高信息的利用率。信息抽取的主要功能是从文本中抽取出特定的事实信息,这些文本可以是结构化、半结构化或非结构化的数据。通常,信息抽取利用机器学习、自然语言处理(NLP)等方法从上述文本中抽取出特定的信息后,保存到结构化的数据库当中,以便用户查询和使用。信息抽取的具体实现方法可分为两类:基于规则的方法和基于统计的方法。信息抽取的具体实现过程在一定程度上要依赖机器学习算法,近年来机器学习算法在一些方面的突破,为信息抽取关键技术的进步提供了直接支持。
[0003]基于人工制定规则的信息抽取方法,促进了信息抽取的明显进步。针对结构化文本和半本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种口语化短文本的实体属性提取方法,其步骤包括:1)对口语化短文本切词及词性标注,并对各标注词性的词语进行命名主体识别,得到实体词语;2)将口语化短文本映射为主谓宾三元组,获取主谓宾三元组中各词语的依存关系,并使用实体词语对主谓宾三元组中各词语进行实体识别;3)当主谓宾三元组中的主谓宾满足一触发规则时,提取宾语词组作为实体属性。2.如权利要求1所述的方法,其特征在于,通过删除口语化短句中口语化词语与无实际意义的噪声词,得到口语化短文本;通过对口语化长句进行以标点符号为单位的断句,得到口语化短句。3.如权利要求1所述的方法,其特征在于,通过以下步骤进行词性标注:1)对口语化短文本切词,得到若干词语;2)将各词语输入通过若干样本词语训练的隐马尔科夫标注模型,对各词语进行标注。4.如权利要求1所述的方法,其特征在于,词性包括形容词、名词、副词、动词、连词和代词。5.如权利...

【专利技术属性】
技术研发人员:万辛戚梦苑孙晓晨黄远沈亮刘发强孙旭东张磊郝冰川
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1