【技术实现步骤摘要】
一种口语化短文本的实体属性提取方法及电子装置
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种口语化短文本的实体属性提取方法及电子装置。
技术介绍
[0002]随着互联网应用的迅猛发展,通过网络能够获取的文本数据量也呈指数级增长,如何从这些海量文本数据中快速、准确地分析出真正有用的信息,显得尤为关键和紧迫,而这正是信息抽取这一研究领域力图解决的问题。信息抽取的任务是从大量数据中准确、快速地获取目标信息,提高信息的利用率。信息抽取的主要功能是从文本中抽取出特定的事实信息,这些文本可以是结构化、半结构化或非结构化的数据。通常,信息抽取利用机器学习、自然语言处理(NLP)等方法从上述文本中抽取出特定的信息后,保存到结构化的数据库当中,以便用户查询和使用。信息抽取的具体实现方法可分为两类:基于规则的方法和基于统计的方法。信息抽取的具体实现过程在一定程度上要依赖机器学习算法,近年来机器学习算法在一些方面的突破,为信息抽取关键技术的进步提供了直接支持。
[0003]基于人工制定规则的信息抽取方法,促进了信息抽取的明显进步 ...
【技术保护点】
【技术特征摘要】
1.一种口语化短文本的实体属性提取方法,其步骤包括:1)对口语化短文本切词及词性标注,并对各标注词性的词语进行命名主体识别,得到实体词语;2)将口语化短文本映射为主谓宾三元组,获取主谓宾三元组中各词语的依存关系,并使用实体词语对主谓宾三元组中各词语进行实体识别;3)当主谓宾三元组中的主谓宾满足一触发规则时,提取宾语词组作为实体属性。2.如权利要求1所述的方法,其特征在于,通过删除口语化短句中口语化词语与无实际意义的噪声词,得到口语化短文本;通过对口语化长句进行以标点符号为单位的断句,得到口语化短句。3.如权利要求1所述的方法,其特征在于,通过以下步骤进行词性标注:1)对口语化短文本切词,得到若干词语;2)将各词语输入通过若干样本词语训练的隐马尔科夫标注模型,对各词语进行标注。4.如权利要求1所述的方法,其特征在于,词性包括形容词、名词、副词、动词、连词和代词。5.如权利...
【专利技术属性】
技术研发人员:万辛,戚梦苑,孙晓晨,黄远,沈亮,刘发强,孙旭东,张磊,郝冰川,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。