【技术实现步骤摘要】
一种基于主题模型和语义分析的实体指称项识别方法
本专利技术属于语言数据处理的
,具体涉及一种基于主题模型和语义分析的实体指称项识别方法。
技术介绍
信息抽取是理解和处理自然语言数据的关键步骤,目标是识别并分类数据中传达的重要信息。由于实体是承载信息的基本单位,使得实体识别成为信息抽取的基础任务,为其他任务提供数据支撑,包括实体消歧、关系抽取、事件抽取等。实体识别作为底层的信息抽取技术,在人工智能领域发挥着重要作用,包括知识图谱、问答系统、机器翻译、自然语言理解等。早期的实体识别技术主要针对命名实体进行识别,包括时间、日期、货币、百分比、人名、结构名、地名等七类。由于时间、日期、货币、百分比等命名实体具有明显构成规律,可以使用启发式规则、正则表达式等方法很容易识别,而人名、机构名和地名形式多变、用字灵活、内部结构复杂,识别难度很大,因而后期命名实体识别任务主要针对这三类实体进行处理,并举办了多种国际会议来推动命名实体识别技术的发展,包括MUC、SigHAN、CoNLL和ACE等。专利技术人发现现有的方法存在缺陷: ...
【技术保护点】
1.一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,包括如下步骤:/n步骤一、对输入语料进行句子分割、分词、词性标注和依存关系解析;/n步骤二、基于句法分析,获取边界完整的名词词组作为实体指称项的候选集,然后综合利用LDA主题模型和TF-IDF统计算法,从所述候选集中过滤非实体指称项;/n步骤三、度量所述实体指称项和种子实体的语义相似度,选择相似度高的种子类别作为实体类别,然后利用浅层的句法知识设置规则,将每种所述实体类别的所述实体指称项分类到相应的指称项类别。/n
【技术特征摘要】
1.一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,包括如下步骤:
步骤一、对输入语料进行句子分割、分词、词性标注和依存关系解析;
步骤二、基于句法分析,获取边界完整的名词词组作为实体指称项的候选集,然后综合利用LDA主题模型和TF-IDF统计算法,从所述候选集中过滤非实体指称项;
步骤三、度量所述实体指称项和种子实体的语义相似度,选择相似度高的种子类别作为实体类别,然后利用浅层的句法知识设置规则,将每种所述实体类别的所述实体指称项分类到相应的指称项类别。
2.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤二中,利用所述LDA主题模型包括:
将每篇文档表示为一个词频向量;
将文本字符串转化为易于建模的实值数字,得到文档到主题的多项式概率分布、主题到词的多项式概率分布。
3.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于:所述LDA主题模型为由文档、主题和词组组成三层贝叶斯概率模型。
4.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤二中,所述TF-IDF统计算法的公式为
其中,ni表示词语wi在一篇文档中的出现次数,n表示一篇文档中所有词语的出现次数,|D|表示所有文档的数目,di表示包含词语wi的文档数目,对以上两个公式取积,即tfi×dfi,即可得到词语wi对文档的重要程度。
5.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法,其特征在于,所述步骤二中,获取边界完整的所述名词词组作为所述实体指称项的候选集,包括:
将具有预设词性标签且相邻的词语进行组合;
抽取朴素...
【专利技术属性】
技术研发人员:韩伟红,徐菁,陈雷霆,母国才,尹怀东,
申请(专利权)人:电子科技大学广东电子信息工程研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。