基于语义理解的实体识别方法、装置、计算机设备和介质制造方法及图纸

技术编号：27031475 阅读：15 留言：0更新日期：2021-01-12 11:14

本申请实施例属于语义识别领域，应用于智慧城市领域中，涉及一种基于语义理解的实体识别方法，包括对于用户的输入文本，提取所述输入文本的主干词语；将所述主干词语与至少一个相邻词语组成文本片段，其中，所述相邻词语是与所述主干词语相邻的词语；计算所述文本片段与实体词典中实体词的语义相似度；根据所述语义相似度对所述实体词进行过滤，得到候选实体；通过训练好的语言模型对包括所述候选实体的文本片段进行消歧处理，得到实体识别结果。本申请还提供一种基于语义理解的实体识别装置、计算机设备及存储介质。采用本方法解决了现有技术中用传统词典匹配能力一般，无法识别词典外的实体，缺乏泛化能力的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义理解的实体识别方法、装置、计算机设备和介质
本申请涉及语义识别领域，特别是涉及一种基于语义理解的实体识别方法、装置、计算机设备和存储介质。
技术介绍
命名实体识别(NamedEntityRecognition，简称NER)，也成为了实体识别、实体分块和实体提取，是自然语言处理的一项基础人物，旨在将文本中的命名实体定位并分类为预先定义的类别，例如人名、地名、机构名等。NER是关系抽取、时间抽取、知识图谱、信息提取、问答系统、句法分析、机器翻译等诸多NLP任务的基础，现有技术中多个NLP技术模块中需要用到NER技术，具体包括：在query语义解析中，需要利用NER技术先抽取专有名词再构建关系；在FAQ中，需要利用NER技术识别问题和答案中的实体，帮助提高答案匹配的召回率和准确率。命名实体识别的主要方式分为基于规则和词典的方式、基于统计的方式，其中，前者是命名实体识别中最早使用的方式，多采用语言学专家构造规则模板，以模式和字符串匹配为主要手段，依赖词典的构建，一般而言，当提取的规则比较精准地反映语言现象时，基于规则的方式性能要优于基于统计的方式。但传统的词典匹配一般使用字符精确匹配的方式，过于依赖词典的构建，无法识别词典外的实体，缺乏泛化能力。
技术实现思路
基于此，针对上述技术问题，本申请提供一种基于语义理解的实体识别方法、装置、计算机设备及存储介质，以解决现有技术中使用传统词典匹配能力一般，无法识别词典外的实体，缺乏泛化能力的技术问题。一种基于语义理解的实体识别方法，所述方法包括：对...

【技术保护点】
1.一种基于语义理解的实体识别方法，其特征在于，所述方法包括：/n对于用户的输入文本，提取所述输入文本的主干词语；/n将所述主干词语与至少一个相邻词语组成文本片段，其中，所述相邻词语是与所述主干词语相邻的词语；/n计算所述文本片段与实体词典中实体词的语义相似度；/n根据所述语义相似度对所述实体词进行过滤，得到候选实体；/n通过训练好的语言模型对包括所述候选实体的文本片段进行消歧处理，得到实体识别结果。/n

【技术特征摘要】
1.一种基于语义理解的实体识别方法，其特征在于，所述方法包括：
对于用户的输入文本，提取所述输入文本的主干词语；
将所述主干词语与至少一个相邻词语组成文本片段，其中，所述相邻词语是与所述主干词语相邻的词语；
计算所述文本片段与实体词典中实体词的语义相似度；
根据所述语义相似度对所述实体词进行过滤，得到候选实体；
通过训练好的语言模型对包括所述候选实体的文本片段进行消歧处理，得到实体识别结果。

2.根据权利要求1所述的方法，其特征在于，所述提取所述输入文本的主干词语，包括：
对所述输入文本进行分词处理，得到多个词语；
根据停用词表对所述词语进行过滤，得到过滤后的主干词语。

3.根据权利要求1所述的方法，其特征在于，所述提取所述输入文本的主干词语，包括：
对所述输入文本进行分词处理，得到多个词语；
基于停用词表，通过正则表达式对所述词语进行过滤，得到待确认词语；
计算各所述待确认词语在所述输入文本中的第一词频；
获取所述待确认词语在语料库中的第二词频；
根据所述第一词频与所述第二词频的乘积对所述待确认词语进行过滤，得到所述主干词语。

4.根据权利要求1所述的方法，其特征在于，所述计算所述文本片段与实体词典中实体词的语义相似度，包括：
从所述实体词典中搜索是否存在与所述文本片段中词语对应的实体序列，其中，所述实体序列中包括至少一个实体词；
若存在，则计算所述文本片段与所述实体序列的语义相似度。

5.根据权利要求4所述的方法，其特征在于，所述根据所述语义相似度对所述实体词进行过滤，得到候选实体，包括：
将所述语义相似度不小于预设值的实体词作为候选实体。

6.根据权利要求4所述的方法，其特征在于，所述计算所述文本片段与所述实体序列的语义相...

【专利技术属性】
技术研发人员：黄少波，勾震，张涛，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人