基于语义理解的实体识别方法、装置、计算机设备和介质制造方法及图纸

技术编号:27031475 阅读:15 留言:0更新日期:2021-01-12 11:14
本申请实施例属于语义识别领域,应用于智慧城市领域中,涉及一种基于语义理解的实体识别方法,包括对于用户的输入文本,提取所述输入文本的主干词语;将所述主干词语与至少一个相邻词语组成文本片段,其中,所述相邻词语是与所述主干词语相邻的词语;计算所述文本片段与实体词典中实体词的语义相似度;根据所述语义相似度对所述实体词进行过滤,得到候选实体;通过训练好的语言模型对包括所述候选实体的文本片段进行消歧处理,得到实体识别结果。本申请还提供一种基于语义理解的实体识别装置、计算机设备及存储介质。采用本方法解决了现有技术中用传统词典匹配能力一般,无法识别词典外的实体,缺乏泛化能力的技术问题。

【技术实现步骤摘要】
基于语义理解的实体识别方法、装置、计算机设备和介质
本申请涉及语义识别领域,特别是涉及一种基于语义理解的实体识别方法、装置、计算机设备和存储介质。
技术介绍
命名实体识别(NamedEntityRecognition,简称NER),也成为了实体识别、实体分块和实体提取,是自然语言处理的一项基础人物,旨在将文本中的命名实体定位并分类为预先定义的类别,例如人名、地名、机构名等。NER是关系抽取、时间抽取、知识图谱、信息提取、问答系统、句法分析、机器翻译等诸多NLP任务的基础,现有技术中多个NLP技术模块中需要用到NER技术,具体包括:在query语义解析中,需要利用NER技术先抽取专有名词再构建关系;在FAQ中,需要利用NER技术识别问题和答案中的实体,帮助提高答案匹配的召回率和准确率。命名实体识别的主要方式分为基于规则和词典的方式、基于统计的方式,其中,前者是命名实体识别中最早使用的方式,多采用语言学专家构造规则模板,以模式和字符串匹配为主要手段,依赖词典的构建,一般而言,当提取的规则比较精准地反映语言现象时,基于规则的方式性能要优于基于统计的方式。但传统的词典匹配一般使用字符精确匹配的方式,过于依赖词典的构建,无法识别词典外的实体,缺乏泛化能力。
技术实现思路
基于此,针对上述技术问题,本申请提供一种基于语义理解的实体识别方法、装置、计算机设备及存储介质,以解决现有技术中使用传统词典匹配能力一般,无法识别词典外的实体,缺乏泛化能力的技术问题。一种基于语义理解的实体识别方法,所述方法包括:对于用户的输入文本,提取所述输入文本的主干词语;将所述主干词语与至少一个相邻词语组成文本片段,其中,所述相邻词语是与所述主干词语相邻的词语;计算所述文本片段与实体词典中实体词的语义相似度;根据所述语义相似度对所述实体词进行过滤,得到候选实体;通过训练好的语言模型对包括所述候选实体的文本片段进行消歧处理,得到实体识别结果。一种基于语义理解的实体识别装置,所述装置包括:分词模块,用于对于用户的输入文本,提取所述输入文本的主干词语;组合模块,用于将所述主干词语与至少一个相邻词语组成文本片段,其中,所述相邻词语是与所述主干词语相邻的词语;相似模块,用于计算所述文本片段与实体词典中实体词的语义相似度;过滤模块,用于根据所述语义相似度对所述实体词进行过滤,得到候选实体;消歧模块,用于通过训练好的语言模型对包括所述候选实体的文本片段进行消歧处理,得到实体识别结果。一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述基于语义理解的实体识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述基于语义理解的实体识别方法的步骤。上述基于语义理解的实体识别方法、装置、计算机设备和存储介质,通过对用户的输入文本进行分词处理,然后将相邻的两个或者三个词语组合成一个文本片段,对与不同的文本片段计算其与实体词典中实体词的语义相似度,并将匹配到实体词的文本片段用一个预设标识替代后输入到语言模型中,得到实体识别结果。本申请通过不直接得到完全匹配的实体词,而是根据自定义的语义相似度公式大致确定输入文本中可能是实体的文本片段,然后对输入文本中对有候选实体的文本片段进行消歧处理,最终得到文本片段是属于词典中那个类型、是否是实体的识别结果,解决了现有技术中用传统词典匹配能力一般,无法识别词典外的实体,缺乏泛化能力的技术问题。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为基于语义理解的实体识别方法的应用环境示意图;图2为基于语义理解的实体识别方法的流程示意图;图3为基于语义理解的实体识别装置的示意图;图4为一个实施例中计算机设备的示意图。具体实施方式除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的基于语义理解的实体识别方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。需要说明的是,本申请实施例所提供的基于语义理解的实体识别方法一般由服务端/终端执行,相应地,基于语义理解的实体识别装置一般设置于服务端/终端设备中。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、本文档来自技高网
...

【技术保护点】
1.一种基于语义理解的实体识别方法,其特征在于,所述方法包括:/n对于用户的输入文本,提取所述输入文本的主干词语;/n将所述主干词语与至少一个相邻词语组成文本片段,其中,所述相邻词语是与所述主干词语相邻的词语;/n计算所述文本片段与实体词典中实体词的语义相似度;/n根据所述语义相似度对所述实体词进行过滤,得到候选实体;/n通过训练好的语言模型对包括所述候选实体的文本片段进行消歧处理,得到实体识别结果。/n

【技术特征摘要】
1.一种基于语义理解的实体识别方法,其特征在于,所述方法包括:
对于用户的输入文本,提取所述输入文本的主干词语;
将所述主干词语与至少一个相邻词语组成文本片段,其中,所述相邻词语是与所述主干词语相邻的词语;
计算所述文本片段与实体词典中实体词的语义相似度;
根据所述语义相似度对所述实体词进行过滤,得到候选实体;
通过训练好的语言模型对包括所述候选实体的文本片段进行消歧处理,得到实体识别结果。


2.根据权利要求1所述的方法,其特征在于,所述提取所述输入文本的主干词语,包括:
对所述输入文本进行分词处理,得到多个词语;
根据停用词表对所述词语进行过滤,得到过滤后的主干词语。


3.根据权利要求1所述的方法,其特征在于,所述提取所述输入文本的主干词语,包括:
对所述输入文本进行分词处理,得到多个词语;
基于停用词表,通过正则表达式对所述词语进行过滤,得到待确认词语;
计算各所述待确认词语在所述输入文本中的第一词频;
获取所述待确认词语在语料库中的第二词频;
根据所述第一词频与所述第二词频的乘积对所述待确认词语进行过滤,得到所述主干词语。


4.根据权利要求1所述的方法,其特征在于,所述计算所述文本片段与实体词典中实体词的语义相似度,包括:
从所述实体词典中搜索是否存在与所述文本片段中词语对应的实体序列,其中,所述实体序列中包括至少一个实体词;
若存在,则计算所述文本片段与所述实体序列的语义相似度。


5.根据权利要求4所述的方法,其特征在于,所述根据所述语义相似度对所述实体词进行过滤,得到候选实体,包括:
将所述语义相似度不小于预设值的实体词作为候选实体。


6.根据权利要求4所述的方法,其特征在于,所述计算所述文本片段与所述实体序列的语义相...

【专利技术属性】
技术研发人员:黄少波勾震张涛
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1