System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 医疗健康对话中的实体识别方法、装置、设备及介质制造方法及图纸_技高网

医疗健康对话中的实体识别方法、装置、设备及介质制造方法及图纸

技术编号:40668934 阅读:4 留言:0更新日期:2024-03-18 19:04
本发明专利技术公开了一种医疗健康对话中的实体识别方法、装置、设备及介质。该方法包括:将对话中用户的待识别问句输入生成式模型的编码器,得到所述待识别问句的目标向量矩阵;将所述目标向量矩阵和所述对话中的历史标准实体输入所述生成式模型的自回归解码器,得到所述待识别问句中各词的实体概率;根据所述各词的实体概率,确定所述待识别问句中的目标待对齐实体;基于所述待识别问句的前置信息从至少两个候选字典树中确定目标字典树,并在所述目标字典树中确定所述目标待对齐实体的目标标准实体。本发明专利技术实施例可以提高实体识别的效率和准确性。

【技术实现步骤摘要】

本专利技术涉及,尤其涉及一种医疗健康对话中的实体识别方法、装置、设备及介质


技术介绍

1、随着互联网的不断发展,以往线下的医疗健康活动,也都逐渐转移到了线上进行,如线上问诊、线上买药等,智能客服系统也随之出现。智能客服系统可以识别到对话中用户咨询的重点信息、明确用户意图,并基于重点信息以及用户意图进行答案的回复。

2、重点信息通常是对话中用户提到的实体,例如对话中用户提到的营养素名称,疾病,相关人群,产品功效,生活方式,食物和药品等。一种常见的应用场景是,智能客服系统根据对话中识别到的疾病名称,为用户推荐可用于治疗该疾病的相关药品。这要求智能客服系统能高效、准确地识别到对话中用户提到的实体。

3、常见的实体识别方案中,实体识别被分为实体抽取和实体对齐两个部分。由于医疗健康领域有很多专有名词及特定的词语,仅仅采用抽取的词进行实体对齐,容易造成实体识别不准确。而传统对齐模型在应用的时候往往需要预先将所有实体转换成向量存入内存中,在实体数量很多的情况下,响应时间会变慢,而且内存占用会非常大。


技术实现思路

1、本专利技术提供了一种医疗健康对话中的实体识别方法、装置、设备及介质,以提高实体识别的效率和准确性。

2、根据本专利技术的一方面,提供了一种医疗健康对话中的实体识别方法,包括:

3、将对话中用户的待识别问句输入生成式模型的编码器,得到所述待识别问句的目标向量矩阵;

4、将所述目标向量矩阵和所述对话中的历史标准实体输入所述生成式模型的自回归解码器,得到所述待识别问句中各词的实体概率;

5、根据所述各词的实体概率,确定所述待识别问句中的目标待对齐实体;

6、基于所述待识别问句的前置信息从至少两个候选字典树中确定目标字典树,并在所述目标字典树中确定所述目标待对齐实体的目标标准实体。

7、根据本专利技术的另一方面,提供了一种医疗健康对话中的实体识别装置,包括:

8、编码输出模块,用于将对话中用户的待识别问句输入生成式模型的编码器,得到所述待识别问句的目标向量矩阵;

9、解码输出模块,用于将所述目标向量矩阵和所述对话中的历史标准实体输入所述生成式模型的自回归解码器,得到所述待识别问句中各词的实体概率;

10、实体定位模块,用于根据所述各词的实体概率,确定所述待识别问句中的目标待对齐实体;

11、实体确定模块,用于基于所述待识别问句的前置信息从至少两个候选字典树中确定目标字典树,并在所述目标字典树中确定所述目标待对齐实体的目标标准实体。

12、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括至少一个处理器;以及

13、与所述至少一个处理器通信连接的存储器;其中,

14、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的医疗健康对话中的实体识别方法。

15、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的医疗健康对话中的实体识别方法。

16、本专利技术实施例通过使用字典树进行标准实体的对齐,在预测中有效的降低了检索空间,并且在检索过程中通过前置信息进行了字典树的剪枝和筛选,相比于传统做法的向量检索,内存利用率更高,准确率也更好。另外,利用目标字典树和目标待对齐实体定向生成的方式相比于传统意义上的生成式模型,可以有效地控制模型的输出结果,且由于大部分的标准实体都是待识别问句中的原词,因此相比于纯生成式的结果,可控性更强,生成速度更快,准确率也更高。

17、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种医疗健康对话中的实体识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述各词的实体概率,确定所述待识别问句中的目标待对齐实体包括:

3.根据权利要求2所述的方法,其特征在于,所述实体起始概率包括实体开始概率和实体结束概率,所述根据所述各词的实体概率与实体起始概率的相对大小关系,确定所述待识别问句中的目标待对齐实体,包括:

4.根据权利要求2所述的方法,其特征在于,所述生成式模型为Bart模型结构,所述编码器训练时的输入为历史问句的原始文本,所述自回归解码器训练时的输入为所述原始文本的向量矩阵和所述原始文本的标注文本;

5.据权利要求1所述的方法,其特征在于,所述待识别问句的前置信息包括用户历史问句和对话店铺,相应的,所述标准实体包括所述对话店铺的商品名称。

6.根据权利5所述的方法,其特征在于,所述方法还包括:

7.一种医疗健康对话中的实体识别装置,其特征在于,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,所述实体定位模块包括:

<p>9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的医疗健康对话中的实体识别方法。

...

【技术特征摘要】

1.一种医疗健康对话中的实体识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述各词的实体概率,确定所述待识别问句中的目标待对齐实体包括:

3.根据权利要求2所述的方法,其特征在于,所述实体起始概率包括实体开始概率和实体结束概率,所述根据所述各词的实体概率与实体起始概率的相对大小关系,确定所述待识别问句中的目标待对齐实体,包括:

4.根据权利要求2所述的方法,其特征在于,所述生成式模型为bart模型结构,所述编码器训练时的输入为历史问句的原始文本,所述自回归解码器训练时的输入为所述原始文本的向量矩阵和所述原始文本的标注文本;

【专利技术属性】
技术研发人员:董哲李响
申请(专利权)人:汤臣倍健股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1