System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本处理,特别是涉及一种获取实体和实体关系的系统。
技术介绍
1、随着互联网技术的高速发展,病历文本呈现电子化发展,大部分病历文本信息呈现非结构化,如何从大量非结构化病历文本数据中获取实体以及实体与实体之间存在的关系显得尤为重要,可以为下游的子任务提供相应的服务,例如从病历文本中获取事件、普及疾病的相关知识、进行与疾病相关联数据挖掘等具有重要意义,如何高效且准确地获取病历文本中的实体和实体关系成为热门研究方向。
2、现有技术中,获取实体和实体关系的方法为:利用实体抽取模型获取病历文本中的实体,基于预设规则和关系抽取模型确定由实体抽取模型获取到的实体与实体之间的关系。
3、综上,获取实体和实体关系的方法存在的问题:采用不同的模型分别获取病历文本中的实体和实体与实体之间的关系,因实体模型和关系模型之间交互并不强,降低了获取病历文本中实体和实体与实体之间关系的准确性。
技术实现思路
1、针对上述技术问题,本专利技术采用的技术方案为:一种获取实体和实体关系的系统,系统包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:
2、s100,获取目标病历文本,其中,所述目标病历文本为待获取实体和实体关系的病历文本。
3、s200,根据目标病历文本,获取目标病历文本对应的初始词列表a={a1,……,ai,……,an},ai为第i个初始词,i=1……n,n为初始词的数量,其中,所述初始词为通过jieba分词对目
4、s300,将a输入至预设模型中,获取目标词对列表b={b1,……,be,……,bf}和b对应的第一标签得分列表集d={d1,……,de,……,df},de={de1,……,dex,……,den},be为第e个目标词对,e=1……f,f为目标词对的数量,dex为be对应的第一标签得分列表中的第x个第一标签得分,x=1……n,n为第一标签得分列表中第一标签得分的数量。
5、s400,根据b和d,获取目标病历文本对应的目标实体列表,所述目标实体列表包括若干个目标实体,其中,在s400中通过如下步骤获取目标实体:
6、s401,当de中存在dex=1且de+1中全部d(e+1)x=0时,获取be对应的实体为目标实体,其中,de+1为第(e+1)个目标词对应的第一标签得分列表,d(e+1)x为de+1中第x个第一标签得分。
7、s403,当de中存在dex=1且de+1中存在d(e+1)x=1时,获取be+1对应的实体为目标实体。
8、s500,获取第二标签得分列表集p={p1,……,pu,……,pm}和第三标签得分列表集q={q1,……,qu,……,qm},pu={pu1,……,pue,……,puf},qu={qu1,……,que,……,quf},其中,pue为第u个预设实体关系标签对应的第二标签得分列表中be对应的第二标签得分,que为第u个预设实体关系标签对应的第三标签得分列表中be对应的第三标签得分,u=1……m,m为预设实体关系标签的数量。
9、s600,根据目标实体列表、p和q,获取目标病历文本对应的目标实体关系列表,其中,所述目标实体关系列表包括若干个目标实体关系,所述目标实体关系包括从目标实体列表中获取到的符合预设实体关系标签的两个目标实体以及此两个目标实体对应的预设实体关系标签。
10、本专利技术与现有技术相比具有明显的有益效果,借由上述技术方案,本专利技术提供的一种获取实体和实体关系的系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
11、本专利技术为一种获取实体和实体关系的系统,系统包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:获取目标病历文本,根据目标病历文本,获取目标病历文本对应的初始词列表,将初始词列表输入至预设模型中,获取目标词对列表和目标词对列表对应的第一标签得分列表集,根据目标词对列表和第一标签得分列表集,获取目标病历文本对应的目标实体列表,获取第二标签得分列表集和获取第三标签得分列表集,根据目标实体列表、第二标签得分列表集和第二标签得分列表集,获取目标病历文本对应的目标实体关系列表,本专利技术采用同一模型进行处理同时获取病历文本中的实体和实体关系,不存在实体模型与关系模型之间交互性差的问题,能够更加准确地捕捉实体之间的复杂关系,使得从病历文本中获取到的实体与实体关系的准确性较高,同时,将获取到的病历文本基于语义信息进行分词处理,减少词之间组合的数量,加快模型的训练速度,提高了获取病历文本中实体和实体与实体之间关系的效率。
12、上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
本文档来自技高网...【技术保护点】
1.一种获取实体和实体关系的系统,其特征在于,所述系统包括:处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
2.根据权利要求1所述的获取实体和实体关系的系统,其特征在于,Be=(Be1,Be2),其中,Be1为从A中获取到的初始词,Be2为从A中获取到的除A中位于Be1位置之前的初始词之外的任一初始词。
3.根据权利要求1所述的获取实体和实体关系的系统,其特征在于,f符合如下条件:
4.根据权利要求1所述的获取实体和实体关系的系统,其特征在于,所述第一标签得分为第一标签对应的得分,其中,所述第一标签为基于预设模型获取到的标注预设实体标签和EH-to-ET标签的标签,EH-to-ET代表同一实体的第一个token指向最后一个token。
5.根据权利要求4所述的获取实体和实体关系的系统,其特征在于,Dex=0或1。
6.根据权利要求4所述的获取实体和实体关系的系统,其特征在于,所述预设实体标签为预先设置的实体对应的标签,其中,所述实体对应的标签为表征用户身体状态的词对应的标签。
8.根据权利要求1所述的获取实体和实体关系的系统,其特征在于,在S600中通过如下步骤获取目标实体关系:
...【技术特征摘要】
1.一种获取实体和实体关系的系统,其特征在于,所述系统包括:处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
2.根据权利要求1所述的获取实体和实体关系的系统,其特征在于,be=(be1,be2),其中,be1为从a中获取到的初始词,be2为从a中获取到的除a中位于be1位置之前的初始词之外的任一初始词。
3.根据权利要求1所述的获取实体和实体关系的系统,其特征在于,f符合如下条件:
4.根据权利要求1所述的获取实体和实体关系的系统,其特征在于,所述第一标签得分为第一标签对应的得分,其中,所述第一标签为基于预设模型获取到的标注预设实体标签和eh-to-et标签的标签,e...
【专利技术属性】
技术研发人员:刘立宇,赵瑞莹,初乃强,
申请(专利权)人:生命奇点北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。