【技术实现步骤摘要】
一种文本实体标注方法、装置、设备及存储介质
[0001]本专利技术涉及文本数据处理
,具体是涉及一种文本实体标注方法、装置、设备及存储介质。
技术介绍
[0002]文本中包含有英文单词、中文词语这些实体以及标点符号等,在对文本进行实体标注时,需要先找出文本中有用的实体(目标实体),然后再对目标实体标注语义类型,语义类型用于区分各个目标实体所属的类型。
[0003]比如,在生物医学信息领域,NER(命名实体识别)系统可以被应用于发现医学文本中的生物医学实体。而NER系统是基于深度学习(Deep Learning)的方法构建的,深度学习模型在构建NER系统时需要大量的标注实体文本数据进行模型的训练,而大量的标注实体文本数据又是来源于人工手动对医学文本中的生物医学实体进行标注,从而导致标注的准确性较低。
[0004]综上所述,现有的文本实体标注方法降低了标注的准确性。
[0005]因此,现有技术还有待改进和提高。
技术实现思路
[0006]为解决上述技术问题,本专利技术提供了一种文本实 ...
【技术保护点】
【技术特征摘要】
1.一种文本实体标注方法,其特征在于,包括:获取待标注文本;标记出所述待标注文本中所包含的目标实体;将标记出所述目标实体的所述待标注文本输入到已训练的语义类型标注器,通过已训练的所述语义类型标注器对标记出的所述目标实体进行语义类型标注,得到已标注文本。2.如权利要求1所述的文本实体标注方法,其特征在于,所述标记出所述待标注文本中所包含的目标实体,包括:获取所述原始实体库;依据所述原始实体库,得到所述原始实体库所属信息领域;依据所述信息领域,构建与所述信息领域所匹配的白名单字符域;依据所述白名单字符域,清洗所述原始实体库中的实体,得到清洗之后的所述原始实体库;对所述待标注文本进行切词处理;通过清洗之后的所述原始实体库对切词后的所述待标注文本进行标记,以标记出所述待标注文本中的目标实体。3.如权利要求1所述的文本实体标注方法,其特征在于,已训练的所述语义类型标注器的训练方式包括:获取原始实体库和样本文本;通过所述原始实体库标记出所述样本文本所包含的样本实体;对所述样本文本中的所述样本实体标注语义样本类型,得到已标注样本文本;通过所述已标注样本文本对语义类型标注器进行训练,得到已训练的所述语义类型标注器。4.如权利要求3所述的文本实体标注方法,其特征在于,所述通过所述原始实体库标记出所述样本文本所包含的样本实体,包括:依据所述原始实体库,得到所述原始实体库所属信息领域;依据所述信息领域,构建与所述信息领域所匹配的白名单字符域;依据所述白名单字符域,清洗所述原始实体库中的实体,得到清洗之后的所述原始实体库;依据清洗之后的所述原始实体库标记出所述样本文本所包含的样本实体。5.如权利要求3所述的文本实体标注方法,其特征在于,所述通过所述原始实体库标记出所述样本文本所包含的样本实体,包括:依据所述原始实体库,得到所述原始实体库所包含的括号;依据所述括号所对应的信息,清洗含有所述括号的实体,得到清洗之后的所述原始实体库;依据清洗之后的所述原始实体库标记出所述样本文本所包含的样本实体。6.如权利要求3所述的文本实体标注方法,其特征在于,所述通过所述原始实体库标记出所述样本文本所包含的样本实体,包括:依据所述原始实体库,得到所述原始实体库所包含的无意义实体和/或含有异常首尾字符的实体,所述无意义实体为无实际含义的实体,所述异常首尾字符的实体为首尾字符
与实体所属语种不匹配的实体;从所述原始实体库中清洗掉所述无意义实体和/或含有异常首尾字符的实体,得到清洗之后的所述原始实体库;依据清洗之后的所述原始实体库标记出所述样本文本所包含的样本实体。7.如权利要求4或5或6任一项所述的文本实体标注方法,其特征在于,所述依据清洗之后的所述原始实体库标记出所述样本文本所包含的样本实体,包括:对所述样本文本进行单词独立切分处理,得到单词独立切分处理之后的所述样本文本;依据清洗之后的所述原始实体库标记出单词独立切分处理之后的所述样本文本所包含的样本实体。8.如权利要求3所述的文本实体标注方法,其特征在于,所述对标记出所述样本实体的所述样本文本针对所述样本实体标注语义样本类型,得到已标注样本文本,包括:依据所述样...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。