【技术实现步骤摘要】
基于字符嵌入的LSTM分句方法、系统及介质
本专利技术涉及文本挖掘技术,具体涉及一种基于字符嵌入的LSTM分句方法、系统及介质,尤其适用于生物医学文献的分句文本挖掘。
技术介绍
PubMed文献库目前已经提供了近3000万篇的论文摘要和500万篇论文全文,是生物医学领域文本挖掘的重要数据来源。对生物医学文献进行挖掘,从中自动获取基因、变异、疾病和药物等命名实体,是该领域构建基础数据库的一种重要方法。分句是进行文本挖掘,获取命名实体的一个重要的基础步骤,分句的准确性直接影响着文本挖掘的结果。在自然语言理解中,英文分句的处理都比较简单,通常是利用规则匹配的方法进行分句,例如将几种字符定为句子结尾符,在这些句子结尾符处对文档进行切分。由于生物医学文献的分句存在其特殊性,例如生物医学文献中经常出现作者名缩写,领域专业词缩写,疾病和变异实体等,这些特殊词中存在大量特殊字符,如小括号、中括号、句点、引号、小于号等,采用传统的规则匹配分句,容易将这些特殊字符识别成句子结尾符,导致分句错误,严重影响到命名实体识别(NER,Named ...
【技术保护点】
1.一种基于字符嵌入的LSTM分句方法,其特征在于实施步骤包括:/n1)初始化:将句子起始位置sentence_begin标定为输入文档D的第一个可打印字符位置,并将当前位置current_site设置为句子起始位置sentence_begin;/n2)从当前位置current_site开始向后扫描整个输入文档D,获取距离当前位置current_site最近的候选结尾符作为当前候选字符
【技术特征摘要】
1.一种基于字符嵌入的LSTM分句方法,其特征在于实施步骤包括:
1)初始化:将句子起始位置sentence_begin标定为输入文档D的第一个可打印字符位置,并将当前位置current_site设置为句子起始位置sentence_begin;
2)从当前位置current_site开始向后扫描整个输入文档D,获取距离当前位置current_site最近的候选结尾符作为当前候选字符如果获取成功则跳转执行步骤3);否则跳转执行步骤8);
3)获取当前候选字符前的字符串StringA,当前候选字符后的字符串StringB;
4)以字符串StringA和字符串StringB分别作为已训练好的LSTM分句模型M的两个输入,获得当前候选字符的预测结果
5)判断当前候选字符的预测结果是否为结尾符,如果是结尾符则跳转执行步骤6);否则跳转执行步骤7);
6)将句子起始位置sentence_begin开始至当前候选字符截止的字符串作为一个完整的句子输出;判断输入文档D后续是否仍有可打印字符,若输入文档D后续已无可打印字符,则表明已达到输入文档D的结尾,分句预测结束并退出;否则将当前位置current_site和句子起始位置sentence_begin均设为当前候选字符之后的下一个可打印字符的位置,跳转执行步骤2);
7)判断输入文档D后续是否仍有可打印字符,若输入文档D后续已无可打印字符,则表明已达到输入文档D的结尾,跳转执行步骤8);否则将当前位置current_site设为当前候选字符之后的下一个可打印字符的位置,跳转执行步骤2);
8)对文档结尾处无结尾符情况的处理:将句子起始位置sentence_begin开始至输入文档D最后一个可打印字符截止的字符串作为一个句子输出该字符串;分句预测结束。
2.根据权利要求1所述的基于字符嵌入的LSTM分句方法,其特征在于,步骤2)中获取距离当前位置current_site最近的候选结尾符时,该候选结尾符为候选句尾字符集{.,?,),],”,!}中的任意一种,该候选句尾字符集一共包括六种候选结尾符且分别以英文逗号进行分隔。
3.根据权利要求1所述的基于字符嵌入的LSTM分句方法,其特征在于,步骤3)中获取当前候选字符前的字符串StringA的详细步骤包括:判断当前候选字符前是否存在m个空格,如果存在m个空格,则从当前候选字符之前的第m个空格符开始、至当前候选字符前一个字符止的字符串作为字符串StringA;否则直接取文档开始处至当前候选字符前一个字符止的字符串作为字符串StringA。
4.根据权利要求1所述的基于字符嵌入的LSTM分句方法,其特征在于,步骤3)中获取当前候选字符后的字符串StringB的详细步骤包括:判断当前候选字符后是否存在n个空格,如果存在n个空格则从当前候选字符的下一个字符开始至后面第n个空格符止的字符串作为字符串StringB;如果提前到达文档的结尾处,则取从当前候选字符的下一个字符开始至文档结束位置止的字符串作为字符串StringB。
5.根据权利要求1~4中任意一项所述的基于字符嵌入的LSTM分句方法,其特征在于,步骤4)中的已训练好的LSTM分句模型M包括两个字符级LSTM、拼接层、全连接层和输出层,所述LSTM分句模型M的两路输入StringA和StringB,各自输入至一个字符级LSTM,所述拼接层用于将两个字符级LSTM的输出和候选结尾符的字符嵌入向量拼接作为全连接层的输入,输出层用于输出是否是句子结尾符的预测结果。
6.根据权利要求5所述的基于字符嵌入的LSTM分句方法,其特征在于,步骤4)之前还包括训练LSTM分句模型M的步骤,详细步骤包括:
S1)对指定数量的文档进行人工分句标定,获取训练样本集;
S2)确定候选句尾字符集;
S3)设置LSTM分句模型M的训练参数,随机生成每个字符的字符嵌入向量;
S4)利用人工分句标定的样本文档及其字符嵌入向量训练LSTM分句模型M;
S5)判断是否达到预设的训...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。