基于语言识别的信息采集方法和装置制造方法及图纸

技术编号:39068292 阅读:13 留言:0更新日期:2023-10-12 20:00
本发明专利技术公开了一种基于语言识别的信息采集方法和装置。该基于语言识别的信息采集方法,包括:接收用户输入的待采集实体;通过NER对待采集实体进行采集,得到第一类采集结果;判断待采集实体是否配置正则采集或词典采集;依据判断结果对第一类采集结果执行对应采集,得到第二类采集结果;判断对待采集实体的采集是否完成,且对待采集实体的问询是否达到最大值;在判断结果为否的情况下,对第二类采集结果执行多段识别,直至采集结束。本发明专利技术提供的方案能够提升对实体的识别准确率的技术效果。方案能够提升对实体的识别准确率的技术效果。方案能够提升对实体的识别准确率的技术效果。

【技术实现步骤摘要】
基于语言识别的信息采集方法和装置


[0001]本专利技术涉及计算机技术应用领域,尤其涉及一种基于语言识别的信息采集方法和装置。

技术介绍

[0002]基于自然语言处理(NaturalLanguageProcessing,简称NLP)技术的发展,在人机交互领域,一直对用户输入的信息的精准高效识别存在很高的要求,其中,命名实体识别(NameEntityRecognition,简称NER)为常用的识别技术。
[0003]但是NER技术的缺陷在于只关注单个词语或短语的实体识别,而无法考虑上下文信息的影响,因此NER不能满足特定场景下的实体识别。
[0004]针对由于现有技术使用NER技术进行实体识别受限,导致的实体无法准确识别的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]为解决上述技术问题,本专利技术实施例期望提供一种基于语言识别的信息采集方法和装置,以至少解决由于现有技术使用NER技术进行实体识别受限,导致的实体无法准确识别的问题。
[0006]本专利技术的技术方案是这样实现的:
[0007]本专利技术实施例提供一种基于语言识别的信息采集方法,包括:接收用户输入的待采集实体;通过NER对待采集实体进行采集,得到第一类采集结果;判断待采集实体是否配置正则采集或词典采集;依据判断结果对第一类采集结果执行对应采集,得到第二类采集结果;判断对待采集实体的采集是否完成,且对待采集实体的问询是否达到最大值;在判断结果为否的情况下,对第二类采集结果执行多段识别,直至采集结束。
[0008]可选的,依据判断结果对第一类采集结果执行对应采集,得到第二类采集结果包括:在判断结果为对待采集实体未配置正则采集或词典采集的情况下,判断对待采集实体的采集是否完成,且对待采集实体的问询是否达到最大值;在判断结果为对待采集实体配置正则采集的情况下,依据正则采集对第一类采集结果进行采集,得到正则采集结果;在判断结果为对待采集实体配置词典采集的情况下,依据词典采集对第一类采集结果进行采集,得到词典采集结果;其中,第二类采集结果包括:正则采集结果或词典采集结果。
[0009]进一步地,可选的,依据正则采集对第一类采集结果进行采集,得到正则采集结果包括:判断第一采集结果是否命中正则表达式;在判断结果为是的情况下,依据命中的正则表达式对第一类采集结果进行采集,得到正则采集结果;在判断结果为否的情况下,依据正则采集进行问询,直至得到正则采集结果。
[0010]可选的,依据词典采集对第一类采集结果进行采集,得到词典采集结果包括:判断第一采集结果是否命中词典中的实体值和同义词;在判断结果为是的情况下,依据词典中的实体值和同义词对第一类采集结果进行采集,得到词典采集结果;在判断结果为否的情
况下,依据词典采集进行问询,直至得到词典采集结果。
[0011]可选的,该方法还包括:在进行NER采集之后,采用多线程并行的方式对待采集实体的实体识别类型进行判断,确定待采集实体的实体识别类型,其中,实体类型包括:正则或词典;依据实体识别结果分配对应的采集方式。
[0012]进一步地,可选的,依据实体识别结果分配对应的采集方式包括:若通过NER、正则和词典均对待采集实体进行采集,则判断NER、正则和词典是否均采集到采集结果;在NER、正则和词典均采集到的情况下,将正则或词典采集到的采集结果确定为第一类采集结果;其中,判断NER、正则和词典的采集值是否相同,在判断结果相同的情况下,记录采集结果,并将采集结果确定为第一类采集结果;在判断结果不同的情况下,以正则或词典对待采集实体的采集结果作为第一类采集结果,并记录第一类采集结果,其中,第一类采集结果,用于对NER进行训练和标注;在NER、正则和词典中仅一项采集到采集结果的情况下,将采集结果确定为第一类采集结果。
[0013]可选的,对第二类采集结果执行多段识别,直至采集结束包括:判断多段识别是否开启;在判断结果为是的情况下,依据预设时长,等待用户输入,若等待时长大于预设时长,则向用户发送问询;若等待时长小于预设时长内用户输入,则对未采集的实体进行采集,直至采集完成;在判断结果为否的情况下,发送问询。
[0014]可选的,在判断对待采集实体的采集是否完成,且对待采集实体的问询是否达到最大值之后,该方法还包括:在判断结果为是的情况下,采集结束。
[0015]本专利技术实施例提供一种基于语言识别的信息采集装置,包括:接收模块,用于接收用户输入的待采集实体;第一采集模块,用于通过NER对待采集实体进行采集,得到第一类采集结果;第一判断模块,用于判断待采集实体是否配置正则采集或词典采集;第二采集模块,用于依据判断结果对第一类采集结果执行对应采集,得到第二类采集结果;第二判断模块,用于判断对待采集实体的采集是否完成,且对待采集实体的问询是否达到最大值;识别模块,用于在判断结果为否的情况下,对第二类采集结果执行多段识别,直至采集结束。
[0016]可选的,第二采集模块包括:判断单元,用于在判断结果为对待采集实体未配置正则采集或词典采集的情况下,判断对待采集实体的采集是否完成,且对待采集实体的问询是否达到最大值;第一采集单元,用于在判断结果为对待采集实体配置正则采集的情况下,依据正则采集对第一类采集结果进行采集,得到正则采集结果;第二采集单元,用于在判断结果为对待采集实体配置词典采集的情况下,依据词典采集对第一类采集结果进行采集,得到词典采集结果;其中,第二类采集结果包括:正则采集结果或词典采集结果。
[0017]本专利技术实施例提供了一种基于语言识别的信息采集方法和装置,通过接收用户输入的待采集实体;通过NER对待采集实体进行采集,得到第一类采集结果;判断待采集实体是否配置正则采集或词典采集;依据判断结果对第一类采集结果执行对应采集,得到第二类采集结果;判断对待采集实体的采集是否完成,且对待采集实体的问询是否达到最大值;在判断结果为否的情况下,对第二类采集结果执行多段识别,直至采集结束,从而能够提升对实体的识别准确率的技术效果。
附图说明
[0018]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本发
明的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0019]图1为本专利技术实施例提供的一种基于语言识别的信息采集方法的流程示意图;
[0020]图2为本专利技术实施例提供的一种基于语言识别的信息采集方法中词典采集的示意图;
[0021]图3为本专利技术实施例提供的另一种基于语言识别的信息采集方法的流程示意图;
[0022]图4为本专利技术实施例提供的一种基于语言识别的信息采集装置的示意图。
具体实施方式
[0023]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语言识别的信息采集方法,其特征在于,包括:接收用户输入的待采集实体;通过NER对所述待采集实体进行采集,得到第一类采集结果;判断所述待采集实体是否配置正则采集或词典采集;依据判断结果对所述第一类采集结果执行对应采集,得到第二类采集结果;判断对所述待采集实体的采集是否完成,且对所述待采集实体的问询是否达到最大值;在判断结果为否的情况下,对所述第二类采集结果执行多段识别,直至采集结束。2.根据权利要求1所述的基于语言识别的信息采集方法,其特征在于,所述依据判断结果对所述第一类采集结果执行对应采集,得到第二类采集结果包括:在判断结果为对所述待采集实体未配置正则采集或词典采集的情况下,判断对所述待采集实体的采集是否完成,且对所述待采集实体的问询是否达到最大值;在判断结果为对所述待采集实体配置正则采集的情况下,依据所述正则采集对所述第一类采集结果进行采集,得到正则采集结果;在判断结果为对所述待采集实体配置词典采集的情况下,依据所述词典采集对所述第一类采集结果进行采集,得到词典采集结果;其中,所述第二类采集结果包括:所述正则采集结果或所述词典采集结果。3.根据权利要求2所述的基于语言识别的信息采集方法,其特征在于,所述依据所述正则采集对所述第一类采集结果进行采集,得到正则采集结果包括:判断所述第一采集结果是否命中正则表达式;在判断结果为是的情况下,依据命中的正则表达式对所述第一类采集结果进行采集,得到所述正则采集结果;在判断结果为否的情况下,依据所述正则采集进行问询,直至得到所述正则采集结果。4.根据权利要求2所述的基于语言识别的信息采集方法,其特征在于,所述依据所述词典采集对所述第一类采集结果进行采集,得到词典采集结果包括:判断所述第一采集结果是否命中词典中的实体值和同义词;在判断结果为是的情况下,依据所述词典中的实体值和同义词对所述第一类采集结果进行采集,得到词典采集结果;在判断结果为否的情况下,依据所述词典采集进行问询,直至得到所述词典采集结果。5.根据权利要求1所述的基于语言识别的信息采集方法,其特征在于,所述方法还包括:在进行NER采集之后,采用多线程并行的方式对所述待采集实体的实体识别类型进行判断,确定所述待采集实体的实体识别类型,其中,所述实体类型包括:正则或词典;依据实体识别结果分配对应的采集方式。6.根据权利要求5所述的基于语言识别的信息采集方法,其特征在于,所述依据实体识别结果分配对应的采集方式包括:若通过NER、正则和词典均对所述待采集实体进行采集,则判断NER、正则和词典是否均采集到采集结果;在所述NER、...

【专利技术属性】
技术研发人员:庾浪蒋威王磊
申请(专利权)人:浙江百应科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1