一种人机交互文本中抽取日期时间的方法和装置制造方法及图纸

技术编号:24938082 阅读:10 留言:0更新日期:2020-07-17 20:57
本发明专利技术公开了一种人机交互文本中抽取日期时间的方法和装置。该方法包括以下步骤:S101,分割文本为若干文本段;S102,计算意图文本和各个分割的文本段的语义相似度;S103,比较所述各个分割的文本段语义相似度和阈值;S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。本发明专利技术的人机交互文本中抽取日期时间的方法,在外呼的多轮对话场景中,通过NLP中NER对用户的说话的文本打上time的时间标签,然后通过语义相似度模型匹配用户表达的意图,两者结合,就可以很好提高业务时间槽位抽取精确率,提升产品的交互体验。

【技术实现步骤摘要】
一种人机交互文本中抽取日期时间的方法和装置
本专利技术涉及人机交互
,尤其涉及一种人机交互文本中抽取日期时间的方法和装置。
技术介绍
在外呼的多轮交互场景中,由于业务的需要提取用户在某一轮交互中时间的信息,例如:催收场景中需要提取用户具体的还款时间,以便业务判断是否有逾期的风险。通过对时间的词典的进行模型训练,利用命名实体识别(NER)对于时间文本打上time的标签,如果是多个时间情况下,则以时间标签为分隔符进行分句,然后利用相识度模型进行相似度计算,可以选定初始阈值0.8(可以根据实际测试值云端配置),如果匹配到关键字或着相似度大于阈值,就认为是抽取时间是业务所需要的时间,然后在标准化具体的时间戳返回。通过自然语言处理(NLP)中的命名实体识别(NER)打上time标签,然后对于用户中的对话中文本提取时间的文本,在用户说话的文本如果含有有多个时间标签,这样抽取的时间信息,不仅不能有效的区分到底是否是业务需要的时间,并且严重影踪用户体验,甚至引起用户的投诉。
技术实现思路
为了解决上述问题,本专利技术基于自然语言处理(NLP)中的命名实体识别(NER)基础上,加上关键字或相似度模型的匹配来完成业务时间槽位准确抽取的方法,初始阈值0.8,在经过NER分析处理打上time的标签,可以抽取用户的说话文本是否带有时间的,在多个时间标签情况下,按时间标签分割成多个文本,然后将意图文本(例如:还款时间等)和分割的文本段进行语义相似度模型的计算,判断分数是否达到阈值,如果大于阈值则判读该段文本所包含的时间文本是业务需要的,那么这样抽取出来时间文本就更加精准和有效。本专利技术的第一方面在于提供一种人机交互文本中抽取日期时间的方法,包括以下步骤:S101,分割文本为若干文本段;S102,计算意图文本和各个分割的文本段的语义相似度;S103,比较所述各个分割的文本段语义相似度和阈值;S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。在本专利技术的一些实施方式中,所述S101中,包括以下步骤:S1011,获取人机交互中用户说话的文本;S1012,建立命名实体识别模型,并对时间的词典进行模型训练;S1013,利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;S1014,以所述time标签为分隔符,将所述文本分割为若干文本段。在本专利技术的一些实施方式中,所述S102中,包括以下步骤:S1021,获取意图文本;S1022,建立相似度模型;S1023,利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。在本专利技术的一些实施方式中,所述S103中,包括以下步骤:S1031,设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;S1032,分别进行所述各个分割的文本段语义相似度和阈值的比较。在本专利技术的一些实施方式中,所述初始的阈值为0.8。本专利技术的第二方面在于提供一种人机交互文本中抽取日期时间的装置,包括以下模块:第一模块,用于分割文本为若干文本段;第二模块,用于计算意图文本和各个分割的文本段的语义相似度;第三模块,用于比较所述各个分割的文本段语义相似度和阈值;第四模块,用于如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。在本专利技术的一些实施方式中,所述第一模块包括以下子模块:第一子模块,用于获取人机交互中用户说话的文本;第二子模块,用于建立命名实体识别模型,并对时间的词典进行模型训练;第三子模块,用于利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;第四子模块,用于以所述time标签为分隔符,将所述文本分割为若干文本段。在本专利技术的一些实施方式中,所述第二模块包括以下子模块:第五子模块,用于获取意图文本;第六子模块,用于建立相似度模型;第七子模块,用于利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。在本专利技术的一些实施方式中,所述第三模块包括以下子模块:第八子模块,用于设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;第九子模块,用于分别进行所述各个分割的文本段语义相似度和阈值的比较。在本专利技术的一些实施方式中,所述初始的阈值为0.8。本专利技术的有益效果:本专利技术的人机交互文本中抽取日期时间的方法和装置,在外呼的多轮对话场景中,通过NLP中NER对用户的说话的文本打上time的时间标签,然后通过语义相似度模型匹配用户表达的意图,两者结合,就可以很好提高业务时间槽位抽取精确率,提升产品的交互体验。附图说明图1为本专利技术一种人机交互文本中抽取日期时间的方法的一些实施方式的结构示意图;图2为本专利技术一种人机交互文本中抽取日期时间的装置的一些实施方式的结构示意图。具体实施方式以下对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。一种人机交互文本中抽取日期时间的方法,如图1所示,包括以下步骤:S101,分割文本为若干文本段;S102,计算意图文本和各个分割的文本段的语义相似度;S103,比较所述各个分割的文本段语义相似度和阈值;S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。在一些实施方式中,所述S101中,包括以下步骤:S1011,获取人机交互中用户说话的文本;S1012,建立命名实体识别模型,并对时间的词典进行模型训练;S1013,利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;S1014,以所述time标签为分隔符,将所述文本分割为若干文本段。本实施例的人机交互文本中抽取日期时间的方法,在外呼的多轮对话场景中,通过NLP中NER对用户的说话的文本打上time的时间标签。如果具有多个分割的文本段,则,计算意图文本和各个分割的文本段的语义相似度然后通过语义相似度模型匹配用户表达的意图,两者结合,就可以很好提高业务时间槽位抽取精确率,提升产品的交互体验。以催收为例:用户说“我今天有点忙后天还可以吗”第一步:NLP对用户输入的文本分析处理,打上NER标签后的句子是“我今天/time有点忙后天/time还可以吗”。第二步:通过/time标签为分隔符,将文本分成三段,分别是“我”、“有点忙”、“还可以吗”,然后通过与“还款”这个意图语料语义相似本文档来自技高网...

【技术保护点】
1.一种人机交互文本中抽取日期时间的方法,其特征在于,包括以下步骤:/nS101,分割文本为若干文本段;/nS102,计算意图文本和各个分割的文本段的语义相似度;/nS103,比较所述各个分割的文本段语义相似度和阈值;/nS104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。/n

【技术特征摘要】
1.一种人机交互文本中抽取日期时间的方法,其特征在于,包括以下步骤:
S101,分割文本为若干文本段;
S102,计算意图文本和各个分割的文本段的语义相似度;
S103,比较所述各个分割的文本段语义相似度和阈值;
S104,如果所述各个分割的文本段中任一分割的文本段的语义相似度大于阈值,则将所述任一分割的文本段所包含的时间文本标准化时间戳,生成应答返回。


2.根据权利要求1所述的方法,其特征在于,所述S101中,包括以下步骤:
S1011,获取人机交互中用户说话的文本;
S1012,建立命名实体识别模型,并对时间的词典进行模型训练;
S1013,利用所述命名实体识别模型进行文本的基于自然语言处理中的命名实体识别,打上time标签;
S1014,以所述time标签为分隔符,将所述文本分割为若干文本段。


3.根据权利要求1或2所述的方法,其特征在于,所述S102中,包括以下步骤:
S1021,获取意图文本;
S1022,建立相似度模型;
S1023,利用所述相似度模型进行意图文本和各个分割的文本段的语义相似度的计算。


4.根据权利要求1-3任一所述的方法,其特征在于,所述S103中,包括以下步骤:
S1031,设置用于和所述各个分割的文本段语义相似度进行比较的初始的阈值;
S1032,分别进行所述各个分割的文本段语义相似度和阈值的比较。


5.根据权利要求1-4任一所述的方法,其特征在于,所述初始的阈值为0.8。


6.一种人...

【专利技术属性】
技术研发人员:李旭滨詹学君
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1