本发明专利技术涉及互联网文本分析技术领域,具体涉及一种文本链接嵌入方法,所述方法是根据预设的字符级特征向量进行向量拼接得出待检测文本的目标词条和知识实体库中实体的特征向量,然后计算实体和目标词条的特征向量相似度以找到与目标词条对应的相似实体,最后将所述相似实体对应的实体链接信息嵌入对应的目标词条以完成文本链接嵌入。本发明专利技术的文本链接嵌入方法通过将实体和目标词条转换成能够保留语义特征的特征向量,根据目标词条和实体的特征向量相似度判断目标词条与实体之间词义是否相似。这样一来,即使是在同义不同词的情况下,也能做到目标词条与实体的精准匹配,从而有效地避免出现实体漏检情况。
【技术实现步骤摘要】
文本链接嵌入方法
本专利技术涉及互联网文本分析
,具体涉及一种文本链接嵌入方法。
技术介绍
随着知识图谱相关技术的发展,各类知识库、百科类应用层出不穷,为用户提供了很多高质量的内容。但目前对于此类内容多以用户主动搜索为主,使用频率较低。由于超链接是互联网页面的常见展示形式,因此现阶段通常会在文本中嵌入超链接以解决上述问题。超链接嵌入方法是通过获取文章中的文本与实体知识库中实体的关联关系,然后在文本内容中增加对应的实体链接入口。当用户点击已经链接的文本后,链接目标将显示在浏览器上。通过这种方式可以显著提升知识获取的便利性与用户体验。现有技术的超链接嵌入方法通常是以关键词匹配方法为基础,对文章文本内容提取关键词,并将关键词与实体知识库中的实体进行匹配,通过获取关键词对应的实体的超链接锚点,从而完成替换以实现超链接的嵌入。但是由于该方法强烈依赖于实体知识库构建的词典的词汇的覆盖率,在关键词为实体知识库中未收录的词汇的情况下,便不能实现关键词的配对;并且针对不同文本内容,不同作者对于同一概念的理解常常存在分歧,因此会出现同一对象具有不同的名称,此时,文本中的关键词不能准确与实体知识库中的实体对应,从而经常造成文档中大量实体漏检。相应地,本领域需要一种新的文本链接嵌入方法来解决上述问题。
技术实现思路
为了解决现有技术中的上述问题,即当前使用关键词匹配策略进行超链接替换时存在的实体漏检缺陷的问题,本专利技术提供了一种文本链接嵌入方法,所述方法包括:对待检测文本进行分词得到目标词条,对所述目标词条进行字符级切分,得到所述目标词条对应的字符级目标词条;根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量;计算所述目标词条与预设实体知识库中每个实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体;将所述相似实体对应的实体链接信息嵌入对应的目标词条;其中,所述实体知识库是基于知识图谱结构构建的知识库。在上述文本链接嵌入方法的优选技术方案中,在“根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量”的步骤之前,所述方法还包括:对预设的文本训练集进行分词得到训练目标词条,根据预设的字符级分词粒度对所述训练目标词条进行切分,得到字符级训练目标词条;利用机器学习算法获取所述字符级训练目标词条的字符级特征向量。在上述文本链接嵌入方法的优选技术方案中,在“计算所述目标词条与预设实体知识库中每个实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤之前,所述方法还包括:根据预设的字符级分词粒度对所述实体知识库中的实体进行切分,得到所述实体对应的字符级实体;根据所述字符级实体与预设的字符级特征向量拼接出所述实体的特征向量。在上述文本链接嵌入方法的优选技术方案中,“利用机器学习算法获取所述字符级训练目标词条的字符级特征向量”的步骤具体包括:按照下式所示的目标函数Ld并且利用所述机器学习算法获取所述训练目标词条的字符级向量:其中,所述T是所述文本训练集中训练目标词条的总数,所述Ux是所述训练文本对应的训练目标词条的集合,所述wt是集合Ux中第t个训练目标词条,所述Ct是wt的上下文的训练目标词条的集合,wc是集合Ct中的第c个训练目标词条;所述wv是集合Ux中的第v个词条,所述α是预设的影响因子,所述Q是预设的同义词约束系数;其中,所述Gt是根据所述字符级分词粒度对wt进行分词后得到的字符级目标词条的集合;gi是集合Gt中第i个字符级词条;Zgi是gi的字符级特征向量;是利用集合Gt中每个字符级训练目标词条拼接得到的训练目标词条wt的特征向量;fc是wc的特征向量,fv为wv的特征向量。在上述文本链接嵌入方法的优选技术方案中,所述同义词约束系数Q如下式所示:其中,所述R是预设的共现实体对的关系的集合,R包括多个共现实体对的关系;所述Relation(wt,wc)表示wt与wc这两个实体对应的关系;所述y表示Relation(wt,wc)关系中两个实体是同义词的概率。在上述文本链接嵌入方法的优选技术方案中,“计算所述目标词条与预设实体知识库中每个实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤具体包括:利用预设的聚类算法对所述预设实体知识库中的实体进行聚类得到多个实体集合;获取与所述目标词条相似度最高的实体集合;分别计算所述目标词条与所获取的实体集合中每个实体之间的特征向量相似度。在上述文本链接嵌入方法的优选技术方案中,“分别计算所述目标词条与所获取的实体集合中每个实体之间的特征向量相似度”的步骤包括:按照下式所示的相似度计算函数计算目标词条与实体之间的特征向量相似度:其中,所述Similarity(Fi,Fj)表示预先获得的包含所有目标词条的集合中第i个目标词条的特征向量Fi与所述实体知识库中第j个实体的特征向量Fj之间的特征向量相似度,所述fk(Fi)是所述特征向量Fi中的第k个特征值,所述fk(Fj)是所述特征向量Fj中的第k个特征值,所述m是特征向量Fi与特征向量Fj中特征值的总数。在上述文本链接嵌入方法的优选技术方案中,“根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤包括:判断特征向量相似度最大值是否大于等于预设的相似度阈值:若是,则将所述特性向量相似度最大值对应的实体作为当前目标词条的相似实体。在上述文本链接嵌入方法的优选技术方案中,“将所述相似实体对应的实体链接信息嵌入对应的目标词条”的步骤具体包括:获取所述相似实体对应的链接信息;将所述目标词条替换成包含所述目标词条与链接信息的文本。本专利技术提供了一种文本链接嵌入方法,该方法是在通过计算实体和目标词条的特征向量相似度以找到与目标词条对应的相似实体,相较于现有技术中将目标词条与实体直接进行匹配的方式,本专利技术的方法是通过将实体和目标词条转换成能够保留语义特征的特征向量,根据目标词条和实体的特征向量相似度判断目标词条与实体之间词义是否相似,进而判断两者是否匹配。这样一来,即使是在同义不同词的情况下,也能做到目标词条与实体的精准匹配,从而有效地避免出现实体漏检情况,提高了链接嵌入的有效性与准确性。并且,通过将目标词条和实体切分成字符级词条,根据字符级词条与预设的字符级特征向量进行向量拼接得出目标词条和实体的特征向量这种向量拼接的方式可以使得拼接出的特征向量能够更加完整和全面地保留语义特征,从而有利于提高目标词条与实体的匹配精准度。在本专利技术的优选方案中,在词条的特征向量学习过程中,通过将训练目标词条细化成字符级词条以便于充分利用文本训练集中的词条来尽可能地扩大识别范围,减少在后续待识别文本的目标词条识别过程中出现未登录词查询不到的几率。其中,通过下列公式来学习字符级词条的字符级向量:在上式中,表示分布式表示方法的似然函数,通过在上述似然函数中引入预设的同义词约束系数Q以便于克服分布式学习方法中存在的先验信息过强的问题,这样一来,可以学习到保留同义词特征的词条表示,使得语义相似的词条的特征向量也能相似,即使在目标词条与实体知识库中实体同义不同词的情况下,也能有效地识别出与目标词条对应的实体知识库中的相似本文档来自技高网...
【技术保护点】
1.一种文本链接嵌入方法,其特征在于,所述方法包括:对待检测文本进行分词得到目标词条,对所述目标词条进行字符级切分,得到所述目标词条对应的字符级目标词条;根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量;计算所述目标词条与预设实体知识库中实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体;将所述相似实体对应的实体链接信息嵌入对应的目标词条;其中,所述实体知识库是基于知识图谱结构构建的知识库。
【技术特征摘要】
1.一种文本链接嵌入方法,其特征在于,所述方法包括:对待检测文本进行分词得到目标词条,对所述目标词条进行字符级切分,得到所述目标词条对应的字符级目标词条;根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量;计算所述目标词条与预设实体知识库中实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体;将所述相似实体对应的实体链接信息嵌入对应的目标词条;其中,所述实体知识库是基于知识图谱结构构建的知识库。2.根据权利要求1所述的文本链接嵌入方法,其特征在于,在“根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量”的步骤之前,所述方法还包括:对预设的文本训练集进行分词得到训练目标词条,根据预设的字符级分词粒度对所述训练目标词条进行切分,得到字符级训练目标词条;利用机器学习算法获取所述字符级训练目标词条的字符级特征向量。3.根据权利要求2所述的文本链接嵌入方法,其特征在于,在“计算所述目标词条与预设实体知识库中实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤之前,所述方法还包括:根据预设的字符级分词粒度对所述实体知识库中的实体进行切分,得到所述实体对应的字符级实体;根据所述字符级实体与预设的字符级特征向量拼接出所述实体的特征向量。4.根据权利要求2所述的文本链接嵌入方法,其特征在于,“利用机器学习算法获取所述字符级训练目标词条的字符级特征向量”的步骤具体包括:按照下式所示的目标函数L并且利用所述机器学习算法获取所述训练目标词条的字符级向量:其中,所述T是所述文本训练集中训练目标词条的总数,所述Ux是所述训练文本对应的训练目标词条的集合,所述wt是集合Ux中第t个训练目标词条,所述Ct是wt的上下文的训练目标词条的集合,wc是集合Ct中的第c个训练目标词条;所述wv是集合Ux中的第v个词条,所述α是预设的影响因子,所述Q是预设的同义词约束系数;所述Gt是根据所述字符级分词粒度对wt进行分词后得到的字符级目标词条的集合;gi是集合Gt中第i个字符级词条;是gi的字符级特征向量;是利用集合Gt中每个字符级训练目标词条拼接得到的训练目标词条wt的特征向...
【专利技术属性】
技术研发人员:徐常胜,方全,李泳锡,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。