The asymmetric formatting of word intervals based on the uncertainty between words includes the initial filtering process and the subsequent text formatting. The ambiguity filter generates the mapping (output) of the keys and values from the corpus or word sequence frequency data (input). The text formatting process uses the value to unsymmetrically adjust the width of the interval adjacent to the key. In order to filter process analysis corpus can be generated key and the value of the mapping performed once, and once generated, the key value mapping can be used repeatedly subsequent text processing.
【技术实现步骤摘要】
【国外来华专利技术】用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法相关申请的交叉参考本申请要求2015年3月10日提交的美国临时专利申请No.62/131,187“SystemsAndMethodsForAsymmetricalFormattingOfWordSpacesAccordingToTheUncertaintyBetweenWords”的优先权,所述临时专利申请以引用的方式整体并入。
本专利技术涉及根据词之间的不确定性来对文本呈现中的词间间隔的宽度进行不对称格式化以提高阅读体验。背景短语格式化是用以提高阅读体验的排印技术,其中经常通过使短语之间的词间隔较大并使短语内的词间隔较小来强调句子中的短语。这种不对称词间隔大小设置在文本中提供视觉线索以辅助读者对含义单位进行分块。已示范了这种技术的手动、半自动和自动使用以提高阅读理解力、速度和乐趣。短语格式化的一种系统和方法(Bever和Robbart,2006)使用具有三层连接模型的人工神经网络:输入层、“隐藏”层和输出层。这个人工神经网络对文本输入数据进行训练,提取模式,诸如短语停顿的可能性,并且为库中所存储的 ...
【技术保护点】
一种用于确定跨越文本中的词间隔的不确定性的方法,其包括以下步骤:a)提供文本输入;b)提供功能词的数据库;d)检查所述文本输入的多个词;e)将所述多个词中的每一者识别为所述数据库中的所述功能词中的一者,或如果所识别的所述词不在所述数据库中则将其识别为内容词;f)为每一独特的伪句法混合生成n字母组频率计数,其中所述独特的伪句法混合中的每一者是由以下项中的至少一项组成的n字母组:词汇身份、词位、词汇类别和开放类词;h)对于接下来的多个词重复步骤d‑f直到到达末尾文本输入为止;以及g)使用所述n字母组频率计数来计算所述独特的伪句法混合中的每一者的不确定性;其中所述词汇身份是词,所 ...
【技术特征摘要】
【国外来华专利技术】2015.03.10 US 62/131,1871.一种用于确定跨越文本中的词间隔的不确定性的方法,其包括以下步骤:a)提供文本输入;b)提供功能词的数据库;d)检查所述文本输入的多个词;e)将所述多个词中的每一者识别为所述数据库中的所述功能词中的一者,或如果所识别的所述词不在所述数据库中则将其识别为内容词;f)为每一独特的伪句法混合生成n字母组频率计数,其中所述独特的伪句法混合中的每一者是由以下项中的至少一项组成的n字母组:词汇身份、词位、词汇类别和开放类词;h)对于接下来的多个词重复步骤d-f直到到达末尾文本输入为止;以及g)使用所述n字母组频率计数来计算所述独特的伪句法混合中的每一者的不确定性;其中所述词汇身份是词,所述词位是词可采用的形式的集合,所述词汇类别是所述词的词性,且所述开放类词是缺乏句法信息的内容词。2.如权利要求1所述的方法,其中所述文本输入是含有文本的文档。3.如权利要求1所述的方法,其中所述文本输入是从语料库生成的所述n字母组频率计数。4.一种用于确定跨越文本中的词间隔的不确定性的系统,其包括:功能词的数据库;计数器,其用于为每一独特的伪句法混合生成频率计数,其中伪句法混合由以下项中的至少一项组成:词汇身份、词位、词汇类别和开放类词;以及过滤器,其用于使用所述生成的频率计数来计算跨越伪句法混合的词间隔的词汇不确定性;其中所述词汇身份是词,所述词位是词可采用的形式的集合,所述词汇类别是所述词的词性,且词项的开放类状态是缺乏句法信息的内容词。5.如权利要求4所述的系统,其中计算所述不确定性导致提供键和值的输入映射,所述键中的每一者指示至少一个伪句法混合,且所述值指示跨越与所述键相邻的所述词间隔的所述不确定性。6.一种用于格式化文本的方法,其包括:提供文本输入;提供键和值的映射输入,所述键各自指示独特的伪句法混合中的至少一者,且所述值指示跨越与所述键相邻的词间隔的不确定性;以及检查所述文本输入以在所述映射输入中查找所述键并基于所述检查的结果而格式化所述文本输入的相邻间隔的宽度,其中所述文本输入的所述相邻间隔的所述宽度的所述格式化是通过所述值来确定。7.如权利要求6所述的方法,其中通过改变间隔字符、前一字符或后一字符的以下字符属性中的至少一项来调整所述相邻间隔的所述宽度:字母间距、水平缩放、字距调整、水平偏移、填充、左边距或右边距。8.如权利要求6所述的方法,其中通过在HTML文档内插入HTML标签来调整所述相邻间隔的所述宽度。9.如权利要求6所述的方法,其中通过在XML文档内插入XML标签来调整所述相邻间隔的所述宽度。10.如权利要求6所述的方法,其中通过在XHTML文档内插入XHTML标签来调整所述相邻间隔的所述宽度。11.如权利要求6所述的方法,其中来自所述映射输入的所述值中的一者指示绝对间隔大小。12.如权利要求6所述的方法,...
【专利技术属性】
技术研发人员:C·D·尼古拉斯,K·R·布朗菲尔德,
申请(专利权)人:非对称实验室公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。