1. 李春SEO博客首页
  2. 投稿内容

【痞子瑞SEO培训】:正文提取知识

李春SEO博客

[粗俗SEO训练]:在文本抽取知识网络上有很多文本提取算法,有的基于DOM树、文本长度、投票、视觉信息,所有这些都可以简单的理解,但对于国内主要搜索引擎百度来说,我们必须尽最大努力找出他在这方面是否有专利。2011年百度专利“网页主题识别方法和设备”申请。这就是如何确定主题。该页面被划分为块,即合并一些标记。一般来说,html标记是文本的常见标记,div、table、td等用于块标记。通过合并,可以简化页面的结构,便于分析。2.合并块如果属于同一级别,属于可合并类型(其类型不限于图片、文本、链接等),就可以简单地理解为段落的合并。3.对合并块的字体格式信息、行号、宽度和位置的识别率为4.5%。为了识别主题,有相应的投票机制和算法,例如:如果块位于网页的中间,行数和宽度大于预设的阈值,标题字体大小和文本字体大小不同,则被识别为主题。以上是这项专利的主要方法,但应该理解的是,不同的行业实际上有不同的识别规则,而有些行业由于数据结构的特殊性,因此,它并不是文字的数量或主题,如商品页面,最多的字段可能是评论块。因此,我们必须对不同的行业进行不同的分析。

原创文章,作者:lichun,如若转载,请注明出处:http://www.lichunseo.com/tougaoneirong/8082.html