你试过搜索一个关键词时浏览过最后一页的网站不?如果你没有浏览过马上去浏览一次,我们发觉引擎其实上找到的网页当中很多都是因为引擎不能绝对明确肯定你网站的主题而造成排后的,换言之也即是说只有让引擎非常明确肯定我们的主题(关键词)才能取得理想的第一步排名效果。
      
那么如何才能使搜索引擎明确我们的主题呢?要回答这个问题我们就不能是听这个说那个道,我们首先需要知道的是“搜索引擎分析系统”的工作原理和流程,只有这样才能有效地进行实践;分析系统主要完成的工作包括:信息抽取、网页消重、中文分词和PageRank计算等。
      
对于分析系统来说,基础和首要的工作是分门别类地从半结构化网页中抽取出有价值的能够代表网页属性,例如锚文本,标题和正文等。并将这些属性结合起来组成一个网页对象,这种处理称为网页结构化,它是将半结构化的网页中的锚文本、标题、关键词、描述、正文标题、正文、正向链接等抽取出来进行打包出一个搜索引擎网页对象。
      
锚文本在网页中的位置相当于网页的第二标题而非H标签,比方说如果你的网站有数千页带有同一个关键词的锚文本指向你的某一页就相当于告诉引擎你的某一页与这个锚文本的相关性很高,如果是外链中的锚文本这个价值就更大了,相当于别的网站来证明你的网站在这方面做得很好,那么就算是你的网页标题并不出现这个关键词同样可以取得不错的排名,当然,第二是比不上第一的,我们可以搜下“seo”你就会发现点石的并没有出现此关键词,这是因为网民点击行为外这个锚文本也在起到一定作用,又或者你百度一下我的网名“网里偷闲”你会发现在第一页当中有一个“装修图满天下”这个网站的标题和内容均没有出现过我的网名竟能排进了第一页,这也是因为这个锚文本起到的作用。
     
网页标题和关键词和描述方面就不需要多谈了,“点石”和"seo资料站"都有很多这样的文章,我们就直接跳到正文标题来说吧,引擎是如何识别你的正文标题的呢?在一个内容这么多的网站中难道就是靠一个h1就可以识别正文标题了?呵呵,可没这么简单,引擎是通过投票方法得到了正文再进行分析的,说到正文投票方面就不得不先说说它的工作原理了。
      
正文具有分块保存的特性,因此我们引入文本块的概念,对于那些诸如<P></p>等标签间的文本认为是一个文本块,例如 <td>网里偷闲seo:走好seo的第一步</td>称为一个文本块,一般来说,网页会出现3种类型的文本块。

1、主题型文本块

2、目录型文本块

3、图片型文本块。

主题型文本块是大段文字的文本块,例如:<td>网里偷闲seo:走好seo的第一步</td>;目录型文本块是描述链接的文本块,例如<a href="">网里偷闲seo:走好seo的第一步</a>,网片型文本的同上差不多,例如:<img src="">.......</img>。
      
我们举一个例子来说明得到正文的投票法,假定一个规则集合包含以下3条规则,1、如果文本块文本的长度少于10个字,得分为0;介于10-50个字得分为5分;介于50-250个字得分为8分,超过250个字得为10分。2、如果文本块文本位置在右侧得分为5分;在中间得分为10分。在顶部得分为3分,看到这里大体上知道为何丘仕达的网站都喜欢在顶部加个关键词之类的了吧?投票算法的过程是依据不同的规则从不同的角度依次打分,文本块分高的是正文的一部分,投票公式如下:文本块1、文本块2、---------文本长度规则----------文本大小规则-------得出文本1和2的分数,高分的文本被认为是正文。
      
正向链接没什么好说的,跟锚文本差不多的东西,这次谈的是抽取,下一篇再谈消重,如果是新手看这篇文章可能有点找不着头绪,多看几次吧,我也是用这个办法在百度正常收录后将“装修图片”排到了第二名的原因,看不明的朋友,可以参照下刚做的这个图片新站。