当我们提到一个问题,外链的作用的时候,大多数人的回答肯定是能够吸引蜘蛛来抓取网站,这是对的,但只是说中了其中的一点,在google对于外链的计算中被制定了一个值,也就是我们经常听的pr值,这与我们百度的br值不是一个概念,br值只不过是站长工具平台自身的一个判断,而并非是经过搜索引擎科学计算出来的一个指标。
外链的作用能够吸引蜘蛛来抓取,但也分优劣,优质的外链能够我们事半功倍,google在这一块实施了PageRank的算法来进行度量,用一个简单的理解方法就是把指向网页的每个链接当做对自身页面的投票,获得更多票数的网页将会胜出,但是这一算法渐渐被网站营销者所熟知,有些人开始通过非正规手段来对链接进行建设,这就造成了链接的性质不是自发的,从而破坏了原来的本意,同时也推进了许多算法的改进。
我们先来了解原始的PageRank算法,最开始是由两位大学生的关于PageRank论文的基础上构建的,论文指出,指向网页的每个链接是对页面的投票,但是投票的权重并不同。首先我们授予每个网页很小的PageRank值。如下图
这些web中单独的页面通过url的形式相互链接,而这些单独的页面在接收链接之后,就会从别的页面中获取到相应的PageRank值,谁接收的页面链接越多代表被传递的PageRank值就越多。如下图
那么就会有疑问了,自身页面的PageRank会不会被传递完,因为总数少于该页面的PageRank,所以它总是会为自己保留一部分的,如下图所示 传递的PageRank以f(x)表示:可传递的PageRank是PageRank总数(x)的函数。
如果该页面只连接到另一个唯一页面,它就会将所有的可传递的PageRank传递给该页面,如下图所示 页面B接收了页面 A 的所有可传递的PageRank。
但是一个页面不可能总是链接到另一个唯一页面,我们经常看到的一个页面会链接多一个页面,所以情况就变得比较复杂了,当发生这种情况时,把可传递的PageRank分配到所有接收链接的页面上。如图所示 页面B和页面C各得到页面A可传递的PageRank的一半。
在原始的PageRank公式中,url的链接权重在每个页面中都是平等的,但是web发展到现在,已经不是这样了,但是在理解最初的意图时任然有价值,如下图所示 PageRank在两个相互链接的页面之间相互流动
像这样的交叉链接的形式,在计算中变得非常复杂,我们可以看到页面B链接回页面A,将一些PageRank(f(y))传回到页面A。如下图
我们可以看到页面B链接到页面 A形成了相互的链接时,页面A的PageRank(x)取决于页面B的PageRank(f(y)),而f(y)又取决于f(x)。此处,页面A传递给页面c的PageRank也受到从页面B到页面A的链接营销,。这就造成了非常复杂的情况,每个页面的PageRank的计算都需要经过递归分析来确定。
我们换种阐述方法来说明以上情况:q是页面B从页面A的链接获得的PageRank(完成迭代计算);Z是页面A从页面B的链接中得到的PageRank(在迭代计算完毕之后)
如下图这种情况,因为引入了页面B 到页面D的链接而更加复杂。在这个例子中,页面A、B和C是同一个域上的内部链接,页面D代表不同的网站,在传统的PageRank公式中,内部和外部链接已完全相同的方式传递PageRank,发现这是一个缺陷,因为内容发布者开始意识到指向其他网站的链接会从自己的网站传递PageRank。
我们可以看到,页面B链接到维基百科,所以把一些可传递的PageRank发送到那里,而不是发送到页面B链接的其他页面。在下图中,用参数W代表因为链接到D而没有发送给页面 A 的PageRank。
PageRank的 “泄漏” 概念指出了算法中根本缺陷,一旦人们意识到PageRank的工作原理和PageRank泄漏的问题,他们就不会愿意链接到其他的网站,很明显大家都采用这种方法来应对,那么google的这种“投票”方式的算法就会收到影响,缺陷会存在,但是google也在不断地跟新这个算法来弥补这个缺陷。这些修改结果就是:高质量的网站应该大部分都会连接到其他的高质量的网站。
评论留言