百度强引蜘蛛软件思路(蜘蛛软件 爬虫软件是干嘛的)

   谷歌SEO    

瞎扯篇

时间如白驹过隙,从2012年实习生算起,入坑SEO,已有六年矣,让我不禁感叹,芳华已逝,青春不再。细数六年风雨,主要历经了SEO内容堆砌时代、SEO外链时代、SEO点击时代。期间,做过大大小小的网站,有日均流量从0到1W的经历,当然也有经常被K站。

这得益于前辈开路的前提下不断实践,例如Zac、张国平、夫唯、夜息、张闻一、卢松松,还有同辈榜样GOGO闯等等,江湖之大,却难觅肖小纯踪迹,也许他们都不认识我,但一点也不妨碍我向优秀的人学习。

现状:

随着科技的不断进步,曾经辉煌夺目的PC时代,也被渐渐崛起的手机移动端取代,互联网也显得特别的浮躁,生怕被时代所抛弃,以致于相对见效慢的SEO优化手法越来越不被主流所推崇,使得除了医疗、旅游、电商、房产等一些大型网站的SEOer保持了应有的尊严,其他行业。

尤其是传统企业的SEOer的位置也略显尴尬,要么就被公司奉为“神”一样的人物,既要会SEO,又要会SEM,在SEM广告点击单价提高后,那么就要会信息流了,还要兼职做信息流的广告图,在繁杂的工作中迷失自我,经常扎心自问,我到底是个啥;要么就不被公司重视,放在一个可有可无的位置。

于是, SEOer们也渐渐的在寻求着改变 ,往运营、产品、新媒体、文案等互联网相关的岗位转型,有些在转型中找到了自我,而有些在转型中却更加的迷惘。

下面一起看看我们曾经走过的那些年代

SEO内容堆砌时代

TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇文章中找到它的关键词。

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上就是 TF*IDF,其中 TF(Term Frequency),表示词条在文章Document 中出现的频率;IDF(Inverse Document Frequency)。

其主要思想就是,如果包含某个词 Word的文档越少,则这个词的区分度就越大,也就是 IDF 越大。对于如何获取一篇文章的关键词,我们可以计算这边文章出现的所有名词的 TF-IDF,TF-IDF越大,则说明这个名词对这篇文章的区分度就越高,取 TF-IDF 值较大的几个词,就可以当做这篇文章的关键词。

SEO

SEO

基于TF-IDF算法衍生出来的内容堆砌时代,在这个时期盛行各种伪原创工具,堆积关键词密度,站长之家的密度建议2%至8%被誉为行业标准,还有四处一词(标题title、关键词keywords和描述description、内容、锚文本)的运用,让SEOer们在搜索引起中如鱼得水。

SEO外链时代:

PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。

Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

SEO

基于PageRank算法衍生出来的外链时代,那时候多浏览器多窗口同时运行,CtrlC加CtrlV无限循环,我们被亲切地称为CV工程师;而后黑马博客群发、虫虫营销助手,又如剑客手中的剑摄取着搜索引擎这个大流量池;当然还有大量的各式各样友情链接交换手法以及链轮手法。

SEO

SEO点击时代:

随着搜索引擎的算法机制越来完善,渐渐减弱对内容密度、外链的比重,倡导用户体验优先,那么点击算法孕育而生,由用户点击次数跟用户停留时间构成。

用户点击次数:

尽量控制点击次数,要和人为的点击比较接近(每个关键词点击在2-5次左右),从百度页面点击进去关键词网站页面,待2-10秒(页面不要关闭,时间待调整),再次从百度搜索进入,点击关键词页面进入网站,待10秒左右,并且最好可以再点击几次页面内的其他链接。确保整个过程用户停留在网站的时间大于1分钟以上。

用户停留时间:

论坛最佳时间在3分钟左右,门户资讯网站一般在1分钟-3分钟左右。

纵观SEO大神们众说纷纭的论点,我个人还是比较推崇:

SEO流量≈搜索需求覆盖率*收录量*排名*点击率

所以,接下来将会针对这四个因素具体叙述。

实践篇

1.搜索需求覆盖率

搜索需求覆盖率简单可以理解为词库,也就是说针对于自身行业建立词库需求表,那么可以通过以下几种途径去寻找关键词:

1) 百度相关搜索

2) 百度下拉框

3) 关键词规划师(http://www2.baidu.com/)

4) 5118(http://www.5118.com/)

5) 词库网(http://www.ciku5.com/)

6) 爱站词库(https://ci.aizhan.com/)

7)搜狗输入法词库(https://pinyin.sogou.com/dict/)

8)对手网站建立标签词库

建立词库需求表有两个作用:

1) 针对词库关键词去创造(采集)内容

2) 相近属性(词义)的关键词组成聚合(TAG)页

例如:怎样让皮肤变白_怎样使皮肤变白_皮肤黑怎么变白

其实这些词的意思是差不多的,这样组成在一定程度上满足了更多的人的搜索需求。

2. 收录量

收录量≈内容数量*内容质量

1)内容数量

a.采集法:采集法采集的内容质量相对较低,但是可以量取胜,把之前整理好的词库按照词性相近的原则,生成聚合页。演示思路如下:

第一步,假定做一个娱乐网站,在搜索引擎上搜索“娱乐”二字,挖掘出对手网站,把网址记录下来。

SEO

第二步,把记录的网址放到5118、爱站、站长网挖掘出有排名的关键词,然后把这些关键词都导出来,这边5118为例。

SEO

第三步,导出来的关键词肯定是有凌乱的,那么我们根据词性就行分类,选取每个关键词的核心词,这里需要借用Python的第三方库textrank4zh,代码参考如下:

SEO

然后通过整理之后,得出结果,包含核心词跟关键词

SEO

最后,通过VB工具,得出最终结果,同一个核心词都会显示在一列,那么这一列的关键词,我们就可以认为是相同词性的词,可以作为构成同一个标签(TAG)页。

SEO

第四步,根据标签页的关键词去采集内容,建议选择同一个标签页字符数最少的关键词,采集内容的渠道可以是今日头条,各大新闻网站,或者资讯类APP,具体怎么采,可以翻开《 抓了10W条数据,分析了1W个爆文,写出了10W阅读的内容 》里面的代码。

第五步,采集好内容之后,那么就可以构建是本地化搜索引擎,如火端搜索,xunsearch等,然后把内容导入本地搜索引擎当中,这里以xunsearch为例,虚拟机新建linux系统,搭建xunsearch系统,具体安装可参考《xunsearch安装步骤》,最终得到的搜索引擎如下图,那么就可以把我们的目标关键词放在搜索引擎搜索。

第六步,在虚拟机里面搜索,效率很低,那么可以利用python,用虚拟机IP作为网址,具体代码如下图,那么就可以得到标签关键词对应的文章,生成对应的标签页。

SEO

b.兼职法:配备人员在各大高校的论坛、贴吧、QQ群发布招募兼职的信息,组建兼职团队,分配相关关键词给兼职人员,按篇计费,以飘红率作为内容质量判断标准,飘红率越低,在搜索引擎的角度来说内容质量越高,兼职法在内容质量上的更加可控。

如果有开发能力公司,建议构建文章审核系统,把需要做的关键词上传到系统,兼职人员可以自主选择关键字,写完内容后再把内容上传到系统,系统挑取文章的随机内容在搜索引擎去判断飘红率。

当飘红率达到你设定的某个值的时候,自动发布到网站,兼职进入结算支付环节,反之则退稿,这样的话大大节省的人工成本。

SEO

2)内容质量

讲完内容数量之后,就来看一下怎么样构建质量高的内容,高质量内容需要满足用户需求,比如关键词“刘亦菲”,这里需要借助“百度指数”跟“百度知道”两个工具。

打开百度指数的需求图谱,大体可以看到搜索“刘亦菲”的人,可能会关注刘亦菲微博、刘亦菲电影、刘亦菲宋承宪、刘亦菲结婚照等等,那么就可以根据这些需求点去撰写内容

SEO

打开百度知道,就会发现网友比较关注刘亦菲的哪些问题,针对这些问题,也可以去撰写内容。

SEO

3. 排名

当做好搜索需求覆盖率跟收录量之后,接下来就到排名排名环节,虽说现在搜索引擎对于外链的比重减低,但对于高质量的链接还是非常倚重的,就目前而言可操作外链平台越来越少,很多论坛都不可带链接,只剩下少量的台可以带链接,像新浪博客、网易博客,期待你更多的挖掘。除了自己发外链,还可通过以下几种途径:

1)做内链

2)换友情链接,不局限于首页,还有列表页、内容页等,如果你的是大站的话,还可以按各种类别、城市去换(友情链接代交换代维护)。

3)买链接,在资金充裕的情况下不妨可以去购买链接。

4)扫漏洞、加黑链(慎用,犯法)。有部分的人利用一些开源CMS的漏洞,通过工具扫描出网站后台以及账号密码去加黑链。

4. 点击率

假定在没刷点击的情况下,如何提升点击率,当然百度惊雷算法也在打击刷点击的行为。

1)标题优化,一般带有免费、XX天学会字眼的标题相对能够吸引人的眼球,在一定程度上可以提升点击率

SEO

2)图文并茂,图片像素在800px*800px以上,能够有效的提高出图率。

3)对于有实力的品牌,建议去做个官网认证。

番外篇

蜘蛛池:

蜘蛛池就是使用多个服务器和站点域名,用正规内容站点养着大量的蜘蛛,每天提供大量内容让蜘蛛抓取,在需要某些链接被收录的时候,把这些链接提交服务器进入蜘蛛池,就会有大量的蜘蛛迅速爬取这些url。

目前而言,蜘蛛池对收录还是有一定的帮忙的,如果是百万页面级别的站点可以考虑用蜘蛛池来提升收录率,不过蜘蛛池的成本不算低。

蜘蛛池程序:2000左右/年

258ip服务器:1000左右/月

域名:20左右/个,500个域名起

这种将大量的长尾关键字利用大型平台推送到百度进行收录与排名,对引蜘蛛有很好的促进收录,当然也可以包月体验。目前,熟悉的朋友知道,松松商城新增了上百个域名套餐而且效果不错,点击进入查看。

站群

站群通常由几个到几百个网站组成,站群最简单的理解就是一群网站。而这些网站都是属于一个人的。那么这些网站就称之为此站长的站群。以前的站群更多是采用站群程序,批量生成站点,这些站群的效果比较差了。

如果是传统型企业,做竞争量不是很大的关键词,可以考虑做精细化站群,一个关键词对应一个网站,一个服务器做5个域名,域名解析到目录页,相当于一个后台程序就有5个网站。

假如你有4台服务器,就相当于有20个网站,一个传统企业来说有20个网站可操作的空间就很大了,换友链,做内链都很有优势,关键词排名比较容容易做上去,在某种程度上说,可以霸屏某个小行业的行业关键词了。

作者:肖小纯

来源:卢松松博客

 标签:

评论留言

我要留言

欢迎参与讨论,请在这里发表您的看法、交流您的观点。