“ 我引导灵魂穿过荒原,保护他们免遭恶魔毒手。我告诉他们真相,然后把他们送到他们要去的地方 “
——《摆渡人》
互联网中的信息内容极其丰富,如果没有搜索工具,单纯的靠自己寻找,无异于大海捞针。而搜索引擎恰恰是帮助用户定位需要的信息,是网上冲浪的不可或缺的工具之一。
顾名思义,搜索引擎就是一种根据用户输入的信息,经过特定的算法和策略,寻找出匹配内容推送给用户的检索技术。如何通过用户给出的信息,快速高效的推演出呈现的内容,并不是一件容易的事情,所以搜索引擎需要依赖许多技术的支持,比如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术等等,有时候还需要用到自然语言处理技术等。同时还会添加一些辅助系统,比如相似词匹配,快速查询等功能,为用户提供更好的搜索体验。
搜索引擎的历史相当悠久,伴随着互联网发展不断进步,总体而言,搜索引擎的发展可以概括为四个阶段,每个阶段的代表产品有以下如下:
第一代搜索引擎:雅虎——Lycos
Lycos是第一款真正意义上基于互联网的搜索引擎, 开创了人工分类目录的先河,其开发厂商正是20世纪末互联网奇迹的创造者之一——Yahoo(雅虎)。通过人工将各种网站内容分类存储,用户根据可以很轻松的通过目录寻找到想要的网站。至今仍有一些网站采用此类搜索引擎。
第二代搜索引擎:谷歌——Google
随着互联网建设越来越完善,网络信息也越来越多样化,单纯的查找页面已经不能满足人们的需求,人们希望对内容进行查找。于是便出现了第二代搜索引擎——关键字查询,其中的佼佼者便是Google,通过在网页链接分析技术的基础上,增添了覆盖全网页的关键字搜索,然后对主要信息做以分析,提取出最匹配的内容推送给用户。
第三代搜索引擎:谷歌——Google
网络的发展速度远超出大部分人的想象,互联网急速膨胀,虽然第二代搜索引擎可以定位至内容,但是很多时候都存在这不够精确,不够快速的问题。谷歌又一次走到了同行的前面,及时推出了第三代搜索引擎。相较于前两代,第三代搜索引擎在覆盖更广的同时,更加注重智能化,个性化。充分应用了自动聚类、分类等AI智能技术,同时采用了区域智能识别以及内容分析技术,配合人工介入,实现技术和人工的完美结合,增强了搜索引擎的查询能力。为发展搜索引擎的技术开创了崭新的局面,也是目前最为先进的搜索引擎。
第四代搜索引擎:尚在研发中
如何在多元化的信息时代搜索到全面的详细资料,是各大厂商一直存在的问题。根据现有的硬件设施,短期内实现是不太可能的。除却硬件限制,在搜索策略方面,特征算法和文本智能化是这代搜索引擎的关键技术。需要注意的是,尽管目前有不少公司宣扬自己的搜索引擎多么智能,多么先进,更多的是噱头而已,远达不到第四代搜索引擎的要求,仍处于一个研发的过程。
从键入信息到输出结果,搜索引擎的工作流程可以分为三个步骤,简单描述如下:
举个例子,就在头条的搜索框里输入“成都”,可以看到有很多相关的内容弹出,我们将过程细化。
1.网页抓取
这一步属于查询前的准备操作,和普通用户访问网页一样,搜索引擎蜘蛛访问web页面,接收到请求后,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。其中外部链接较为特殊,当蜘蛛抓取某个外部链接页面URL的时候,需把该网站的URL下载回来分析,当蜘蛛全部分析完这个URL后,再把这个URL存入相应的表中。像例子中的关于成都的种种信息,都是事先存在服务器中的。
2.建立索引
在搜集到“成都”的诸多消息后,还需要进行预处理,建立索引,需要进行一系列的操作,比如判断网页的类型是否合适,衡量其重要程度,丰富程度,检查超链接是否可用 ,去除重复网页去掉。经过这些处理后,原始页面已经不是最开始的Web,而是浓缩成了反映页面主题内容的、以词为单位的文档。建立索引是最为复杂一步,也是难度最高的一步。索引建立的质量如何,直接决定了搜索引擎的性能。
3. 查询服务
现在关于“成都”的信息已经整合好并建立了索引,当用户输入“成都”的字样时,搜索引擎首先会进行分词处理、然后依据情况对整合搜索的内容判断、检查有无错别字和拼写错误。接下来在索引数据库中找到所有包含“成都”的网页,进行排序,最后按照一定的顺序展现在用户面前。
需要注意的是,在整个查询服务中,最为关键的地方在于搜索结果如何排序,直接影响到用户的满意度,而排序需要考虑到很多因素,比如关键词距离,词频及密度,链接和页面的权重等等。所以通常情况下,我们搜索出来的结果,最前边的几个选项往往是最贴切我们需求的链接。
尽管时至今日,搜索引擎在基础结构和算法上已经较为成熟,但是依旧存在着一些令人头疼的问题:
1.时效性
互联网用户众多,数据海量,必然导致的一个情况便是带宽紧张,网络拥堵。而且现在网页都处于一个快速变化的状态,相信各位都遇到过点开链接却发现已经失效的情况,这是因为更新的网页在爬虫程序还来不及抓取的时候却已经被删除,数据库没有及时更新导致的,如何更快速的实时同步网页信息,是一个亟需解决的课题。
2.可靠性
当下有些公司和组织,为了牟利,会通过利用一些技术上的漏洞或不正当的商业行为,采用作弊手法干扰正常的搜索结果,用户搜索出的内容会弹出大量广告或无关内容。除此之外,按照现有的数据挖掘技术和硬件限制,搜索引擎仍未达到理想程度。
3.存储问题
即使是经过爬虫预处理过的数据,依旧是非常庞大的。尤其是现如今大数据时代,对存储技术有了更高的要求。传统的结构化数据库存储方式虽然便捷,高共享低冗余,但是查询率较低,难以实现并发查询,总体而言效率仍待提高。
可以说,从搜索引擎的发展中,可以折射出互联网发展的历程。时至今日,人们渴望搜索引擎能够深入开展信息挖掘,在迅速抓取信息的同时,还能保证内容的广泛性和多样化。这也是搜索引擎未来的发展趋势:社会化,移动化,个性化,多媒体化。相信在未来某一天,我们都可以真正享受到“足不出户天下知”!
评论留言