世界上第一个 Spider 程序,是 MIT Matthew Gray 的 World wide
Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网 上的服务器数量,后来则发展为也能够捕获 URL。搜索引擎由爬行器(机 器人、蜘蛛),索引生成器,查询检索器组成。
1993 年 2 月,六个斯坦福大学的大学生利用分析字词关系,来对互 联网上的大量信息作更有效的检索。到 1993 年下半年,这已经是一个 完全投资项目,他们还发布了一个供 web masters 在自己网站上使用的 搜索软件版本,后来被叫做 Excite for Web Servers。
1994 年 4 月,美籍华人杨致远和 David Filo 共同创办了 Yahoo。随 着访问量和收录链接数的增长,Yahoo 目录开始支持简单的数据库搜索。 因为 Yahoo 的数据是手工输入的,所以不能真正被归为搜索引擎,事实 上只是一个可搜索的目录。
1995 年,一种新的搜索引擎形式出现了— — 元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换 ,处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返 回的所有查询结果,集中起来处理后再返回给用户。
智能检索的产生:它是利用分词词典、同义词典,同音词典改善检 索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题 词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网 络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
Computer Robot是指某个能以人类无法达到的速度不断重复执行 某项任务的自动程序。由于专门用于检索信息的 Robot 程序像蜘蛛 (spider)一样在网络间爬来爬去,因此,搜索引擎的 Robot 程序被称为 spider 程序。
1995 年 12 月,DEC 的正式发布 AltaVista。AltaVista 是第一个支持 自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如 AND, OR, NOT 等)。用户可以用 AltaVista 搜索新闻组的内容,并从互 联网上获得文章,还可以搜索图片名称中的文字、搜索 Titles、搜索 Java applets、搜索 ActiveX objects。AltaVista 也声称是第一个支持用户自己 向网页索引库提交或删除 URL 的搜索引擎,并能在 24 小时内上线。 AltaVista 最有趣的新功能之一,是搜索有链接指向某个 URL 的所有网 站。在面向用户的界面上,AltaVista 也作了大量革新。它在搜索框区域 下放了 “tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这 样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣 功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997 年,AltaVista 发布了一个图形演示系统,帮助用户从成千上万的搜索结果中找到想要 的。
1997 年 8 月,Northernlight 搜索引擎正式现身。它曾是拥有最大数 据库的搜索引擎之一,它没有 Stop Words,它有出色的 Current News, 7100 多出版物组成的 Special Collection、良好的高级搜索语法,第一个 支持对搜索结果进行简单的自动分类。
1998 年 10 月之前,Google 只是斯坦福大学的一个小项目。1995 年 博士生 Larry Page 开始学习搜索引擎设计,并于 1997 年 9 月 15 日注册 了 google.com 的域名。1997 年底,在 Sergey Brin 和 Scott Hassan、Alan Steremberg 的共同参与下,BachRub 开始提供 Demo。1999 年 2 月,Google 完成了从 Alpha 版到测试版的蜕变。Google 公司则把 1998 年 9 月 27 日认作自己的生日。Google 以网页级别(Pagerank)为基础,判断网页 的重要性,使得搜索结果的相关性大大增强。Google 公司的奇客(Geek) 文化氛围、不作恶(Don’t be evil)的理念,为 Google 赢得了极高的口 碑和品牌美誉。2006 年 4 月,Google 宣布其中文名称“谷歌”,这是 Google 第一个在非英语国家起的名字。
1996 年 8 月,搜狐公司成立,制作中文网站分类目录,曾有“出门 找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工 编辑的分类目录已经不适应。搜狐在 2004 年 8 月独立域名的搜索网站 “搜狗”,自称是“第三代搜索引擎”。
Openfind 创立于 1998 年 1 月,其技术源自台湾中正大学吴升教授 所领导的 GAIS 实验室。它起先只做中文搜索引擎,鼎盛时期同时为三 大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但 2000 年后市场逐 渐被百度和 Google 瓜分。2002 年 6 月,Openfind 重新发布基于 GAIS30 Project 的 Openfind 搜索引擎 Beta 版,推出多元排序(PolyRankTM), 宣布累计抓取网页 35 亿,开始进入英文搜索领域。
2000 年 1 月,百度(Baidu)公司创立。2001 年 8 月发布 Baidu.com 搜索引擎 Beta 版,2001 年 10 月 22 日正式发布 Baidu 搜索引擎,专注 于中文搜索。
2003 年 12 月 23 日,原慧聪搜索正式独立运作,成立了中国搜索。 2004 年 2 月,中国搜索发布桌面搜索引擎网络猪 1.0,2006 年 3 月中搜 将网络猪更名为 IG(Internet Gateway)。
2005 年 6 月,新浪正式推出自主研发的搜索引擎“爱问”。2007 年 起,新浪爱问使用 google 搜索引擎。
2007 年 7 月 1 日全面采用网易自主研发的有道搜索技术,并且合并 了原来的综合搜索和网页搜索。有道网页搜索、图片搜索和博客搜索为 网易搜索提供服务。其中网页搜索使用了其自主研发的自然语言处理、 分布式存储及计算技术;图片搜索首创根据拍摄相机品牌、型号,甚至 季节等高级搜索功能;博客搜索相比同类产品具有抓取全面、更新及时 的优势,提供“文章预览”,“博客档案”等创新功能。
评论留言