5月6号我百度搜索实时案例时,发现有新东西,最左侧出现Ai搜索,整合文心一言到百度搜索,类似于微软的新Bing搜索,把chatgpt内容生成技术内嵌入Bing搜索。
我赶紧测试,看有没有一些技术发现。两天测试下来,发现了优质内容对于搜索引擎的重要性和机器学习的先进性。
生成式Ai不会创造,只能采集已有的内容,而这个内容会被概括被浓缩,再以批注的方式给出原链接出处。怎么概括浓缩,其实就是搜索引擎的抓取、检索、索引,少了排序,点到索引给结果就止。什么样的内容会索引展示出来,这是个常问常新的问题,满足搜索引擎用户需求和符合相关算法规律的内容。
以前判定满足搜索引擎用户需求,主要是用户点击率、用户停留时间,现在从生成内容看,给出的批注链接来源是首页排名第一条第二条内容(内测阶段,还不够完善,版本升级会更全面)。还需要结合很成熟的搜索步骤给出排序结果,然后反馈到ai搜索界面。
百度符合相关算法规律的内容,主要是超链分析,2000年李彦宏在成立百度公司之前申请的“超链文件检索系统和方法”。超链分析的基本原理是在某次搜索的所有结果中,被其他网页用超链指向得越多的网页,其价值就越高,就越应该在结果排序中排到前面。超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合量性,因为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可以反映网页的重要程度,从而给用户提供出更重要、更有价值的搜索结果。
1.PageRank算法。该算法将超链分析的两个假设进行了引中,并作为其基本思想:如果一个页面被多次链接,则这个页面很可能是重要的;如果一个页面尽管没有被多次链接,但被一个重要页面链接,则这个页面很可能是重要的;一个页面的重要性被均匀分配,并被传递给所有它所链接的页面。
2.HITS算法。该算法的基本思想是:权威(authority)网页和中心(hub)网页的概念,权威网页是被大量超链接所指向的网页,中心网页本身未必具有权威性,但却包含了多个指向权威网页的超链接的网页;权威网页和中心网页之间的依赖关系,一个好的中心网页应该指向很多好的权威网页,而一个好的权威网页则应该被很多好的中心网页所指向。
百度各种算法都是基于超链分析,飓风算法、清风算法、绿萝算法、石榴算法、冰桶算法等,都是为了避免利用超链分析技术,用户不得不接受一种根据某种标准进行网页排名的信息服务。
我们会看到百家号、百度百科以及问一问等构建的内容生态,再加上小红号的笔记和资讯网站,短视频权重很高,排名靠前展现充分。
深度学习技术迭代让我们ai时代,其seo的基本逻辑:
1.进行语义搜索。知识库是语义搜索引擎进行推理和知识积累的基础和关键,而Ontology(本体)则是知识库的基础。
2.查询倒排索引。在海量数据中,使用hash去重单词term。
3.根据倒排索引出来的网页,让bert等深度学习算法预估倒排索引出来的每一个网页的概率,根据倒排索引的得分和深度学习预估的概率进行排序。
光看概念就很拗口,很值得持续研究和挖掘。李彦宏讲,搜索本质上就是在解决人工智能最终要解决的那个问题,就是机器要真正地理解人的意图,并且能够做出相应的回应。百度从2010年前后十几年的研发投入,目标就是让机器智能逐步接近人的智能。说一千道一万,我觉得其实还是要建立在优质内容上,亿万数据库来源去回应机器智能,以满足我们日常的各种搜索请求。
生成内容下边右侧可以反馈,点赞或负向反馈,负向反馈有几个选择可以勾选提交,类型于文心一言的界面反馈。
下端还有相关搜索,一般3个。点一个试试,即时生成内容,不一会功夫内容展现出来,同样有批注链接来源。语音提问,搜索引擎现在的基本功能,不再展开讲。
PC端的百度Ai搜索测试版更丰富一下,多了灵感中心,绘画风格直接打上提示词就能即时生成。
搜索引擎作为连接人与互联网终端的工具,无论内容是科普性质还是本体,还是活动类、多角度的评论等,都是有迹可循,不断变化的。这一次百度搜索和文心一言的深度融合,是一次重大机遇,我看到了未来可期,学习新理念、精进知识库,大家一起加油!
本文由:潜江零亿互联网广告原创,禁止转载
评论留言