搜索引擎的分类有哪些 搜索引擎基础架构概述

你对搜索引擎不会陌生。搜索引擎是互联网发展最直接的产物。它们可以帮助我们从海量的互联网资料中找到我们查询的内容,也是我们日常学习、工作、娱乐中不可或缺的查询工具。之前用谷歌和百度搜索,对搜索引擎的知识结构没有整体概念。前阵子的实习让我有机会全面了解了搜索引...

你对搜索引擎不会陌生。搜索引擎是互联网发展最直接的产物。它们可以帮助我们从海量的互联网资料中找到我们查询的内容,也是我们日常学习、工作、娱乐中不可或缺的查询工具。之前用谷歌和百度搜索,对搜索引擎的知识结构没有整体概念。前阵子的实习让我有机会全面了解了搜索引擎,挺有意思的。所以,即使在找工作的压力下,你也必须花时间总结和复习你所学的知识,以便以后可以参考。如果能帮到别人,那就更好了。搜索引擎的标准定义:搜索引擎是指按照一定的策略和特定的计算机程序从互联网上收集信息,并对信息进行组织和处理后,为用户提供检索服务,并将用户检索到的相关信息展示给用户的系统。从上面的定义中,我们可以得到关于搜索引擎的几个关键步骤,即:收集信息;组织和处理信息;显示信息。实际上,真正的搜索引擎架构也是按照这三块来构建的。1.搜索引擎的分类搜索引擎有很多种,按照工作方式可以分为以下几类:1)全文搜索引擎全文搜索引擎可以说是真正的搜索引擎,包括Goggle、百度等我们身边知名的大搜索引擎,都属于全文搜索引擎。全文搜索引擎从网站中提取信息来构建web数据库。全文搜索引擎如何收集网站?其实这里一般有两种方法:1 >:搜索引擎定期派出网络爬虫(也称蜘蛛或机器人)在互联网中搜索网站。一旦发现新的网站,他们会自动提取其信息,然后添加到自己的数据库中;2 & gt网站所有者主动向搜索引擎提交自己的网站信息,但主动提交网站并不一定保证自己的网站会被搜索引擎收录。网站主可以通过外部链接来提升自己网站的关注度(这属于SEO的知识)。全文搜索引擎如何显示查询结果?当用户输入查询时,搜索引擎将在数据库中搜索。如果找到一个符合用户要求的网站,它会使用一种特殊的算法——通常是根据网页中关键词的匹配度、位置、频率、链接质量——计算出每个网页的相关度和排名,然后根据相关度将这些网页链接按顺序返回给用户。我们可以看到全文搜索引擎的特点是搜索率比较高。2)目录搜索引擎目录搜索引擎主要是按类别收录网站,查询时不需要输入关键词。最典型的目录搜索引擎有新浪、雅虎等。你不需要在索引中输入任何单词。你可以根据网站提供的主题分类目录,一层一层点击,找到需要的网络信息资源。虽然有搜索功能,但严格意义上还不能称之为真正的搜索引擎。只是按目录分类的网站链接列表。用户完全可以根据分类目录找到自己需要的信息,不依赖关键词进行查询。如果把一本书比作一个网站,就好比去图书馆按地区查找我们需要的书,所以被形象地称为目录搜索引擎。3)元搜索引擎在接受用户的查询请求后,元搜索引擎同时在多个搜索引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。在中文元搜索引擎中,搜星是具有代表性的一个。在搜索结果排列方面,有的直接按来源排列搜索结果,比如Dogpile;还有的按照自己的规则重新排列结果,比如Vivisimo。4)垂直搜索引擎在介绍垂直搜索引擎之前,我们先解释一下横向行业和纵向行业的含义。横向行业一般指跨行业,包括多个领域或行业;垂直行业是指某个行业或某个领域。了解了垂直行业之后,我们就不难理解垂直搜索引擎了。垂直搜索引擎是近年来新兴的搜索引擎,不同于一般的网络搜索引擎。垂直搜索侧重于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、购物搜索等。),并在其特定搜索领域拥有更好的用户体验。相对于动辄需要上千台搜索服务器的一般搜索,垂直搜索要求硬件成本低,用户需求具体,查询方式多样。典型的垂直搜索引擎代表包括Qunar.com和携程。5)除了以上四类搜索引擎,其他类别的搜索引擎还有***搜索引擎、门户搜索引擎、免费链接搜索引擎,这里就不详细介绍了。2.搜索引擎的基础设施。一个优秀的搜索引擎需要复杂的架构和算法来支持海量数据的获取和存储,以及对用户查询的快速准确响应。从架构层面来说,搜索引擎需要具备获取、存储和处理数百亿级海量网页的能力,同时还要保证搜索结果的质量。构建一个搜索引擎的基础设施,要考虑以下三个问题:如何获取、存储和计算如此庞大的数据量?如何快速回复用户的查询?如何让搜索结果满足用户的信息需求?下图是通用搜索愚蠢架构图:

从上述的搜索引擎架构图中,我们可以看出一个完整搜索引擎架构(全文搜索引擎为例)需要包含的三大块(我们一开始就说到的):1)搜集信息:这一阶段是基本的数据收录阶段,主要任务就是构建网页数据库。该阶段主要依靠网络爬虫技术搜集全网的数据,并进行收录,这一阶段还包括网页去重的过程,主要利用dedup技术。2)组织和处理信息:这里最为重要的一个环节就是构建索引,其主要的技术为倒排索引技术。当然,该阶段还有建立连接关系和防作弊技术。3)展示信息:搜索引擎根据用户的查询词(query)来进行数据库检索,然后根据内容、链接匹配度和特定的排序算法将结果展示给用户。目前常用的排序算法主要为Learn2Rank的排序方法以及GBRank算法。下面我们针对每一个环节进行具体的阐述。1)网页爬取和收录网络爬虫技术是网页爬取的核心技术,我们可以通过编写一定的程序或者脚本来对互联网的信息进行抓取。网络爬虫技术的详细介绍会在之后的博文中具体呈现,这里不再细述。在网页抓取之后,我们要构建相应的数据库来存储我们爬取的网页信息。但是互联网的信息具有冗余性,主要原因是各大网站也都会在后台进行爬虫爬取,他们也会通过爬虫来检测一些热点的内容或者文章,然后爬取其信息并对格式进行重新的组织,但其实网页的内容几乎都是一致的。所以在收录爬虫爬取的网页信息之前,我们还要加入一个关键的环节——网页去重,来确保我们数据库中网页的唯一性。2)建立索引在抓取了网页的信息之后,我们需要对网页的信息进行解析,抽取到网页的主题内容和类别信息。这就是我们通常所说的网页解析,其主要涉及的技术为文本识别和文本分类技术。网页解析后的输出往往是一些结构化的信息(每个网页的信息完整度是不同的,我们需要统一对数据进行结构化操作),一般的结构化信息包括网页的URL、网页编码、网页标题、作者、生成时间、类别信息、摘要等等。在获取了网页结构化信息后,就要构建相应的索引了。为了加快响应用户査询的速度,网页内容通过“倒排索引”这种高效查询数据结构来保存,而网页之间的链接关系也会予以保存。之所以要保存链接关系,是因为这种关系 在网F相关性排序阶段是可利用的,通过“链接分析”可以判断页面的相对重要性,对于为用 户提供准确的搜索结果帮助很大。由于互联网的网页信息是海量的,所以搜索引擎的构建离不开大数据处理平台和云计算技术,目前较为常用的大数据处理平台为Hadoop生态架构。3)查询词分析查询词分析我们经常称为是query分析或者query聚类。当搜索引擎接收到用户的査询词后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。比如,一个用户输入的查询词为“养水仙花”,那么除了基本的内容匹配外,搜索引擎需要读懂用户,其实用户的查询词还可以这样被理解“水仙花怎么养”,“水仙花好养吗” 等等近意的查询词。在此之后,首先在缓存中査找,搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可以直接将搜索结果返回给用户,这样既省掉了重复计算对资源的消耗,又加快了响应速度。4)搜索排序搜索引擎在分析了用户的查询词以后,如果缓存的信息无法满足用户的查询需求,搜索引擎要根据索引来查询数据库的网页内容,并根据网页内容与用户需求来进行网页排序。网页排序需要众多的因素,其中最为主要的两方面因素为:1> 网页内容与用户查询内容的相似度(匹配度):这个不难理解,搜索引擎的基本功能就是查询,如果一个搜索引擎无法为用户提供用户需要查询的内容,那其也就不能称为是一个搜索引擎,所以网页内容与用户查询内容的相似度是网页排序的一个首要依据;2> 网页的重要程度:一个网页的重要程度关乎了网页内容的质量,在满足用户需求的基础之上,用户更加希望获得高质量的内容,这是无可厚非的。根据上述因素,搜索引擎对查询到的结果进行排序,然后展示给用户。5)推荐系统其实从不严格的角度来说,整个网页排序的过程就属于一种推荐策略。从严格意义上来说,推荐系统并不属于一个搜索引擎架构的必要环节,而且推荐系统在上述示意图中并没有显示。但是一个优秀的搜索引擎不止要能分析出用户查询的基本需求,进一步来讲,要能了解到或者猜测用户的可能的下一步需求。目前随着大数据的热潮,各大互联网公司和众多专家认为推荐系统是解决互联网大数据的一种有效途径。而且,最近越来越多个性化推荐知识受到了热捧。其实推荐系统在搜索引擎中往往是以中间页的形式展示的,它的主要作用就是为推荐系统进行导流。

本文来自转身以后投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/592743.html

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
() 0
上一篇 06-15
下一篇 06-15

相关推荐

  • 中国搜索引擎排名 国内十大搜索引擎排名

    最近用百度搜索,发现越来越找不到自己需要的东西了,不是广告就是没用的广告。我在考虑在网上找一些可以正常使用的搜索软件。经过对比,我发现了一个有趣的情况:以下关键词结果仅针对百度搜索、360搜索、搜狗搜索和必应搜索进行比较:1.输入“搜索”关键词:百度搜索可以正常找

    2023-07-28 19:51:01
    673 0
  • 搜索引擎优化有什么用,搜索引擎优化的主要方法

    在今天的中国,在推动互联网发展的最初几年,我们国家几乎每个公司都有自己的网站,这是由于互联网的快速发展和网民数量的增长。比如通过公司网站,可以公开公司形象,展示所有产品。有时候,我们认为建立一个网站是可能的,但事实并非如此。如果不优化我们的网站,提高它在搜

    2023-07-27 11:20:01
    154 0
  • uc设置默认搜索引擎教程

    1、1桌面上打开UC浏览器2进入UC浏览器主界面3点击左上角图标4点击下拉按钮中的设置5进入设置界面6点击搜索引擎,如图所示7将其修改为其中一个8进入新页面,搜索引擎已经成功修改。2、1首先我们需要准备一步电脑,然后我们需要在电脑的桌面上打开我们的UC浏览器2这时候我们需要

    2023-07-24 07:17:01
    554 0
  • 百度搜索引擎营销步骤(搜索引擎营销推广的方法有哪些)

    搜索引擎营销:有SEO和PPC两种,即搜索引擎优化,即通过优化网站结构、优质的网站主题内容和丰富有价值的外部链接,使网站对用户和搜索引擎更加友好,从而获得搜索引擎上的优越排名,为网站引入流量。产品策略:指产品的外包装、设计、颜色、商标、具体型号等,有助于给消费者留

    2023-07-24 01:46:01
    183 0

评论列表

联系我们

在线咨询: QQ交谈

邮件:admin@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信