要做SEO,首先要了解搜索引擎的工作流程:
(1)爬行和抓取
①批量采集:在互联网上采集带有链接的网页一般需要几周左右的时间;
②增量收集:在原有基础上收集新增的网页,更新自上次收集以来发生变化的网页,删除收集到的重复和不存在的网页;
③自行提交:不建议自行向搜索引擎提交网站,因为速度慢。
PS:搜索引擎蜘蛛(Search Engine Spider)是搜索引擎的自动程序,其功能是访问互联网上的网页、图片和视频内容。
URL是搜索引擎的痕迹。搜索引擎是否抓取你的网站取决于服务器日志是否有网址。
④搜索引擎蜘蛛抓取策略
搜索引擎蜘蛛主要通过抓取页面上的链接来收集新的页面,通过不断的抓取来形成蜘蛛网。
ⅰ深度优先爬行(A-B-E-A-C-F-H-A-D-G-H)
ⅱ广度优先抓取(A-B-C-D-E-F-G-H)(最常用的方法,所以很多SEO优化人员会把网站的所有链接通过网站地图
PS:如果搜索引擎蜘蛛访问量设置为3,H页不会被收集,所以网站结构扁平化非常重要。
蜘蛛爬行策略
⑤搜索引擎蜘蛛如何避免重复采集
一、重复采集的原因:
蜘蛛没有记录访问过的URL;一个页面由多个域名引起。
ⅱ解决方案:搜索引擎建立了两个表:已访问表和未访问表。
⑥搜索引擎蜘蛛如何判断网页是否重要?
网页目录越小,用户体验越好;
ⅱ.原创内容越多越好,重要性越高;
三。一个有价值的网站,每天都会更新,每天都会有用户来玩;
ⅳ高质量相关链接的导入:一个高权重、高质量的网页愿意链接到你的网站,证明你的网站质量也很好。
(2)预处理
①关键词提取
搜索引擎蜘蛛抓取大量HTML代码、Javascript、css、div标签等。要去掉它们,搜索引擎能完全识别的就是文本内容,所以关键词提取就是去掉自己不理解的标签,留下文本;
②删除停用词
像“的”、“的”、“的”、“的”、“啊”、“呀”、“在”这类重复无用的词,除了停用词,就叫停用词;
③分词
ⅰ.基于统计的分词方法
分词词典和收集的网络流行语是搜索引擎的基础,比如:我要睡觉了,其他马都是浮云;
ⅱ.基于字符串匹配的分词方法
举个例子,如果分词词典的最大数量是3,那么下面的句子就分了:首先,提取前三个词,我要睡觉,我要睡觉。字典里没有这个词,去掉“睡”字,离开我,再提取三个字“睡”。字典里没有这个词,去掉“睡眠”这个词,留给睡眠,字典里没有这个词,去掉“睡眠”这个词
我要睡觉了,其他的一切都只是浮云;
我,想,睡,死,其他,神马,都是,浮云;
④噪音消除
去掉网页上的各种广告词、广告图片、版权信息、登录框等等;
⑤建立关键词库
提取关键词后,将页面转化为关键词的组合,记录每个关键词在页面上的出现频率、频次、格式、位置;
⑥连接关系的计算
搜索引擎要提前计算好页面上哪些链接指向那些其他页面,每个页面用了哪些导入链接,链接用了什么锚文本等等;
⑦特殊文件处理
Flash、视频、图片等。无法直接读取。
(3)服务产出
搜索引擎有自己的相关排名机制,主要是根据网页的相关度,关键词的密度,网站的权重等。,来决定输出内容的排名(付费推广的永远排第一)。
本文来自热恋少女投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/525765.html