欢迎您来到7163银河主站线路检测地址官网!

通用banner

各搜索引擎蜘蛛介绍,搜索引擎蜘蛛爬取网站,抓取数据的规则

2020-12-16 16:09:01

各搜索引擎蜘蛛介绍,搜索引擎蜘蛛爬取网站,抓取数据的规则


1、百度蜘蛛:BaiduSpider

搜素引擎优化

常见的Baiduspider和Baiduspider-image(抓取图片)


百度公司还有其它几个蜘蛛:Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)、Baiduspider-mobile(抓取wap),都不常见


百度蜘蛛爬虫UA:


PC端:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)


移动端:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)


图片:“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”


2、谷歌蜘蛛:Googlebot


有人说谷歌蜘蛛是GoogleBot,官方谷歌蜘蛛zui新名称为Googlebot,还发现了Googlebot-Mobile,看名字是应该是抓取wap内容的


谷歌蜘蛛爬虫UA:“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”


3、360蜘蛛:360Spider


它是一个十分“勤奋抓爬”的蜘蛛


360蜘蛛爬虫UA:


Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);


4、搜狗蜘蛛:Sogou News Spider


搜狗公司还有其它几个蜘蛛:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider,冬镜在日志中只发现了常见的Sogou News Spider。(参考大神百度的robots文件,搜狗蜘蛛名称可以用Sogou概括,但有没有用就不知道了.)


搜狗蜘蛛爬虫UA:


“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”


5、必应蜘蛛:bingbot


必应蜘蛛爬虫UA:


“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”


6、SOSO蜘蛛:Sosospider


腾讯已玩死,交给搜狗公司了


soso蜘蛛爬虫UA:“Sosospider+(+http://help.soso.com/webspider.htm)”


7、雅虎蜘蛛:Yahoo! Slurp China(雅虎中国)或Yahoo! Slurp(雅虎英文)


雅虎蜘蛛爬虫UA:


雅虎中国:“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”


雅虎英文:“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”


8、MSN蜘蛛:msnbot,msnbot-media


SEO好像只见到msnbot-media在狂爬……


MSN蜘蛛爬虫UA:*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)


其它还有 一搜蜘蛛:YisouSpider、Alexa蜘蛛:ia_archiver、宜搜蜘蛛:EasouSpider、即刻蜘蛛:JikeSpider,以及还有YandexBot、AhrefsBot和ezooms.bot等这些蜘蛛,据说这几个国外的蜘蛛都不咋好


各搜索引擎蜘蛛介绍


搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页、图片、视频等内容。


一般用法为“ spider+URL”,后面的URL(网址)是搜索引擎的痕迹,如果要查看某搜索引擎是否来爬取过你们的网站,可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等…


1、百度蜘蛛:可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面,导致其他页面无法被抓取到而不能被收录。这种情况可以采取 robots协议的方法来调节。


2、谷歌蜘蛛:谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔28天左右就派出“蜘蛛”检索有更新或者有修改的网页。与百度蜘蛛zui大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。


3、雅虎中国蜘蛛:如果某个网站在谷歌网站下没有很好的收录,在雅虎下也不会有很好的收录和爬行。雅虎蜘蛛的数量庞大,但平均的效率不是很高,相应的搜索结果质量不高。


4、微软必应蜘蛛:必应与雅虎有着深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多。


搜索引擎蜘蛛爬取网站


搜索引擎蜘蛛的抓取规则,如下四点提供参考:


1、搜索引擎蜘蛛要能看到链接文字


这个是搜索引擎蜘蛛爬行时能够检索到的文字,如果文字或链接是通过JavaScript调用,蜘蛛是检索不到的。页面的文字内容中主要内容位置越靠前越有利,例如产品名称放到页面越靠前的位置,对该页面产品关键词的排名越有利。


2、搜索引擎蜘蛛能爬行未经 nofollow处理过的链接


这一项列出的是搜索引擎蜘蛛能够检索到链接,蜘蛛能够通过这些链接访问网站其他页面,越靠前的链接,被蜘蛛爬行的几率就越大,被搜索引擎收录的可能性越高。


3、搜索引擎蜘蛛能发现图片链接并能阅读到这些图片所包含的含义


这里主要展示该页面被搜索引擎蜘蛛和国际W3C标准化监测器所检索到的图片,搜索引擎能够根据图片at="" 去判断该图片的类型,性质和主题,对于判断该图片链接的页面的主题有巨大帮助,能有效提高商品展示页的搜索引擎排名根据W3C标准,页面上所有图片都必须添加alt="" 图片注释,网站Logo使用网站名称加简短描述,商品图片使用商品名称,网页框架图片留空。


4、搜索引擎蜘蛛能很好地识别HTML代码


模拟搜索引擎蜘蛛爬行该页面时,获得的“简化代码->是指过滤css, JavaScript后的代码”,由此可以看出减少代码空行,换行,空格等多余代码空间非常重要。


5、搜狗蜘蛛:搜狗蜘蛛的爬取速度比较快,抓取的数量比起速度来说稍微少点。zui大的特点是不抓取 robot. text文件。


6、搜搜蜘蛛:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录。2011年搜搜已经宣布采用自己的独立搜索技术,但搜搜蜘蛛的特性和谷歌蜘蛛的特点还是有着相似的地方。


8、有道蜘蛛:和其他搜索引擎蜘蛛一样,凡是高权重网站的链接一般都能将其收录。爬行原理也是通过链接之间的爬行。


本文网址:/news/456.html

最近浏览:

相关产品

相关新闻

联系我们
  • 电话 :13106800985 手机号码 :13392988369
  • Q Q:1127262298 邮 箱:kefu@aujet.com
  • 地 址:广东省珠海市香洲区 森宇国际大厦2101
微信图片_20201218174857.jpg
公众号.jpg
手机版网站
微信公众号