搜索引擎蜘蛛与各类型爬虫程序抓取量占比

我们在分析网站日志的时候,经常会看到各种各样的爬虫程序(机器人),除了我们熟知的百度蜘蛛、谷歌机器人以外,国内外还存在这数不清的不同类型不同用途的爬虫程序,有些爬虫是良性与友好的的,像各知名搜索引擎,网站监控和分析软件等。也有些是恶意的爬虫程序,用于抓取和镜像你的网站,漏洞扫描攻击等等。

据国外知名CND提供商incapsula发布的文章,(文章地址:https://www.incapsula.com/blog/most-active-good-bots.html)文章指出,过去的一年中整体爬虫程序的抓取量在不断增加,这主要是由于优质的爬虫程序的流量增加。

如下图所示,其中,35个不同类型的爬虫程序(优质爬虫程序)构成了绝大多数的爬虫流量。它们可以分为四大类:搜索引擎爬虫,商业爬虫,内容取者爬虫和监控爬虫。这些爬虫覆盖了超过互联网84%的爬虫流量。

各爬虫程序占比

搜索引擎爬虫程序:

最常见的爬虫程序,用于抓取分析网站内容与相关性,通过相应算法计算得出关键词排名结果。

搜素引擎爬虫

Googlebot - Google作为世界上最大的搜索引擎,其爬虫流量也遥遥领先于其他各类搜索引擎爬虫,占所有爬虫流量(以下简称占比)的3.87% ;

Yandex bot - Yandex俄罗斯最大的搜索引擎,占比:0.85% ;

MSN / Bingbot - 微软旗下必应搜索引擎的网站爬虫,占比:0.85% ;

YAHOO! Slurp bot - Yahoo旗下搜索引擎的爬虫,占比:0.85% ;

MJ12Bot -这个爬虫是Majestic旗下一个用于搜索引擎优化查询和SEO反向链接查询的爬虫,占比:0.26% ;

Baiduspider - 这个大家都很熟悉,中国排名第一的搜索引擎蜘蛛程序,可以看到和其他搜索引擎来比,爬取占比还是比较低的,占比:0.26%;

Mail.Ru bot - 俄罗斯Mail.Ru集团公司使用的搜索引擎爬虫,占比:011%;

haosou 360 spider - 中国奇虎360旗下搜素引擎,目前来看在中国爬去流量占比第二,占比:0.1%;

sogou spider - 中国搜狗旗下搜素引擎,占比:0.09%;

Google AdsBot - Google旗下,用于审查谷歌广告投放时的着陆页质量的爬虫,该爬虫用于谷歌广告投放时的质量评定,占比:0.08% 。

商业服务爬虫

此类一般是商业付费类型的公司为提供服务而抓取数据时使用的爬虫。

商业服务类爬虫

AhrefsBot - Ahrefs旗下爬虫程序,主要用于搜索引擎优化中反向链接检查,占比:0.99% ;

Proximic bot - Proximic使用的爬虫程序,用于广告分析与网站内容分析匹配,占比:0.24% ;

SEMrushBot - 同样是提供SEO数据的平台,包括关键字研究和反向链接,占比:0.23% ;

Dotmic DotBot - 用于电商网站平台的爬虫程序,监控识别产品价格等属性的服务,占比:0.08% ;

Pinterest bot - Pinterest是一款社交媒体应用程序,允许用户共享和管理照片集,占比:0.08% ;

YisouSpider - 改爬虫程序个人理解应该为搜素引擎爬虫程序,目前搜索引擎为好搜,占比:0.06% ;

XoviBot - 也是用以用于提供搜索引擎优化、搜索排名分析和链接分析的提供商,占比:0.06% ;

ADmantX bot - ADmantX公司旗下的爬虫程序,作为数据分析提供商,可帮助营销人员分析在线广告,占比:0.06% ;

Grapeshot bot - Grapeshot公司旗下爬虫程序,用于分析页面关键词与内容,占比:0.05% ;

Alexa bot - 由亚马逊旗下的子公司Alexa提供的一种爬虫程序,用于提供网站流量的相关数据分析,占比:0.04% ;

内容获取爬虫

内容获取爬虫

Facebook Mobile app - 占比:4.16%;

Android Framework bot - 占比:1.99%;

CFNetwork bot - 占比:1.47%;

.NET WebClient - 占比:0.81%;

Facebook external hit - 占比:0.64%;

Windows Phone WebClient - 占比:0.64%;

Adobe AIR - 占比:0.24%;

Google Feedfetcher - 占比:0.2%;

Twitter bot - 占比:0.14%;

FeedBurner - 占比:0.1%;

网站监控爬虫

这些爬虫程序用于监视网站上的各种性能指标。

网站监控爬虫

WordPress(pingback) - 占比:0.27%;

Paessler Monitor - 占比:0.09%;

UptimeBot - 占比:0.06%;

Site24X7工具 - 占比:0.05%;

Keynote - 占比:0.05%;

你可能感兴趣:

Totop