Bytespider是什么蜘蛛,如果屏蔽蜘蛛爬行

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

为了让网站增加搜索引擎的收录,必须允许搜索引擎的抓取,大部分网站是允许并且欢迎搜索引擎来抓取的,除非一些特殊的网站会不允许抓取,但有时候,大量垃圾蜘蛛甚至爬虫访问很影响性能,特别是服务器配置不高的情况下,那么我们该怎样屏蔽掉垃圾蜘蛛呢?就必然本站最近一直出现一个 Bytespider 的的蜘蛛,不断的访问,造成服务器偶尔卡顿。必要时只能进行屏蔽蜘蛛,

一般来说,屏蔽蜘蛛的爬取有三种方法:

Robots 禁封
UA 禁封
IP 禁封
站长工具限制

一、Robots方式屏蔽

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

下图说明 google、百度在抓取前 访问了robots.txt,而后再进行首页的抓取,因此我们可以在robots.txt 中现在某些制作的抓取

Bytespider是什么蜘蛛,如果屏蔽蜘蛛爬行

robots.txt 屏蔽蜘蛛如下,更多可以参考robots规则,下面的屏蔽 Bytespider 抓取所有内容,禁止所有搜索引擎抓取 /admin/ 目录

User-agent: Bytespider 
Disallow: /
User-agent: *
Disallow: /admin/

二、UA方式屏蔽,本例中是nginx服务器,通常不建议使用此方法

步骤
1、进入nginx的配置目录,例如cd /usr/local/nginx/conf

2、添加agent_deny.conf配置文件

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}

#禁止指定UA及UA为空的访问
if ($http_user_agent ~ “FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|LinkpadBot|Ezooms|^$” )
{
return 403;
}

#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

3、在网站相关配置文件中插入代码“include agent_deny.conf ;”。

location ~ [^/]\.php(/|$)
{
try_files $uri =404;
fastcgi_pass unix:/tmp/php-cgi.sock;
fastcgi_index index.php;
include fastcgi.conf;
include agent_deny.conf ;
}

4、重新加载nginx

/etc/init.d/nginx reload

三、禁止IP方式屏蔽蜘蛛,通常不建议使用此方法

IP方式屏蔽蜘蛛是指系统自带防火墙或第三方工具,拒绝蜘蛛 IP 连接,此措施最为严格,且针对有特定 IP 蜘蛛,如果 IP 是随机变动的, IP 禁封意义也不大。如果使用宝塔面板,可以直接在宝塔后台限制IP链接,也可以限制IP段。

四、站长工具方式屏蔽

有时候蜘蛛爬行过多、过快时,我们可以登录站长工具设置抓取的频率,百度站长工具可以设置。登录站长平台,可以设置每天最多抓取的次数,但不是所有的搜索引擎都有站长工具,所以此方式只能对百度有效,

Bytespider是什么蜘蛛,如果屏蔽蜘蛛爬行

 

最后,大部分站长还是希望搜索引擎进行抓取的,只是不希望大量抓取是服务器被搞的卡顿或宕机,如果一刀切的进行屏蔽对收录也是有影响,换个角度想,我们可以优化程序,或者利用代码限制抓取的频次等等

原创文章,作者:admin,如若转载,请注明出处:https://blib.cn/14275.html

(2)
上一篇 2019年8月30日 下午1:46
下一篇 2019年9月10日 下午5:01

相关推荐

  • wordpress数据库结构及表说明

    数据表结构: wp_commentmeta:存储评论的元数据wp_comments:存储评论wp_links:存储友情链接(Blogroll)wp_options:存储WordPr…

    2018年11月18日
  • 获取联通光猫超级管理员密码

    现在的联通光猫默认是路由的方式接入,不需要用户拨号,插上后直接上网,如有特殊需求需要将路由模式改为桥接模式,但有不知道超级管理员的密码,查资料后可以用下面的方法获得超级管理员的密码…

    经验分享 2019年12月12日
  • 几个免费IP地址查询API接口

    一直使用淘宝IP地址库,现在不太稳定总出现502错误,不使用淘宝IP API时,可以文章后面的几个免费API。 淘宝ip地址库使用还是比较方便的,提供 API 接口,但是有限制。使…

    2019年9月27日
  • 宝塔(bt)面板http 自动调整到https问题解决

    问题:在使用宝塔面板时,如果建立两个网站,a.com,b.com,如果其中一个网站a.com 开启了SSL,而b.com,没有开启SSL,此时访问 https://b.com时,会…

    经验分享 2019年8月26日
  • 网站分步引导组件Driver.js

    在web使用中经常看到分步引导功能,提示你如何操作及功能演示,有很多工具可以实现这种功能。如Driver.js、introjs等, Driver.js 使用MIT Licensed…

    2021年12月29日
  • DIVI主题激活

    Divi主题是一款非常流行的可视化编辑主题,尤其是它的可视化编辑器Divi Builder,可以用来编辑网页,今天我们就教大家如何购买Divi主题以及安装Divi主题。 和其他主题…

    2021年4月8日
  • 淘宝IP地址库服务器无法访问,502错误

    本站增加IP地址查询  https://webse.cn/ip  文章最后有分享的免费查ip接口地址,请查看 一直使用淘宝IP地址库,今天突然不能访问了,出现502错误。 淘宝ip…

    2018年8月16日
  • Dcitys 城市分站站群 友情链接相互设置功能

    Dcitys 城市分站站群最初底部显示的链接都是随机显示的,在1.3.3版本中添加了分站相互链接的功能,底部链接显示当前城市、同级城市和上下级城市。随机与相互链接方式可自选,默认为…

    2021年4月25日
  • 站长该如何选择适合自己的空间

    我们建设网站其实就是为了自己在应用的时候方便,而其中在设计中可就有诸方面的考量了,只有全面的考量才可以设计出自己合适的网站,为自己的工作提供极大的便利,几天我们就一起看一下网站建设…

    2018年8月17日
  • 使用google vpn 插件Hoxx VPN Proxy 登录Google AdSense 赚美元

    google vpn 插件Hoxx VPN Proxy 是免费插件,本文只为介绍,软件与本站无关,也不提供下载,请勿非法用途…… 安装 Hoxx VPN Proxy,打开 goog…

    2020年10月15日

发表评论

您的电子邮箱地址不会被公开。