概述
自AI兴起后,GPT、豆包、Deepseek等各大AI问答模型开始被人们广泛了解与使用,但是这些问答模型的知识库来自哪里可有人想过?答案是来自于互联网,他们用自家的AI蜘蛛爬取互联网上的信息来训练自己的模型。但是现在太多的AI蜘蛛了,幽络源作为一个只服务于国内的站点,对于很多国外的AI蜘蛛是不必要被爬取的。
蜘蛛分类
幽络源认为蜘蛛可以分为如下三类
搜索引擎蜘蛛:百度蜘蛛、必应蜘蛛、360蜘蛛、头条蜘蛛、搜狗蜘蛛等
AI蜘蛛:GPTBot、Bytespider、ClaudeBot等
恶意蜘蛛:即伪装成百度、必应蜘蛛等的虚假蜘蛛,至于这些蜘蛛搜集这些用于什么我们是不知道的,而且往往对站点的影响很大。
蜘蛛带来的问题
正规蜘蛛是被人希望来的,但过度爬取流量吃不消。
恶意蜘蛛往往请求量如洪水一般,小站点甚至会被爬瘫。
以下是幽络源的未处理蜘蛛问题导致的流量消耗激增问题
解决方式
对于正规蜘蛛
以下三个例子幽络源当做正规蜘蛛处理,可能对于头条的字节蜘蛛爬取,有的站长认为其爬取太过疯狂,于是直接就屏蔽了,幽络源这里不建议直接屏蔽,调整爬取频次即可,因此现在的互联网搜索不再是单一的搜索引擎,用户逐渐流向于AI对话应用,字节蜘蛛所爬取的你的内容会将其训练到模型中去,这是有利于你站点的。
对于必应蜘蛛,我们可以通过必应站点管理来规划蜘蛛的爬取频率,如图调整蓝色块保存即可
对于百度蜘蛛,同样的通过百度站长管理平台来调整蜘蛛的爬取频率,如下图在抓取频次中点击问题,然后再点击频次上限调整,然后拖动滑块保存即可。
对于字节蜘蛛,通过头条搜索站长平台调整频率,如图在抓取频次中最下方修改一天抓取上限保存即可
对于不需要的蜘蛛
对于不同类型的站点,对不需要的蜘蛛的定义不同,对于幽络源,国外的蜘蛛就是不需要的。
我这里由于使用的宝塔面板管理站点,因此,直接在站点设置中通过配置文件来修改nginx配置即可
# 屏蔽恶意爬虫
if ($http_user_agent ~* (MJ12bot|SemrushBot|YisouSpider|YandexBot|spbot|DnyzBot|Researchscan|semrushbot|yahoo|AhrefsBot|DotBot|Uptimebot|MegaIndex.ru|ZoominfoBot|Mail.Ru|SeznamBot|BLEXBot|ExtLinksBot|aiHitBot|Barkrowler|ClaudeBot|Amazonbot|GPTBot|Brightbot)) {
return 403;
}
如下图,将上面的配置加入到server_name下方保存即可
对于恶意蜘蛛
恶意蜘蛛的特点
以上我们配置了针对正规蜘蛛的处理,无论是需要的不需要的都做了相应的配置,但是对于恶意蜘蛛,可就没那么遵守规则了,这类蜘蛛有以下几个特点
1、会伪装为正规蜘蛛
2、无视robots.txt配置
3、会如洪水一般请求站点,大量消耗资源
恶意蜘蛛的判断
将站点日志导出,通过vscode或者notepad打开,对请求频率极高的网段进行查询,如下图可以看到这个140.249.87网段的请求一会儿是bingbot一会儿是SemrushBot,这显然是不合理的
且通过bing站点管理工具验证该ip确实不是bingbot的蜘蛛
ip网段屏蔽配置
在宝塔面板文件中,进入www/server/panel/vhost/nginx目录,新建文件 block_ips.conf ,作为要屏蔽的网段的配置
如下图,将deny 140.249.87.0/24; 写入到配置文件中,如还需屏蔽其他网段,换行添加网段即可,然后保存
然后在自己站点的conf文件下加入该配置文件,注意include在上,allow在下
# 封禁恶意ip名单
include /www/server/panel/vhost/nginx/block_ips.conf;
allow all;
按照如此配置,140.249.87.0、140.249.87.1、…….、直到140.249.87.255的恶意ip段都会被屏蔽
结语
以上是幽络源原创的“站点针对网络各种蜘蛛的配置处理-站长必看”教程,如过你也对网站管理感兴趣或有其他疑问可加入我们的QQ群307531422交流询问,搬运文章请留下原文链接。