站点针对网络各种蜘蛛的配置处理(搜索引擎蜘蛛、AI蜘蛛、恶意蜘蛛)-站长必看

站点针对网络各种蜘蛛的配置处理(搜索引擎蜘蛛、AI蜘蛛、恶意蜘蛛)-站长必看

概述

自AI兴起后,GPT、豆包、Deepseek等各大AI问答模型开始被人们广泛了解与使用,但是这些问答模型的知识库来自哪里可有人想过?答案是来自于互联网,他们用自家的AI蜘蛛爬取互联网上的信息来训练自己的模型。但是现在太多的AI蜘蛛了,幽络源作为一个只服务于国内的站点,对于很多国外的AI蜘蛛是不必要被爬取的。

蜘蛛分类

幽络源认为蜘蛛可以分为如下三类

搜索引擎蜘蛛:百度蜘蛛、必应蜘蛛、360蜘蛛、头条蜘蛛、搜狗蜘蛛等

AI蜘蛛:GPTBot、Bytespider、ClaudeBot等

恶意蜘蛛:即伪装成百度、必应蜘蛛等的虚假蜘蛛,至于这些蜘蛛搜集这些用于什么我们是不知道的,而且往往对站点的影响很大。

蜘蛛带来的问题

正规蜘蛛是被人希望来的,但过度爬取流量吃不消。

恶意蜘蛛往往请求量如洪水一般,小站点甚至会被爬瘫。

以下是幽络源的未处理蜘蛛问题导致的流量消耗激增问题

image

解决方式

对于正规蜘蛛

以下三个例子幽络源当做正规蜘蛛处理,可能对于头条的字节蜘蛛爬取,有的站长认为其爬取太过疯狂,于是直接就屏蔽了,幽络源这里不建议直接屏蔽,调整爬取频次即可,因此现在的互联网搜索不再是单一的搜索引擎,用户逐渐流向于AI对话应用,字节蜘蛛所爬取的你的内容会将其训练到模型中去,这是有利于你站点的

对于必应蜘蛛,我们可以通过必应站点管理来规划蜘蛛的爬取频率,如图调整蓝色块保存即可

e786fcdf-81d6-42f0-9e15-f8c99d3dee30

对于百度蜘蛛,同样的通过百度站长管理平台来调整蜘蛛的爬取频率,如下图在抓取频次中点击问题,然后再点击频次上限调整,然后拖动滑块保存即可。

b79da64d-cd9e-4967-a75a-dabd4f1afc32

b6266fca-bad4-434f-baaa-515ce51815be

85b9b8b1-8063-4b6d-8534-b3b8ee417599

对于字节蜘蛛,通过头条搜索站长平台调整频率,如图在抓取频次中最下方修改一天抓取上限保存即可

ffedd756-1825-488a-9c23-a01c4b7acfa9

对于不需要的蜘蛛

对于不同类型的站点,对不需要的蜘蛛的定义不同,对于幽络源,国外的蜘蛛就是不需要的。

我这里由于使用的宝塔面板管理站点,因此,直接在站点设置中通过配置文件来修改nginx配置即可

# 屏蔽恶意爬虫
    if ($http_user_agent ~* (MJ12bot|SemrushBot|YisouSpider|YandexBot|spbot|DnyzBot|Researchscan|semrushbot|yahoo|AhrefsBot|DotBot|Uptimebot|MegaIndex.ru|ZoominfoBot|Mail.Ru|SeznamBot|BLEXBot|ExtLinksBot|aiHitBot|Barkrowler|ClaudeBot|Amazonbot|GPTBot|Brightbot)) {
        return 403;
    }

如下图,将上面的配置加入到server_name下方保存即可

9e0de946-ad09-4401-8575-a6bec57723b9

对于恶意蜘蛛

恶意蜘蛛的特点

以上我们配置了针对正规蜘蛛的处理,无论是需要的不需要的都做了相应的配置,但是对于恶意蜘蛛,可就没那么遵守规则了,这类蜘蛛有以下几个特点

1、会伪装为正规蜘蛛

2、无视robots.txt配置

3、会如洪水一般请求站点,大量消耗资源

恶意蜘蛛的判断

将站点日志导出,通过vscode或者notepad打开,对请求频率极高的网段进行查询,如下图可以看到这个140.249.87网段的请求一会儿是bingbot一会儿是SemrushBot,这显然是不合理的

image

且通过bing站点管理工具验证该ip确实不是bingbot的蜘蛛

image

ip网段屏蔽配置

在宝塔面板文件中,进入www/server/panel/vhost/nginx目录,新建文件 block_ips.conf ,作为要屏蔽的网段的配置

image

如下图,将deny 140.249.87.0/24; 写入到配置文件中,如还需屏蔽其他网段,换行添加网段即可,然后保存

image

然后在自己站点的conf文件下加入该配置文件,注意include在上,allow在下

# 封禁恶意ip名单
include /www/server/panel/vhost/nginx/block_ips.conf;
allow all;

image

按照如此配置,140.249.87.0、140.249.87.1、…….、直到140.249.87.255的恶意ip段都会被屏蔽

结语

以上是幽络源原创的“站点针对网络各种蜘蛛的配置处理-站长必看”教程,如过你也对网站管理感兴趣或有其他疑问可加入我们的QQ群307531422交流询问,搬运文章请留下原文链接。

THE END
喜欢就支持一下吧
分享