Par

Je me demandais pourquoi à des moments bien précis de la journée, mon site se faisait bombarder de recherches.. Comme ce matin à 6h19... un robot dénommé HMSE_Robot est venu parcourir à la vitesse de l'éclair une centaine de pages sur mon site de Loft Story, ralentissant par le fait même mon serveur.

Je me demandais pourquoi à des moments bien précis de la journée, mon site se faisait bombarder de recherches.. Comme ce matin à 6h19… un robot dénommé HMSE_Robot est venu parcourir à la vitesse de l’éclair une centaine de pages sur mon site de Loft Story, ralentissant par le fait même mon serveur.

Après une brève recherche, il s’avère que le robot HMSE_Robot est un robot coréen qui parcours les pages web à la recherche de contenu à dupliquer. C’est donc un robot de spam qui mérite la mention de ban. J’ai donc banni directement par l’interface de mon fournisseur web les IP suivants: 222.239.220.0 à 222.239.220.255 .

On peut aussi bloquer directement tous ces ip avec 222.239.220.*

Pour ceux qui n’ont pas d’interface bien défini pour bloquer les IP, il faut bidouiller dans le fichier .htaccess ou httpd.conf car ce robot ne respect pas les fichiers Robots.txt …. Voici la marche à suivre:

Bloquer HMSE_Robot par httpd.conf

Pour bloquer un ip directement dans le httpd.conf, ajoutez ce qui suit:

SetEnvIfNoCase User-Agent “HMSE_Robot” robot

Order Allow,Deny
Allow from all
Deny from env=robot

J’ai trouvé cette technique sur un blogue espagnol, El blog de Marcelo Ramos. Voici l’explication de sa technique:

SetEnvIfNoCase -del módulo mod_setenvif- asigna la variable “robot” si el user-agent con el cual se identifica el programa accediendo al servidor Apache es “HMSE_Robot” -no importando mayúsculas y minúsculas- y Deny niega el acceso en ése caso.

En gros, SetEnvIfNoCas assigne la variable “robot” si le user-agent avec lequel s’identifie le programme qui accède le serveur Apache est “HMSE_Robot” (les majuscules et minuscules n’importent pas), et lui refuse l’accès dans ce cas.

Bloquer un IP par le fichier .htaccess

Si la méthode précédente ne peut être utilisée, on peut s’attaquer au fichier .htaccess.

Il suffit d’ajouter les lignes qui suivent dans le fichier .htaccess du site:

RewriteCond %{REMOTE_ADDR} ^222\.239\.220\.*$ [OR]
RewriteCond %{HTTP_USER_AGENT} HMSE_Robot
RewriteRule .? – [F]

J’ai trouvé cette méthode cette fois sur un autre blogue espagnol, SigT, qui lui aussi s’est heurté au même problème.

Dans cet exemple, on bannit le HMSE_Robot par le HTTP_USER_AGENT, et on bannit aussi tous les IPs entre 222.239.220.0 et 222.239.220.255 (222.239.220.*). On peut bannir n’importe quel ip en changeant cette valeur par un le IP à bannir.

Tags: , , , , ,

Laissez un commentaire

Vous devez être connecté pour laisser un commentaire.

 
Communauté

Amériquébec - Tous droits réservés, © 2006-2014