|
Una gran ventaja es que el correo no deseado tiene, generalmente, una serie de características que lo hacen relativamente fácil de identificar. Prácticamente, en todos ellos se insta a la compra de algún producto utilizando unas palabras muy similares. De esa manera, un software especializado puede elaborar un determinado perfil del correo recibido para poder catalogarlo como spam y eliminarlo antes de que sea descargado en el cliente de correo electrónico o en los buzones de los usuarios. Sin embargo, el spam también evoluciona y muchos de ellos aprovechan las capacidades del HTML para intentar engañar a los filtros de spam. Algunas de las técnicas empleadas son las siguientes: Codificación. Oculta letras codificándolas como entidades HTML o representaciones numéricas como DBCS que normalmente se utilizan para enviar caracteres especiales o en idiomas basados en ideogramas. Tinta invisible. Cambiar los colores de fondo y de la fuente para hacer que el texto no sea visible en pantalla. Agujero negro . Oculta un mensaje utilizando una fuente de tamaño cero. Trocear. Utiliza tablas HTML para trocear un mensaje en tiras diminutas.
Técnicas de protección Un solución anti-spam puede utilizar una o varias técnicas para proteger a sus clientes del spam. A continuación, se muestra una relación de las técnicas más comúnmente empleadas con sus pros y contras:Análisis Léxico. Aplica filtrado de contenidos a todos los mensajes de correo para poder identificar correos no deseados. Para ello utiliza una lista de palabras o frases. Esta técnica puede aplicarse tanto al asunto del mensaje como al cuerpo, etiquetas HTML o los archivos adjuntos. Esta técnica puede refinarse a través de expresiones regulares para capturar palabras intencionadamente mal escritas o ajustar la captura de spam a partir de la frecuencia de aparición de ciertas palabras en los mensajes no deseados. En su contra, esta técnica no considera el contexto de ciertas palabras legítimas en un entorno y potencial spam para otras empresas. Tampoco puede analizar mensajes que sólo contengan imágenes y direcciones web (URL's). Además consume bastante tiempo de proceso y necesita de continuas actualizaciones de los pesos asignados a cada palabra. Análisis heurístico. Utiliza reglas que analizan los mensajes para asignar una probabilidad al mismo sobre si es spam. Esta técnica identifica el spam en base a varios atributos, lo que le hace efectivo en correos HTML, de texto o con imágenes. Alguna regla heurística podría ser, clasificar como spam a correos con una fecha de emisión incorrecta. En contra de esta técnica, empleada por soluciones como SpamAssassin, juega la dificultad de establecer, probar y mantener las reglas, así como la inversión de tiempo que el administrador debe emplear en mantener actualizado el sistema. Análisis de firmas. Mantiene una base de datos de correos clasificados como spam y compara los mensajes entrantes con la base de datos en busca de un positivo. De esta manera, los mensajes no deseados conocidos son rápidamente filtrados. Lamentablemente, los spams están siendo continuamente modificados para evitar su clasificación en base a esta técnica, lo que ha reducido en gran medida la efectividad de este sistema. Listas negras. Las RBLs (Real time Black hole Lists) es un sistema automático y distribuido de compartir listas de spams por la red. Cuando un administrador informa de que una dirección IP está enviando spam, el sistema le manda un mensaje de prueba para validar su existencia y procede a añadirlo a la lista negra compartida. Estas listas están en desuso debido a la incapacidad para detectar cuando la IP pertenece a un spammer real o si se trata de un usuario cuya cuenta ha sido usurpada por el remitente, en cuyo caso estaríamos bloqueando a un inocente. Procesado de Lenguaje Natural. Combina el análisis sintáctico, morfológico y práctico para correlacionar texto con categorías de significados. Permite detectar spams muy sutiles a través de conceptos multi-palabra en lugar de palabras clave. Su rendimiento suele ser muy bajo. Solicitud / Respuesta. Obliga al emisor a verificar su identidad antes de que el correo sea procesado. Esta técnica es demasiado intrusiva y aumenta la carga del servidor de correo al tener que enviar un correo al remitente por cada mensaje potencialmente clasificado como spam. Además, el proceso de validación retrasa la entrega del mensaje si el remitente ya no está conectado. Autenticación. Es una técnica consiste en facilitar la identificación del spam antes incluso de que llegue al perímetro de la empresa. Así, por ejemplo, DomainKeys es un mecanismo empleado por Yahoo para verificar los dominios de cada uno de los remitentes de correo y garantizar la integridad de los correos enviados mediante firma electrónica. 
Ilustración 1 - Mecanismo de validación de DomainKeys De manera similar, Microsoft ha publicado su propio protocolo: Sender-ID, con similar objetivo, salvo que en lugar de acudir al DNS como intermediario para resolver el dominio acude al propio emisor del mensaje. En contra de este concepto subyace la escasa base instalada hasta la fecha y los retrasos que el proceso de autenticación origina en la fase de validación. Filtrado colaborativo. El usuario final decide qué mensajes constituyen spam. Esta técnica es ideal para estaciones, pero puede provocar colisiones cuando se aplica en el servidor de correo. Enfoque mixto. Esta técnica combina varias técnicas de análisis para conseguir mayor precisión en la detección. Si no se hace correctamente, puede igualar a la suma de falsos positivos detectados por cada técnica individual en lugar de su intersección. Adicionalmente, puede presentar Consultaas de rendimiento.
Filtros Bayesianos El filtrado bayesiano se basa en el principio de que la mayoría de los sucesos son dependientes de otras variables y de que la probabilidad de que un suceso sucede en el futuro puede deducirse a partir de la ocurrencia en el pasado del mismo. Así, si una cadena de texto se repite con frecuencia en los correos no deseados, mientras rara vez se da en un correo normal, entonces la próxima vez que el sistema encuentre dicha cadena de texto en un correo es razonable que lo clasifique como spam. Este algoritmo permite el entrenamiento del sistema para diferenciar automáticamente mensajes de spam de los que no lo son. Además, este filtro registra el correo saliente de la empresa, lo que le permite corregir la probabilidad en caso de que la cadena se utilice con alta frecuencia en las comunicaciones oficiales de la compañía. Por ejemplo, si la palabra "gasolina" aparecieran en 200 de cada 5.000 spams y en 1 de cada 500 correos normales, entonces Ai = {correos spam, correos normales} y por el Teorema de Bayes, la probabilidad de spam condicionada por la palabra "gasolina" sería: P(A1 / gas) = P(gas / A1) / [P(gas / A1) + P(gas / A2)] = (200 / 5000) / [(200 / 5000) (1/500)] Por tanto, parece razonable pedir a las soluciones tecnológicas utilizadas para minimizar los efectos del spam que sean capaces de utilizar una combinación de técnicas, incluyendo el análisis bayesiano, para frenar el spam sin importar el formato que utilicen en sus envíos e involucrando a todos los miembros de la organización en la lucha contra este tipo de amenazas.
<< Regresar
|