Gracias a la gente de @Mail por la información de este artículo: PDF module for SpamAssassin
Ultimamente se reciben cada vez más correos SPAM en formato PDF, Spamassassin por defecto no los detecta.
Para solucionar este problema la gente de @Mail nos propone la siguiente solución: un módulo programado por ellos para Spamassassin que permite escanear los archivos PDF. El módulo funciona de la siguiente forma:
- El cuerpo del mensaje es escaneado y se comprueba si tiene adjuntos en formato PDF.
- El texto del archivo es extraido del PDF con el programa pdftotext y escaneado con SpamAssassin.
- Si el PDF contiene imágenes el binario gocr extrae el texto en ellos contenido.
- La puntuación total que le asigna el SA es comparada con el valor del registro required_score; si es mayor una puntuación igual a la especificada en pdf.cf (por defecto es 10) es añadida a la puntuación total del mensaje.
Para que funcione correctamente hacen falta los siguientes binarios:
- pdftotext, que se puede encontrar en Linux dentro del paquete xpdf
- gocr, se puede descargar desde http://jocr.sourceforge.net
El módulo se puede descargar de: http://atmail.com/members/Pdf.tgz y contiene las instrucciones para instalarlo.He estado realizando algunas pruebas y de momento el tiempo de escaneo es aceptable, unos 10 segundos para un archivo de 5 megas.
Combinando este método con simscan espero que reducir bastante el SPAM. Os cuento en unos dias ;)
