Históricamente hablando, las personas que defienden la infraestructura digital están en clara desventaja. Los malhechores pueden modificar sus herramientas maliciosas a voluntad, mientras que los profesionales de la seguridad siempre deben estar preparados para lanzar nuevas versiones de sus productos cuando se descubre malware no detectado anteriormente, a menudo demasiado tarde para que los defensores limpien el desorden.

Y los malvados son oportunistas, siempre lanzando sus redes en aguas turbulentas de víctimas desprevenidas. En ninguna parte es esto más evidente que en la industria móvil, especialmente en los dispositivos que ejecutan el sistema operativo Android. Las empresas de seguridad han informado de un aumento masivo de infecciones de malware. El Boletín de seguridad de Kaspersky de 2015 informa la detección de cuatro millones de infecciones de malware en 2015, un aumento del 216 % con respecto a 2014.

VER: El ransomware de Android se ha cuadriplicado el año pasado, según un nuevo informe

Índice

Dos problemas con la detección de malware de aprendizaje automático basada en métodos por lotes

Las empresas de seguridad han tratado de introducir productos de seguridad proactiva; y ha habido cierto éxito en los últimos 10 años, especialmente cuando se ha incorporado el aprendizaje automático. Los productos de seguridad que utilizan algoritmos de uso de aprendizaje automático diseñados para distinguir entre archivos maliciosos y archivos limpios, utilizando funciones como llamadas al sistema, interfaces de programación de aplicaciones (API) invocadas, recursos y privilegios utilizados, y control y flujos de datos dentro de la ejecución de la aplicación para detectar patrones de malicioso. comportamiento.

El aprendizaje automático es una mejora, pero no hasta el punto de que los malos tengan que empezar a buscar una nueva línea de trabajo. Annamalai Narayanan, Liu Yang, Lihui Chen y Liu Jinliang de la Universidad Tecnológica de Nanyang, Singapur, en su artículo de investigación Adaptive and Scalable Android Malware Detection through Online Learning (PDF) sugieren que hay dos razones por las que el aprendizaje automático basado en la metodología por lotes no es adecuado para la detección real de malware a gran escala en todo el mundo: deriva y volumen de población.

Deriva demográfica: Según los autores, la detección de malware de aprendizaje automático basada en la metodología por lotes asume que la población de malware (datos de entrenamiento) utilizada para crear el motor de detección no cambia con el tiempo. “El malware no se ajusta a ese perfil”, sugieren los autores del artículo. "Toda la población de malware está en constante evolución por una variedad de razones, como la explotación de nuevas vulnerabilidades y eludir nuevas técnicas de detección". Esto hace que la colección de malware identificado hoy no sea representativa del malware generado en el futuro, anulando los beneficios iniciales del aprendizaje automático.

El volumen: La mención anterior de cuatro millones de infecciones en 2015 da fe del volumen que se está considerando. Los autores del artículo nuevamente sugieren que el aprendizaje automático que utiliza métodos por lotes se verá gravemente perjudicado. “Los estudiantes por lotes, para mantenerse al tanto de las poblaciones a la deriva, deben volver a capacitarse con frecuencia utilizando grandes volúmenes de datos”, explica el documento. “Por lo tanto, plantean serios problemas de escalabilidad cuando se usan en el contexto de la detección de malware de Android, donde ya tenemos millones de muestras y miles de transmisiones todos los días, lo que los hace poco prácticos desde el punto de vista computacional.

VER: Aprendizaje automático: la guía de la persona inteligente

Una solución: DroidOL

En su trabajo de investigación, Narayanan, Yang, Chen y Jinliang continúan ofreciendo su solución llamada DroidOL, que describen como:

“Un marco de detección de malware basado en aprendizaje electrónico preciso, adaptable y escalable, en el que volvemos a entrenar continuamente el modelo al recibir cada muestra etiquetada y hacemos predicciones utilizando el modelo actualizado. »

Luego ofrecen las siguientes razones por las que DroidOL es más adecuado que las plataformas de detección de malware basadas en la metodología por lotes:

  • El modelo de detección se adapta automáticamente a los cambios en la funcionalidad del malware (desplazamiento de la población) a lo largo del tiempo.
  • Muchas aplicaciones maliciosas se pueden tratar en línea de forma más eficaz que mediante métodos por lotes.

El diagrama en Figura A describe cómo DroidOL extrae la funcionalidad de los gráficos de flujo de control entre procedimientos (ICFG) de aplicaciones maliciosas, que se sabe que son resistentes contra las técnicas de evasión y ofuscación adoptadas por el malware.

Figura A

Para lograr lo anterior, DroidOL utiliza Weisfeiler-Lehman Graph Core (PDF) que admite la representación vectorial de características explícitas de gráficos para extraer características semánticas de los ICFG.

VER: Asegurar su negocio móvil (Característica especial de ZDNet/TechRepublic)

La eficacia de DroidOL

En su artículo, los investigadores señalan: "En una evaluación comparativa a gran escala de más de 87 000 aplicaciones, DroidOL logró una precisión del 84,29 %, superando a dos técnicas de malware líderes en su entorno en más del 20 %. Aprendizaje por lotes típico y más del 3 %. cuando se recicla continuamente.

En cuanto a por qué el aumento en la precisión sobre el aprendizaje automático basado en métodos por lotes, la plataforma DroidOL se recicla continuamente, lo que les permite sugerir: "Este rendimiento superior hace que DroidOL, en particular, y las soluciones basadas en eLearning, en general, sean mejores candidatos para aplicaciones prácticas". Detección de malware a gran escala.

Si la cantidad de malware diseñado para productos Android continúa aumentando al ritmo actual, esperamos que DroidOL o soluciones de aprendizaje electrónico similares estén disponibles pronto.