¿Cómo detectar anomalías en series de tiempo y mejorar tu análisis de datos?

¿Sabes cómo mejorar la analítica de tu negocio implementando series de tiempo? Detecta anomalías con esta poderosa herramienta estadística.

Aunque suene como un título algo técnico, la verdad es que es importante entender los cambios y variaciones a lo largo del tiempo, ya sea para evaluar las ventas, entender mejor el comportamiento del cliente o simplemente analizar el mercado. A veces somos muy efectivos analizando las series de tiempo con nuestro sentido común, pero en otras ocasiones, es apropiado valernos de herramientas correctas para entenderlo más profundamente.

Anomalías y Series de tiempo

Series de tiempo

En el análisis estadístico, las series de tiempo son registros de datos o lecturas que se acumulan con intervalos de tiempo continuos y equiespaciados… Uhhmm? Cómo así?, es decir, que son periodos del mismo tamaño (por ejemplo, meses).

Veamos este ejemplo básico y ejecutable mentalmente: midamos las horas de trabajo diarias de Carlos la semana pasada, son 5 días hábiles y en cada uno trabajó 6,4,7,8,5 horas respectivamente. Gráficamente, en la siguiente imagen observamos la serie de tiempo:

Como se observa, Carlos trabaja toda una semana, e invierte distintas horas en realizar sus tareas pendientes. Esto describe una serie de tiempo para una semana. ¿Nada interesante aún, o sí? Veamos el comportamiento laboral de Carlos durante dos semanas más:

Si prestamos atención, identificaremos que Carlos cada semana invierte entre 4 y 8 horas de trabajo al día, también observamos que Carlos aumenta las horas laboradas, justo en la mitad de semana, hasta alcanzar su máximo que son 8 horas. Este patrón repetitivo entre semanas es lo que se conoce como estacionalidad, que se refiere a las fluctuaciones periódicas. Por ejemplo, en la naturaleza observamos la estacionalidad en zonas de clima templado, a lo largo del año las estaciones cambian (y así todo el ecosistema) generando un ciclo de 4 estaciones que se repiten cada año. En el caso de los patrones de compra, en algunos mercados desarrollador las ventas en línea aumentan durante las vacaciones antes de desacelerarse y caer.

Otros comportamientos identificables en las series de tiempo son la estacionariedad., y la auto correlación, aguanta, aguanta, estacionari qué?

Estacionaridad, no se trata de un error ortográfico, es cuando la estacionalidad es estable en el tiempo (en otras palabras, sus medias y varianzas tienden a ser más o menos constantes); la segunda, cuando hay similitud entre las observaciones en función del tiempo que transcurre entre ellas.

Detección de Anomalías

Una vez identificamos qué es una serie de tiempo, podemos entonces analizarla para determinar sus propiedades, como la estacionariedad, estacionalidad o auto correlación. Otro paso importante es la detección de anomalías, que consiste en la identificación de observaciones o eventos que se desvían significativamente de la mayoría de los datos y no se encuentran dentro del comportamiento “normal” previamente definido. En la siguiente imagen, se reflejan las dos opciones que tiene el analista al detectar una anomalía. Por un lado, puede determinar que algunos datos no son importantes y solo influyen negativamente en los resultados o el propósito del análisis y, por ende, debe ejecutarse una limpieza; por otro lado, se pueden identificar eventos de interés y analizar el dato atípico (la detección de fraudes se respalda en este tipo de análisis).

Para comprender mejor, seguiremos analizando el patrón de trabajo de Carlos para verificar si existen anomalías en su comportamiento.

Al observar las horas que Carlos invierte en su trabajo durante 5 semanas, existen momentos en los que él registra muy pocas o muchas horas de trabajo. Es claro que esto es una anomalía dentro del comportamiento “normal” de Carlos, pero ¿qué decidirá su jefe? Se encuentra entre dos caminos, y su opción a escoger, dependerá del propósito de su análisis. Puede que el jefe esté interesado en entrenar un modelo de aprendizaje de máquinas para predecir y establecer las cargas de trabajo que entregará a Carlos en el futuro. También es posible que solo quiera determinar las razones por las que Carlos no trabaja, y levantar alarmas cada vez que su comportamiento de trabajo sea anómalo; o quizás el jefe de Carlos deba medirlo por sus resultados, no horas sentado frente al computador, pero bueno, seguimos analizando las anomalías.

La detección de anomalías resulta una herramienta interesante en el análisis de datos, y brinda una base sólida sobre la cual construir modelos de aprendizaje, predicción y detección. En el día a día utilizamos también la detección de anomalías, cuando conocemos tan bien a alguien que al mínimo cambio de comportamiento, debemos preguntar ¿todo bien? Ejemplos como este nos ayudan a comprender que el análisis de datos no es magia, ni algún secreto del área 51, sino que está al alcance de todos para aprovechar los datos que generamos día a día.

Si quieres obtener mas información sobre el tema o deseas una asesoría personalizada, contáctanos.

Tenemos las herramientas y conocimientos necesarios para ayudarte a lograr tus objetivos.