Marco teórico
Las plataformas de Chilam se basan en un clasificador de Bayes implementado para calcular la probabilidad condicional posterior P(C(t) | X(t’)), de una clase de interés (C) y los predictores X(t’) = (X1(t’), X2(t’),…, XN(t’)).
Por un lado, algunos ejemplos de estas clases de interés son:
- Casos positivos a SARS-CoV-2
- Casos de enfermos de Chagas
- La obesidad de las personas
- Personas con síndrome metabólico
- La presencia de vectores y huéspedes de enfermedades emergentes y re-emergentes (ej. Zika, Dengue y Leishmaniasis)
- Los efectos adversos en la salud asociados al sedentarismo.
Por otro lado, los predictores de estas clases de interés abarcan un amplio espectro de variables que incluyen estructuras socio-demográficas, socio-económicas, el clima, la movilidad, colectas y estudios de biodiversidad, procesos epidemiológicos, genéticos, psicológicos y clínicos, entre otros.
En nuestra perspectiva, consideramos una aproximación no paramétrica en la cuál se buscan patrones emergentes en los datos. Es decir, se permite que los datos hablen por sí mismos, convirtiéndo todas las variables y tipos de datos Xi, en variables binarias mediante una discretización adecuada (“coarse graining”).
Los clasificadores de Bayes P(C(t)|X(t’)) pueden interpretarse como la descripción del nicho de la clase de interés, en la que la configuración de variables X, describe el nicho C en el caso en que P(C|X) > P(C); y el “anti-nicho” P(C|X) < P(C).
Así, un conjunto de variables X puede representar un amplio espectro de factores de riesgo. Por ejemplo condiciones socio-económicas y conductuales asociadas a la obesidad; condiciones en donde es muy probable que una persona infectada con SARS-Cov-2 fallezca por Covid-19; o bien condiciones bióticas y abióticas que favorecen la presencia de los vectores de patógenos como los mosquitos Aedes spp y los Triatominos que transmiten Dengue y Leishamniasis, respectivamente.
Una aproximación de Bayes ofrece un marco teórico natural en el cuál se pueden incorporar las relaciones causales, y también tiene las siguientes ventajas que son clave en la toma de decisiones: (1) incorpora elementos de la intuición humana en forma de hipótesis a priori (prior de Bayes) y (2) considera información cuantitativa en la forma de una función probabilística, para finalmente, mediante el teorema de Bayes, combinarlas en una probabilidad posterior. Así, sucesivamente, la información nueva y nuestra intuición pueden incorporarse en forma de nuevos priors y funciones probabilísticas para ajustar las probabilidades posteriores.
De tal forma, los clasificadores P(C(t)|X(t’)) pueden calcularse y recalcularse sucesivamente, utilizando distintos modelos estadísticos y de aprendizaje de máquinas. Actualmente, todas las plataformas implementan la aproximación de Naive Bayes, basada en el teorema de Bayes y la factorización de la probabilidades P(X | C), que es bien conocida tanto por su simplicidad computacional como por su transparencia.
La aproximación basada en la clasificación de Bayes es particularmente adecuada para modelar sistemas complejos adaptativos. Primero, porque tiene una naturaleza probabilística, con modelos de inferencia que incorporan la incertidumbre en una forma rigurosa. Segundo, porque esta aproximación puede lidiar de forma directa y eficiente con la enorme multifactorialidad de los sistemas complejos, en la cual la probabilidad de una clase de interés depende de un gran conjunto de variables potenciales (riesgo,/nicho y factores) que abarcan un amplio espectro de escalas, desde lo micro a lo macro; y consecuentemente incorporan la transdisciplina. Finalmente, la aproximación de Bayes hace manifiesta la adaptación en caso de las relaciones entre C y Xi que cambian en el tiempo.
Además de la perspectiva de nicho, las plataformas de Chilam ofrecen perspectivas basadas en redes, en la forma de Redes Complejas de Inferencia. En este caso, los nodos de la red son clases de interés, C, o factores de nicho/riesgo Xi. Estas redes establecen vínculos ponderados y dirigidos, asociados con un estadístico que describe la correlación entre C y Xi. Por ejemplo, P(C|Xi) puede ser utilizado como el vínculo ponderado entre los nodos C y Xi.
A diferencia de la perspectiva de nicho, en las Redes Complejas de Inferencia nos enfocamos en la comunidad del ecosistema de variables. Esta perspectiva permite describir y analizar los vínculos de riesgo entre una clase y otra. Por ejemplo, la obesidad es un factor de riesgo que vincula a tres clases de interés: la hipertensión, la hiperglucemia y la hipertrigliceridemia.