Así funciona el modelo de similitud
El NLP es un área de la IA que busca construir soluciones capaces de interpretar el lenguaje humano. Por ejemplo, cuando se le da un comando de voz al celular, él tiene que reconocer las palabras que se le dicen. “Esa función de reconocimiento utiliza NLP, que no es otra cosa que darle la capacidad a un modelo matemático de entender lo que una persona expresa”, explica el profesor Díaz López.
Por su parte, Campo Archbold comenta que la investigación se basó en el ciclo de la ciencia de datos: primero se analizó el contexto y el estado del problema, luego se adquirieron los datos, enseguida se creó el modelamiento y, finalmente, se hizo el despliegue. “Extrajimos los datos a través de una aplicación que identifica etiquetas y efectuamos el preprocesamiento para aplicar luego el modelo de similitud”, anota.
La primera tarea que cumplieron fue una reorganización de los tuits: descartaron los que tenían palabras confusas o mal escritas, limpiaron y organizaron los datos. Luego hicieron una vectorización, es decir, convirtieron las palabras en números. “Esto nos sirvió para crear un modelo de similitud que permitiera asociar tuits. En el proceso de depuración clasificamos tuits positivos y tuits negativos”, asegura Ramírez. De esa forma, emplearon conjuntos de datos con más de 500.000 vocablos que indicaban si había una intencionalidad positiva o negativa. Así fueron entrenando el modelo para que identificara qué palabra es positiva o negativa. “Siempre hay un rango de error, que va disminuyendo cuando se va detectando la intencionalidad de la palabra”, agrega el profesional. Realmente se utilizan dos modelos de procesamiento de lenguaje natural: uno es el de similitud, que busca agrupar, de todo el universo de tuits capturados, aquellos que tienen más similitudes entre ellos. El segundo modelo se aplica a esos grupos. “Es el de sentimientos y es para detectar el nivel de agresividad en cada grupo. En los grupos de tuits más agresivos que detectamos procuramos identificar a sus generadores y replicadores. Esa es la combinación ganadora”, afirma Díaz López.
Aunque pueda parecer extraño que la ciencia de datos analice los sentimientos humanos, el profesor asegura que es posible, pues los conjuntos de datos utilizados son clasificados por humanos.
“Ese grupo de datos nos sirve para entrenar un modelo matemático, de forma que cuando le pasemos un tuit determinado él lo codifica y lo clasifica como positivo o negativo. Cuanto más grande sea el conjunto de datos, más preciso puede ser el modelo porque aprenderá más. Eso fue lo que hicimos para el segundo modelo”, asegura.
Hacer este proceso manualmente sería muy dispendioso; al disminuir el tiempo de análisis, la respuesta de un agente del Estado para detectar dónde está el grupo agresivo o el foco de un posible ciberdelito puede ser más veloz. En suma, el modelo identifica aquellos nodos que pueden influir la ejecución de posibles hechos punibles y logra una acción inmediata. Si se llega a demostrar que en las redes se orquestó un plan para cometer un delito, quienes lo hicieron pueden ser acusados de ciberdelito, pues usaron el ciberespacio para promover un delito en el espacio físico.
Una estrategia de ciberdefensa
Esa oportunidad de pronta identificación de posibles ciberdelitos que da el modelo que están desarrollando los investigadores del programa de Matemáticas Aplicadas y Ciencias de la Computación, llevó a plantear que puede ser aplicado por las Fuerzas Militares. “Claramente se requiere que las fuerzas de seguridad del Estado monitoreen ese tipo de situaciones peligrosas para prevenir delitos en el marco de estrategia de ciberdefensa nacional”, explica el profesor.
No obstante, como existe el riesgo de que estos mensajes en redes sociales se interpreten de forma equivocada y en lugar de ser focos de ciberdelitos sean simplemente manifestaciones espontáneas del derecho a la protesta social, se necesitan profesionales capacitados en el modelo. “Es muy importante que los analistas de los datos puedan validarlos con un sentido crítico y con objetividad. Ningún modelo de este tipo funciona de manera autónoma; siempre debe existir un humano que hace la validación de lo que dice el modelo”, anota Díaz López.
Otro riesgo que se podría presentar es el relacionado con traspasar la línea de privacidad y de autonomía de cada persona. Sin embargo, los investigadores aseguran que esa línea está establecida, puesto que existe una ley de inteligencia y contrainteligencia que establece los límites de las entidades del Estado para adelantar ese tipo de actividades.
Además, el proyecto incluyó solo información de fuentes abiertas, es decir, datos públicos difundidos en redes sociales y no información privada. Es decir, el mismo ejercicio que vienen haciendo de tiempo atrás las empresas de marketing para conocer el impacto de una nueva marca.
Hacia el futuro, aseguran Campo Archbold y Ramírez, el proyecto de investigación planea aumentar las características consideradas en el análisis de tuits. Esto permitirá hacer una evaluación más profunda de la información obtenida y detectar patrones avanzados de amenazas especializadas.
Así mismo, aplicarán el modelo a temas específicos como las fotomultas, la generación de pánico en las finanzas o cualquier tema que genere susceptibilidades y se exprese con determinadas emociones en las redes sociales, particularmente en Twitter donde la opinión de las personas queda al descubierto.
NLP descubre la esencia de las palabras
El Procesamiento del Lenguaje Natural (NLP) es el área de inteligencia artificial que aborda la comunicación humana a través de modelos de aprendizaje automático computacional. En síntesis, les da a las palabras una representación matemática, con lo cual un modelo de NLP podría analizar la expresividad de una frase, interpretar el deseo de una persona a partir del uso de ciertas palabras o, incluso, establecer similitudes de intención entre oraciones. Por lo tanto, NLP ofrece un futuro prometedor para la comprensión del lenguaje humano, que puede ser útil en diferentes campos como servicio al cliente, publicidad, traducción de voz y elaboración de perfiles de sospechosos, entre otros. En el contexto de la seguridad nacional puede ser útil para detectar campañas provenientes de Estados hostiles y organizaciones de ciberdelincuencia. Además, podría facilitar la resolución de casos relacionados con estrategias de desinformación contra personas u organizaciones privadas.
Como ‘Manipulación social hostil’ se conoce a la generación de violencia e inestabilidad a través de las redes sociales. La gran cantidad de información difundida de esa manera hace que sea difícil monitorear e identificar su origen. Por esta razón, las autoridades están viendo en la ciencia de datos un recurso ideal para recopilar, procesar y analizar datos que conduzcan a la identificación oportuna de ese tipo de amenazas.