Page 8 - Boletín CIMAT abril 2021
P. 8

 tiene un enfoque totalmente distinto para realizarlo. El CIMAT, junto con investigadores de otros centros públicos de Investigación involucrados, trabajan en el desarrollo de herramientas computacionales y matemáticas para procesar información previamente digitalizada, usando técnicas de procesamiento de imágenes y de lenguaje natural para generar información a diferentes niveles, como identificación de las oficinas fuentes de la información, búsqueda de palabras clave y caracterizaciones de personas y eventos relacionados con ellas. Posteriormente, con la ayuda de equipos multidisciplinarios, esos datos se podrán utilizar para responder a cuestiones relacionadas con el contexto social y geográfico, mejorar la visualización de datos y en general a facilitar la labor de investigación.
El objetivo de este proyecto es implementar diversas metodologías para la extracción de información útil proveniente de expedientes digitalizados de personas desaparecidas durante el periodo de la Guerra Sucia en México, así como el análisis de los mismos desde una perspectiva de Ciencia de Datos mediante técnicas modernas de Machine Learning, Deep Learning y Procesamiento de Lenguaje Natural. Se quiere desarrollar un sistema eficiente de OCR para la extracción de texto en documentos digitalizados, basado en técnicas del estado del arte en análisis de
imágenes y Deep Learning, así como desarrollar un sistema automático de corrección de texto basado en técnicas modernas encoder-decoder y Deep Learning. También se contempla la creación de un corpus adecuado relacionado a los expedientes de personas desaparecidas que facilite la realización de tareas específicas de NLP, tales como recuperación de información (information retrieval) reconocimiento de entidades nombradas (NER) y sus relaciones, identificación de eventos importantes, entre otras actividades.
Al finalizar este proyecto de 12 meses, se espera tener una serie de módulos de análisis automático y semisupervisado de expedientes digitalizados que puedan incorporarse a un sistema informático desarrollado por la CNB para la organización y consulta eficiente de los documentos relativos a las desapariciones durante la Guerra Sucia.
El equipo de trabajo está integrado por el Mtro. Javier Yankelevich, el Dr. Víctor Mireles y la Dra. Mariana Esther Martínez por parte de la CNB; el Dr. Alejandro Molina Villegas, del Centro Geo y por parte del CIMAT los doctores Graciela González Farías, Joaquín Peña Acevedo, Adrián Pastor López Monroy, Alejandro Rosales Pérez y Víctor Hugo Muñiz Sánchez, quien es el responsable técnico.
8
Boletín Mensual de Información
Ciencia de Datos



























































































   6   7   8   9   10