Informe para el PI3CET

Primer informe exploratorio realizado con técnicas computacionales

A partir de técnicas de web scraping logramos acceder a cientos de miles de notas periodísticas publicadas en los distintos portales noticiosos de la ciudad de Mar del Plata y transformar la información semi-estructurada en datos estructurados en formato tabular (con las librerías rvest, Rselenium, tibble, dplyr, tidyr, magrittr). Asimismo, desarrollamos un código para scrapear los comentarios de lxs lectorxs de los portales noticiosos y realizamos un primer raspado para los comentarios en La Capital y en 0223. Esta primera muestra supera los 70.000 comentarios, más de 60 mil de La Capital y más de 10 mil de 0223. Para este informe solo tomamos una pequeña muestra de cada unos de los corpus [noticias (28.000) y comentarios (400)] de uno de los portales noticiosos [0223].

La muestra fue normalizada (proceso de limpieza y filtrado de datos) para poder luego procesarla, hacer análisis y visualizaciones. Estos primeros análisis exploratorios se realizaron con técnicas de text mining, que combinan natural language processing e information retrieval.

La minería de textos es una técnica relacionada con la inteligencia artificial (IA) que utiliza el procesamiento del lenguaje natural (NLP) para transformar el texto no estructurado de los documentos en datos normalizados y estructurados adecuados para el análisis o para impulsar algoritmos de aprendizaje automático (ML).

La minería de textos implica la recuperación de información, el análisis léxico (tokenización y lematización) para estudiar distribuciones de frecuencia de palabras, el reconocimiento de patrones, el etiquetado o anotación, la extracción de información, técnicas de minería de datos que incluyen análisis de vínculos y asociaciones, visualización y análisis predictivo.