Caso de éxito

Desmaquetación automática de
prensa escrita en Rebold

Rebold es una empresa española del sector del marketing y de la comunicación que se ha especializado en el análisis de datos de interés para sus clientes. Mediante el conocimiento completo de su entorno, los clientes de Rebold podrán identificar oportunidades de crecimiento. Entre la información a estudiar, se encuentra la presente en la prensa escrita.

01. Reto

Uno de los trabajos más laboriosos para el análisis de prensa es la desmaquetación de la misma, identificando en cada medio las diferentes unidades informativas.

Esta desmaquetación se realiza de forma manual por parte de diversos operarios, que visualizan cientos de páginas de diversos medios y recortaban digitalmente dichas páginas en diversas noticias. Este es un trabajo necesario, pero que aporta poco valor en sí mismo si no hacemos un posterior análisis de la noticia.

La realización de esta desmaquetación es altamente costosa en tiempo. Además, en un entorno donde cada vez las noticias son más cambiantes y efímeras, se hace necesario disponer de un sistema donde este proceso sea muchísimo más rápido.

En Rebold buscaban expertos en inteligencia artificial y visión por computador. Estos debían ser capaces de identificar, clusterizar y agrupar un conjunto de cuadros de textos de diversas formas y tamaños en una unidad informativa, por lo que acudieron a Datision 

02. Solución


Para resolver el problema planteado, se decide desarrollar un sistema basado en deep learning. Éste será capaz de aprender de forma autónoma el actual proceso de desmaquetación, lo cual es posible gracias al gran corpus de datos actual disponible.

Mediante el uso de estos algoritmos, el sistema es capaz de generar imágenes de los diversos medios de comunicación, establecer correlaciones entre los diversos cuadros de texto debido a su posición, tipografía, tamaño, etc, y determinar cuáles de ellos, incluidos imágenes, forman parte de una misma noticia.

Sin duda este sistema supone un aumento de la productividad de los operarios en el proceso de desmaquetación, que podrán centrarse en el análisis de la noticia aumentando así el valor de su trabajo y reduciendo el tiempo de análisis.

03. En la actualidad

Actualmente, el sistema se encuentra en producción y es capaz de identificar y clasificar tanto titulares, como noticias y autores, con un índice de acierto superior al 80%.

Este proyecto ha permitido agilizar el proceso de desmaquetación de los medios, pasando de un desmaquetado manual de 20-30 minutos a uno automático de sólo segundos de duración.

El proceso de desmaquetación está en continuo aprendizaje, permitiendo aumentar la precisión en medios y buscando cada vez algoritmos más ajustados, tanto en tiempo como en precisión.

El siguiente paso es realizar un análisis del texto mediante el uso de algoritmos de Procesamiento de Lenguaje Natural (NLP), los cuales permitan categorizar los textos analizados según un conjunto de temáticas preestablecidas.

Descubre todos los secretos para lograr
reducir al mínimo la merma en tu
fábrica con esta lista de verificación gratuita