¿Dónde se puede aplicar?

El contenido no estructurado en forma de texto libre es la materia prima de las comunicaciones entre personas. Está comúnmente aceptado que el 80% de la información relevante para las empresas se origina en forma no estructurada, y que el volumen de ese texto libre crece mucho más que los datos estructurados.

Sin embargo, todo ese texto apenas es analizado y tenido en cuenta en la toma de decisiones empresariales, debido a que su lectura manual tiene un alto costo en tiempo y dinero, y su interpretación automática era, hasta casi poco, inviable.

Afortunadamente, la clasificación semántica entiende el significado de un texto digital, lo que facilita su interpretación automática y su recuperación cuando es relevante. Algunos sectores clave que lo pueden utilizar de forma directa son los siguientes:

Medios de comunicación y editoriales

Etiquetado de noticias, clasificación de contenidos, puesta en valor de la hemeroteca digital, cálculo de noticias relacionadas, organización y explotación del archivo interno. Todas estas ventajas también se trasladan transitivamente a los fabricantes de CMS.

Sector médico y farmacéutico

Análisis de textos libres en el Historial Clínico Electrónico (HCE) de los pacientes. ayudando a explotar información como como el coste de tratamientos médicos, su eficiencia (precio, ventajas y riesgos), referencias a fármacos, efectos secundarios o resultados a largo plazo.

Banca y seguros

Parseo de fuentes de información no estructuradas como el BOE (Boletín Oficial del Estado) o el BORME (Boletín Oficial del Registro Mercantil) para monitorizar riesgos asociados a sus clientes, entender mejor a sus mercados y cumplir con la regulación vigente.

Precisión y exhaustividad del servicio

Para poder medir y comparar el rendimiento de sistemas de clasificación basados en redes neuronales, o machine learning, se suelen utilizar tres métricas estadísticas básicas: precision, exhaustividad (recall) y f-score (valor f). Para calcularlas es necesario hacer una batería de pruebas con un tesauro definido y con un conjunto limitado de noticias, previamente etiquetadas de forma manual por documentalistas expertos.

Estos indicadores se sustentan en cuatro valores clave:

Verdaderos positivos (VP)
Tags obtenidos y deseados
Falsos positivos (FP)
Tags obtenidos, pero no deseados
Verdaderos negativos (VN)
Tags no obtenidos y no deseados
Falsos negativos (FN)
Tags no obtenidos, pero deseados

(En verde aciertos, en rojo fallos)

Precisión

Probabilidad de que un tag
obtenido sea deseado

Precisión

Exhaustividad

Probabilidad de que un tag
deseado sea obtenido

Recall

F-score

Nivel de ajuste de las dos anteriores,
calculado con la media armónica

f-score

Estas métricas (precisión, exhaustividad y f-score) se calculan a nivel de clase (tag) o bien a nivel de instancia (noticia), no a nivel global. Es decir, es necesario calcular su valor promedio. Para ello tenemos dos estrategias:

  • El macro-promedio se calcula como el cociente de las sumas.
  • El micro-promedio es la media de todos los valores.

El micro le da el mismo valor a cada instancia, y es útil cuándo todas tienen el mismo peso aproximadamente (apropiado para ver la precisión a nivel de noticia), mientras que el macro vale para que cada clase tenga el valor acorde a su peso (apropiado para ver la precisión a nivel de tag, ya que unos tags pueden tener muchas noticias y otros no, por tanto no se les puede otorgar el mismo peso a todos). En las cifras que se presentan a continuación hemos utilizado el micro-promedio.

Es importante recalcar que, lamentablemente, suele resultar imposible maximizar a la vez la precisión y la exhaustividad. Esto quiere decir que, al mejorar la precisión, generalmente se reduce la exhaustividad, y viceversa. Por tanto, al llegar al límite de entrenamiento de un modelo, se hace patente la necesidad de llegar a un compromiso entre ambas.

Métricas para Classora (en castellano, catalán y gallego)

Realizamos pruebas de manera periódica para no bajar la guardia y mantener la alta calidad de los resultados.
Contacta con nosotros para que te desvelemos las cifras reales.

[Top]

Precisión

[Max]

Exhaustividad

[Best]

F-Score

20.000+

Tamaño muestra (noticias)

5.000+

Tamaño tesauro (tags)

La "magia" detrás del servicio

La magia de los resultados de Classora se basa en la conjunción de cuatro aproximaciones técnicas diferentes:

  • Machine Learning: es la vía principal para detección de tags. Se trata de un sistema basado en aprendizaje automático, que se entrena con noticias ya etiquetadas, de forma que el sistema aprende a asociar contenidos de texto (noticias) con categorías predefinas (tags del tesauro). Entre otros, se emplean algoritmos NER (Named-Entity Recognition), POST (Part-Of-Speech Tagging) y LDA (Latent Dirichlet Allocation).
  • Sistemas expertos: es una vía alternativa para detectar tags, en la cual podemos influir de manera manual. Se basa fundamentalmente en que cada tag puede tener asociados un conjunto de "disparadores" (triggers) que no son más que palabras en la noticia que lo activan. De esta forma, si por ejemplo en una noticia se menciona a la "ciudad olívica" se le asocia la correspondencia con el tag "Vigo".
  • Base de conocimiento: Classora tiene su propia ontología, poblada de fuentes de datos abiertos como DBPedia y Geonames, que permite filtrar entidades y conocer de antemano la relación entre ellas. Esta base de conocimiento es uno de los pilares de nuestra lingüística computacional.
  • Inferencias: es una vía complementaria que se apoya en la base de conocimiento, buscando relaciones "a priori" entre tags. Por ejemplo, si en una noticia se detecta el tag "Messi", se pueden inferir con gran facilidad los tags "fútbol" o "FC Barcelona".

Classora ha logrado combinar estos cuatro métodos para crear una tecnología patentada única, que se puede optimizar para cada sector hasta sintetizar un servicio capaz de competir con el resultado propuesto por un ser humano.

Retos en el Procesado de Lenguaje Natural

El PLN, Procesado de Lenguaje Natural, es una de las piedras angulares tempranas de la Inteligencia Artificial (IA). La traducción automática, por ejemplo, nació a finales de la década de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial». En términos generales, el PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio de lenguajes naturales.

No obstante, a día de hoy los algoritmos de interpretación del lenguaje natural todavía no han llegado a un estado de madurez definitivo. El principal problema es la ambigüedad del lenguaje humano. Esta ambigüedad se hace patente a diferentes niveles:

  • A nivel léxico, una misma palabra puede tener varios significados, y la selección del apropiado se debe deducir a partir del contexto. Muchas investigaciones en el campo del procesamiento de lenguajes naturales han estudiado métodos de resolver las ambigüedades léxicas mediante diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas. Pero las soluciones actuales aún no son definitivas.
  • A nivel referencial, la resolución de anáforas y catáforas implica determinar la entidad lingüística previa o posterior a que hacen referencia.
  • A nivel estructural, se requiere de la semántica para desambiguar la dependencia de los sintagmas preposicionales que conducen a la construcción de distintos árboles sintácticos. Por ejemplo, en la frase «Rompió el dibujo de un ataque de nervios».
  • A nivel pragmático, una oración, a menudo, no significa lo que realmente se está diciendo. Elementos tales como la ironía o el sarcasmo tienen un papel importante en la interpretación del mensaje.

Para resolver estos tipos de ambigüedades y otros, el problema central en el PLN es la traducción de entradas en lenguaje natural a una representación interna sin ambigüedad, como árboles de análisis. Esta es precisamente la solución por la que hemos optado desde Classora, aunque complementándola con nuestra aportación de software propietario.

¿Dispuesto a automatizar la clasificación de textos? Contacta con nosotros para que te informemos con más detalle.

Formulario de contacto


«Es difícil derrotar a una persona que nunca se rinde»

(Babe Ruth)

«Es difícil superar a un servicio que nunca falla y a un equipo que siempre responde»

(Classora Technologies)