Juan Diego Gómez Fierros & Azucena Montes Rendón
INTRODUCCIÓN
Internet y las tecnologías de la Web 2.0 han propiciado una explosión de la información disponible en diferentes modalidades. Las técnicas de Extracción de Información son una de las alternativas para organizar y mejorar el acceso a este torrente de información. Varios métodos han sido propuestos para anotar las palabras de forma automática con las etiquetas de parte de discurso (POS, part-of-speech).
Algunos investigadores utilizan el sistema basado en normas [Greene and Rubin, 1971] [Brill, 1993]. Otros implementan métodos probabilísticos [Bahl and Mercer, 1976] [Church, 1988] [Cutting et al, 1992] [DeRose, 1988] [Kempe, 1993]. Finalmente, modelos de redes neuronales también se han probado en el etiquetado POS [Federic and Pirrelli, 1994] [Schmid, 1994] y los problemas relacionados de la predicción de POS [Nakamura et al, 1990].
En los últimos años han aparecido varios servicios de software comercial que permiten la extracción de palabras claves y de Entidades Nombradas (NE del inglés Named Entity) como OpenCalais1, Zemanta2, AlchemyAPI3, Evri4, STILUS Sem5, OpenAmplify6, SaploTags7 o BeliefNetworks8.
Estos servicios se han integrado en numerosas aplicaciones y es previsible que, con el avance del software como servicio, sirvan para mejorar las capacidades semánticas y de interoperabilidad de muchas más en un futuro próximo.
Algunas de ellas ya se encuentran disponibles para el procesamiento del español como Open Calais, AlchemyAPI o STILUS Sem.