La minería de texto o text mining la englobamos dentro de las técnicas y modelos de minería de datos. Por tanto, debemos entender previamente qué es y en qué consiste esta técnica de análisis.
La minería de datos la podemos definir como el análisis matemático para deducir patrones y tendencias que existen en los datos, patrones que no pueden detectarse mediante una exploración tradicional de los datos porque las relaciones son demasiado complejas o por el volumen de datos que se maneja.
Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Se puede decir que Data Mining se refiere al conjunto de métodos estadísticos que proporcionan información (correlaciones o patrones) cuando se dispone de muchos datos. Es aquella parte de la estadística no paramétrica, que se usa para solventar los problemas que se presentan en el Análisis de datos.
Introducido el concepto de Data Mining, ya podemos entender qué implica la Minería de textos. Ésta no es más que una tecnología cuyo objetivo es la búsqueda de conocimiento en grandes colecciones de documentos.
A simple vista, el proceso text mining no se diferencia de la definición previa que hemos establecido para el Data Mining, pero en la minería de texto obtenemos información nueva a partir de grandes cantidades de texto, en la que la información suele estar no estructurada. Por su parte en la minería de datos el conocimiento se obtiene de bases de datos, en la que la información está estructurada.
Por tanto, en la minería de textos los datos a tratar serán los documentos y textos de las organizaciones, en lugar de los datos de las bases de datos, llevando a cabo un análisis de los datos compartidos por todos los textos de la colección.
Fases de la minería de textos
Como hemos visto, la minería de textos es el proceso encargado del descubrimiento de información que no existía explícitamente en ningún texto de la colección, pero que surge de relacionar el contenido de varios de ellos. Para ello, la minería de textos comprende tres actividades fundamentales:
- Recuperación de la información: Consiste en seleccionar los textos pertinentes
- Extracción de la información incluida en esos textos mediante el procesamiento del lenguaje natural: Hechos, acontecimientos, datos clave, relaciones entre ellos, etc.
- Minería de datos para encontrar asociaciones entre los datos clave previamente extraídos de entre los textos.
Estas actividades las dividimos dentro de tres etapas fundamentales:
- Etapa de pre-procesamiento: En esta etapa los textos se transforman en algún tipo de representación estructurada o semi-estructurada que facilite su posterior análisis. Es decir, el primer paso dentro de la minería de texto sería definir el conjunto (corpus) de documentos. Estos documentos deben ser representativo y seleccionarse aleatoriamente o mediante algún método de muestreo probabilístico. Se debe evitar en esta etapa la duplicación de documentos dentro del corpus.
Una vez que hemos seleccionado los documentos a analizar, el siguiente paso será convertirlos a un formato analizable, para poder crear una representación estructurada o semi-estructurada de los mismos.
Con el corpus seleccionado y estructurado, debemos reconocer los tokens (unidades gramaticales más pequeñas), lo que implica representar el texto como una lista de palabras mediante una representación vectorial.
- Etapa de descubrimiento: En esta etapa las representaciones internas se analizan con el objetivo de descubrir en ellas algunos patrones interesantes o nueva información.
- Etapa de visualización: Es la etapa en la que los usuarios pueden observar y explorar los resultados.
Aplicaciones del Text Mining
Al ser el text mining una variante del data mining, adoptará técnicas de aprendizaje automático para el reconocimiento de patrones y la comprensión de la nueva información.
En este sentido la minería de textos tendrá aplicación en diferentes campos, de hecho haciendo un poco de revisión bibliográfica, o simplemente “googleando” encontraremos multitud de trabajos en el ámbito de la medicina, la biología, la gestión documental o el análisis de opiniones.
En pocas palabras, el text mining se podrá aplicar para:
- La extracción de información
- El análisis de sentimientos o minería de opiniones
- La clasificación documental
- La elaboración de resúmenes
- La extracción de conociemiento.
De este modo vemos cómo la minería de textos es muy útil para todas las compañías, administraciones y organizaciones en general que por las características propias de su funcionamiento, composición y actividades generan gran cantidad de documentos y que están interesadas en obtener información a partir de todo este volumen de datos. Esto les puede servir para conocer mejor a sus clientes, así como para conocer sus hábitos o preferencias.
Comentarios
Excelente explicación sobre la diferencia entre minería de datos y minería de textos. Me interesa estudiar un doctorado en lingüística y especializarme en lingüística computacional y estoy buscando temas para desarrollar mi tesis doctoral y la minería de texto es algo que me llama la atención, aunque no tengo mucha experiencia (por no decir, nada) en la parte técnica o tecnológica. ¿Existe algún tema que me pudieras sugerir?
Estimados,
Buenas tardes, junto con saludar, me gustaría que pudieramos entablar contato para así tratar temas relacionados al articulo.
Dejare mis datos para poder entablar comunicación.
atento a sus comentarios.
Saludos.