Introducción al Análisis de Datos: Minería de Datos
Introducción al Análisis de Datos
Análisis de los datos – un concepto amplio. Hoy en día, hay docenas de sus definiciones. En el sentido más general, el análisis de datos – un estudio relacionado con la clasificación de sistema de datos multidimensional que tiene una pluralidad de parámetros. Al analizar el Explorador de datos produce un conjunto de acciones para formar una cierta comprensión de los fenómenos de la naturaleza descritos por los datos. Generalmente, varios métodos matemáticos se utilizan para analizar los datos.
Análisis de los datos no puede considerarse sólo como un tratamiento de la información después de su colección. Análisis de los datos – es principalmente un medio de prueba de hipótesis y tareas soluciones explorador.
Una cierta contradicción entre las capacidades cognitivas limitadas el hombre y la infinitud del universo que nos obliga a utilizar modelos y simulaciones, simplificando así el estudio de los objetos, fenómenos y sistemas.
El ‘modelo’ palabra (lat. Modelium) significa ‘método’ ‘medida’, ‘similar a la kakoy- la cosa ‘.
La construcción de modelos – una forma universal de la exploración del mundo, lo que permite detectar la adicción a predecir, divididos en grupos y resolver varios otros problemas. El principal objetivo de la simulación es que el modelo debe ser lo exacto para mostrar el funcionamiento del sistema que se está modelando.
Determinación
Model – es un objeto u objetos de sistemas de descripción para la sustitución (bajo ciertas condiciones, supuestas hipótesis) de un sistema (del sistema original) a otro sistema, para realizar un estudio detallado.
Simulación – un método universal para la preparación, descripción y uso del conocimiento.
empírico- derivados de hechos empíricos, dependencias;
teorético- derivados de descripciones matemáticas de las leyes.
semiempíricos- obtenido a partir de relaciones empíricas y descripciones matemáticas.
Minería de datos – Data Mining
El conocimiento no sólo es en seres humanos sino también en los datos. Este conocimiento se refiere a menudo como ‘oculto’. Están contenidas en gigabytes y terabytes de información que una persona no es capaz de explorar por su cuenta. En este sentido, existe una alta posibilidad de perder una hipótesis.
Obviamente, para la obtención y/o determinación del conocimiento oculto es necesario el uso de métodos de análisis automatizado especiales por los cuales representan casi el total de conocimiento a partir de restos de la información. Para que esta tendencia este fuertemente fijado el plazo de minería de datos o Data Mining . La definición clásica del término fue dado en 1996 por uno de los fundadores de esta definición – Gregory Pyatetskii-Shapiro.
Minería de datos o Data Mining – es la investigación con ‘sistemas complejos de análisis de datos o sistemas computacionales ‘ (algoritmos, inteligencia artificial)
- El conocimiento debe ser nuevo
- El conocimiento debe ser no trivial.
- El conocimiento debe ser útil en la práctica.
- El conocimiento debe ser accesible a la comprensión del hombre.
Para representar la minería de datos se usan los siguientes modelos: reglas, árboles de decisión, clusters, y funciones matemáticas.
Desarrollo de la minería de datos
Las técnicas de Data Mining sirve para ayudar a resolver varios problemas que enfrenta el analista. De éstos, los principales son: clasificación, regresión, búsqueda de reglas de asociación y agrupación. Lo siguiente es una breve descripción de las principales tareas de análisis de datos.
- El problema de clasificación se reduce a la definición de características del objeto u problema.
- Los problemas de regresión se clasificación para permiten la definir de las características conocidas del objeto a analizar.
- La busca de la finalidad de las reglas de asociación en encontrar una dependencia común (o asociaciones) entre los objetos o eventos.
- El problema de agrupamiento es la búsqueda de grupos independientes (clusters), como características o similitudes de los datos a analizar.
- La solución de este problema va ayudar a comprender mejor los datos. Además, la agrupación de objetos similares puede reducir su número, y, en consecuencia, facilitar el análisis.
Las tareas se dividen en descriptivo y predictivo.
Descripción de la tarea: es necesario prestar atención para tener una mejor comprensión de los datos ah analizar. El punto clave de estos modelos es la facilidad y la transparencia de los resultados a la percepción humana. Para este tipo de análisis de datos se utiliza las reglas de agrupación y asociación de búsqueda.
Predicción de la tarea: la predicción y solución se divide en dos etapas. La primera etapa se la base en el conjunto de datos que se agrupan de acuerdo a su característica. La segunda etapa se utiliza para predecir los resultados basados en los nuevos conjuntos de datos. Para la predicción se requiere que los modelos construidos trabajen lo más estrechamente posible. Para este tipo de análisis se utiliza la clasificación y regresión de datos.
Formas de resolver el problema
se divide en el aprendizaje supervisado (aprender con un profesor) y aprendizaje no supervisado (aprender sin maestro). Este nombre proviene del término Machine Learning (aprendizaje robotizado).
El aprendizaje supervisado se logra en varias etapas. En primer lugar, el uso de un algoritmo de minería de datos que construye un modelo. Luego se somete a un clasificador de formación. En otras palabras, la calidad de su trabajo comprobado, y si no es satisfactoria, hay una formación adicional del clasificador. Esto continúa hasta que alcanze el nivel de calidad deseada o no será correcto el algoritmo seleccionado.
El aprendizaje no supervisado se une a las tareas que revelan modelos descriptivos. La ventaja de este aprendizaje es la capacidad de resolver los problemas con un mínimo conocimiento de datos. Estas tareas incluyen las reglas de agrupación y asociación de búsqueda.
La aplicación de minería de datos
- Tecnología de Internet
la tecnología de minería de datos a menudo se utiliza para construir los sistemas de recomendación de tiendas en línea y para abordar el problema de la personalización de sitios web.
- En el comercio
La tecnología de análisis de datos de aplica en el sector comercio para crear un sistema de márquetin adecuado, utilizando las herramientas de Sic-ventsialny.
- Telecomunicaciones
Formas de utilizar los métodos de datos con la minería es el análisis de los registros de las características detalladas de las llamadas. Es necesario el nombramiento de un analizador para identificar la categoría de los clientes como estereotipos, uso de servicios.
- La medicina
En la investigación médica y biológica, así como en la práctica de la medicina, la gama de tareas es tan amplia que es posible utilizar cualquier metodología de minería de datos. Un ejemplo es la construcción de un estudio de diagnóstico de la eficiencia del sistema, o intervención quirúrgica.
- La banca
Un ejemplo clásico del uso de minería de datos en la práctica para resolver el problema de la posible solvencia de los clientes del banco. proceso de minería de datos de las características personales, y los resultados se utilizan para tomar decisiones.
- Otras aplicaciones
Minería de datos se puede utilizar prácticamente en todas partes, donde surge el problema de análisis automático de datos. A modo de ejemplo, este tipo de destinos populares como el análisis y para el filtrado de correo no deseado subsiguiente. y también el desarrollo de los llamados interlocutores virtuales.
Métodos básicos de minería de datos
Las técnicas de minería de datos por lo general se atribuyen principalmente ah algoritmos basados en la búsqueda de información. Una simple búsqueda de todos los objetos requiere operaciones donde la cantidad de objetos N- serán agrupados en modelos matemáticos o algoritmos. En consecuencia, si se aumentó la cantidad de datos crecerá exponencialmente la cantidad de los algoritmos.
Para reducir la complejidad computacional de los algoritmos se tiene que utilizar diferentes tipos de análisis. La optimización de estos algoritmos se reduce al número de transacciones, dependiendo de la cantidad de los datos de prueba para la función de un tipo lineal. Al mismo tiempo, depende del número de atributos o características, por regla general, es exponencial. A condición de que ligeramente (en la mayoría de los casos, que son mucho menos de los datos), tal dependencia es aceptable.
La principal ventaja de estos algoritmos es su simplicidad, tanto en términos de comprensión y aplicación.
Las desventajas son la falta de una teoría formal sobre la que se construyen estos algoritmos, y por lo tanto las dificultades asociadas con una investigación y desarrollo.
El análisis de los hitos
Para el descubrimiento de datos o el análisis es necesario aplicar los métodos de minería de datos. Todo el proceso se compone de varias etapas. Por lo tanto, todo el proceso se puede dividir en las siguientes etapas:
- La comprensión y el análisis del problema;
- Las preparaciones para el análisis de datos automatizados (preprocesamiento); Las solicitudes de modelos de minería de datos y de la construcción;
- Los modelos de interpretación.
En un primer paso se ejecutado los fines de comprensión de la tarea y de clasificación para lograr métodos de minería de datos. Es importante formular objetivos y seleccionar métodos adecuados para alcanzarlos el correcto análisis del problema.
El segundo paso es llevar los datos a una forma adecuada para los métodos de minería de datos específicos luego de una clasificación de datos.
La tercera etapa – la aplicación real de las técnicas de minería de datos. Estos pasos de aplicación pueden ser muy diversas, y pueden incluir una combinación compleja de varios métodos, especialmente cuando se utiliza métodos para analizar los datos de diferentes perspectivas.
El siguiente paso es la comprobación de algoritmos construidos. Este método es muy simple y se utiliza a menudo en los análisis, se divide en dos grupos. En un grupo mayor, se usan métodos de minería. En un grupo menor se comprueban. La diferencia entre ambos métodos es la precisión del análisis.
La última etapa es la interpretación del modelo para el propósito de su uso, la toma de decisiones, la adición de las reglas. Esta fase implica a menudo el uso de métodos que están en la intersección de la tecnología de minería de datos y tecnología de sistemas expertos.
Herramientas de minería de datos
Actualmente la tecnología de minería de datos está representada por una serie de software comercial y de código abierto.
Una lista bastante completa y actualizada periódicamente de estos productos se puede encontrar en la página web www.kdnuggets.com dedicada a la minería de datos. La Clasifica de los productos de software de minería de datos pueden estar en los mismos principios de análisis de datos. Sin embargo, esta clasificación no tendría ningún valor práctico. Debido a la alta competencia en el mercado y el deseo de la plenitud de soluciones técnicas, muchos de los productos de minería de datos abarcan prácticamente todos los aspectos de la aplicación de técnicas analíticas. Por lo tanto, es apropiado clasificar los productos de minería de datos por la forma en que se aplican.
Por lo tanto, los productos de minería de datos se pueden dividir en tres grandes categorías:
- Sistema de gestión de base de datos.
- Biblioteca de algoritmos de minería de datos.
- Sistemas de soluciones de escritorio (cajas negras).
Los productos de las dos primeras categorías ofrecen el mayor potencial para la integración y permiten implementar la capacidad de análisis en cualquier campo.
La inclusión de la capacidad analítica de los sistemas de gestión de bases de datos comerciales es adecuada y tiene una tendencia potencial. Sobre la base de este principio, la función de minería de datos implementa los siguientes programas para recopilar o almacenar datos.
- Oracle;
- Microsoft SQL Server;
- IBM DB2
Las principales tesis
La minería de datos permite automáticamente en función de un gran número de datos acumulados para generar hipótesis que pueden ser verificados por el análisis de otros medios (por ejemplo. OLAP).
- Investigación de datos Mining- y la máquina de detección (algoritmos, inteligencia artificial) en los datos primarios conocimiento, no conocido previamente trivial, prácticamente útil y disponible para su interpretación por el hombre ocultos.
- Método de minería de datos resuelve tres problemas principales: el problema de la clasificación y regresión, reglas de asociación, la tarea de la búsqueda y la tarea de agrupamiento. Por la cita, que se dividen en descriptivo y predictivo. En formas de resolver el problema se divide en el aprendizaje supervisado (aprender con un profesor) y no supervisado de aprendizaje (aprender sin maestro).
- El problema de la clasificación y la regresión se reduce a la determinación de los valores de la variable dependiente del objeto en sus variables independientes. Si la variable dependiente toma valores numéricos, hablamos de un problema de regresión, de lo contrario – en el problema de la clasificación.
- En busca de la finalidad de las reglas de asociación es encontrar una dependencia común (o asociaciones) entre los objetos o eventos. Las dependencias presentan en forma de reglas y se pueden utilizar para comprender mejor la naturaleza de los datos analizados, así como para predecir eventos.
- El problema de agrupamiento es la búsqueda de grupos independientes (clusters), y sus características a lo largo de la pluralidad de datos analizados. La solución de este problema ayuda a comprender mejor los datos. Además, la agrupación de objetos similares puede reducir su número, y, en consecuencia, facilitar el análisis.
- Técnicas de minería de datos están en el cruce de las diferentes áreas de tecnología de la información: estadísticas, redes neuronales, conjuntos difusos, algoritmos genéticos, y otros.
- Análisis inteligente incluye los siguientes pasos: comprensión y análisis de la formulación del problema, la preparación de los datos para el análisis automático, el uso de métodos de minería de datos y la construcción de modelos, la verificación de los modelos construidos, la interpretación de los modelos humanos.
- ·Antes de utilizar métodos de minería de datos datos originales a convertir. Tipo de transformación depende de los métodos utilizados.
- Técnicas de minería de datos puede utilizarse eficazmente en diversos campos de la actividad humana: en los negocios, la medicina, la ciencia, las telecomunicaciones, etc …
Análisis de los datos de texto – Text Mining
Análisis de información estructurada almacenada en bases de datos requiere pre-tratamiento: DB el diseño de la información de entrada de acuerdo con ciertas reglas, ponerlo a disposición de estructuras especiales (por ejemplo, tablas relacionales), etc. Por lo tanto, para el análisis directo de estos datos y la producción de los mismos .. nuevos conocimientos necesarios para gastar esfuerzo extra. Sin embargo, no siempre se asocian con el análisis y no necesariamente conducen al resultado deseado. Debido a esto, la eficiencia de análisis se reduce la información estructurada. Además, no todos los tipos de datos pueden ser estructurados sin perder información útil. Por ejemplo, documentos de texto prácticamente imposible convertir a una vista de tabla sin perder la semántica del texto y la relación entre las entidades. Por esta razón, estos documentos se almacenan en la base de datos, sin transformación, como campos de texto (BLOB-campo). Al mismo tiempo, el texto se oculta una enorme cantidad de información, pero no permite que los algoritmos de minería de datos no estructurados. La solución a este problema implicado métodos de análisis de texto no estructurado. En la literatura occidental, este tipo de análisis se llama minería de textos.
Métodos de análisis de los textos no estructurados se encuentran en el cruce de varias áreas: la minería de datos, procesamiento del lenguaje natural, recuperación de información, extracción de información y gestión del conocimiento.
Definición de minería de textos: Descubrimiento de Conocimiento en el texto – es un proceso no trivial de descubrir patrones realmente nuevos, potencialmente útiles y comprensibles en los datos de texto no estructurados.
Como puede verse a partir de la definición de minería de datos, se diferencia sólo en el nuevo concepto de ‘datos de texto no estructurados.’ En virtud de tal conocimiento es un conjunto de documentos, que se consolidan lógicamente texto, sin ningún tipo de restricciones en su estructura. Ejemplos de tales muellementos son: páginas web, correo electrónico, los reglamentos de TI. n. En general, estos documentos pueden ser complejas y grandes, e incluyen no sólo texto, sino también gráficos. Los documentos que usan lenguaje de marcado extensible XML (Extensible Markup Language), SGML Standard Generalized Markup Language (Lenguaje de marcado generalizado estándar) y otros acuerdos similares en la formación de la estructura del texto, llamados documentos semi-estructurados. También pueden ser procesados por métodos de minería de textos.
El proceso de análisis de documentos de texto se puede representar como una secuencia de varios pasos
- Búsqueda de información. En el primer paso que debe identificar qué documentos deben ser analizados, y para asegurar su disponibilidad. Por regla general, los usuarios pueden definir su propio conjunto de documentos analizados – con la mano, pero con un gran número de documentos necesarios para utilizar las opciones de criterios de selección automática.
- Pre-tratamiento de los documentos. En este paso, se realiza una transformación sencilla pero necesaria de los documentos para su presentación a la forma con la que los métodos de trabajo de minería de textos. El propósito de esta transformación es la eliminación de las palabras innecesarias y el texto que imparten forma más severa. Leer más métodos de pretratamiento se describen en la Sec.
- Recuperación de la información. La extracción de la información de los documentos seleccionados implica la asignación de los conceptos clave en ellos, sobre el cual se llevará a cabo un análisis más detallado.
La aplicación de métodos de minería de textos. En este paso, se extrae patrones y relaciones en el texto. Este paso en el proceso es el análisis de texto principal y problemas prácticos que deben resolverse en este paso.
Interpretación de los resultados. El último paso en el proceso de descubrimiento de conocimiento consiste en la interpretación de los resultados. Por regla general, la interpretación es o en la presentación de los resultados en un lenguaje natural, o visualizarlos en forma gráfica.
La visualización también se puede utilizar como un medio de análisis del texto. Por estos conceptos clave extraídos, que se presentan en forma gráfica. Esto ayuda al usuario a identificar rápidamente los principales temas y conceptos, así como para determinar su importancia.
El pretratamiento de texto
Uno de los principales problemas de análisis de texto es un gran número de palabras en el documento. Si cada una de estas palabras se va a analizar, mientras que la búsqueda de nuevos conocimientos aumentará dramáticamente, y es poco probable para satisfacer las necesidades de los usuarios. Al mismo tiempo, es obvio que no todas las palabras en el texto son información útil. Además, debido a la flexibilidad de los lenguajes naturales es formalmente diferentes palabras (sinónimos, y así sucesivamente. N.) en realidad representan el mismo concepto. Por lo tanto, la eliminación de las palabras no informativos, así como llevar palabras relacionadas con una única forma a reducir significativamente el análisis de texto tiempo. Eliminación de los problemas descritos anteriormente se realiza en la etapa de texto pre-procesamiento.
Típicamente, utilizan los siguientes métodos eliminar palabras no informativos y aumentar la gravedad de textos:
- La eliminación de palabras vacías. Las palabras vacías son palabras que son auxiliares y llevan poca información sobre el contenido del documento.
- Stemming- búsqueda morfológica. Él es convertir cada palabra a su forma normal.
- N-gramos es un análisis morfológico alternativa y la eliminación de palabras vacías. Permitir que el texto sea más estricta, no resuelven el problema de la reducción de la cantidad de palabras que no informativos;
- Llevar registro. Este método consiste en convertir todos los caracteres a mayúsculas o minúsculas.
El uso combinado más eficaz de estos métodos.
Tareas de minería de texto
En la actualidad, la literatura describe muchas aplicaciones que se pueden resolver mediante el análisis de los documentos de texto. Este clásico y Datos tareas de minería: clasificación, agrupación y característica sólo para documentos de texto tareas: anotación automática, extracto de conceptos clave, y otros.
La clasificación (clasificación) – problema de nivel de campo de minería de datos. Su propósito es determinar para cada documento a una o más categorías predeterminadas a las que se refiere dicho documento. Una característica de la clasificación problema es la suposición de que una pluralidad de documentos clasificados no ‘residuos’, es decir. E. Cada uno de los documentos correspondientes a cualquier categoría dada.
Un caso especial del problema de clasificación es un problema de determinar el objeto del documento [43].
El objeto de los documentos de agrupamiento (clustering) es identificar automáticamente los grupos de documentos semánticamente similares entre una pluralidad de fija predeterminada. Tenga en cuenta que los grupos se forman sólo sobre la base de la similitud por pares de las descripciones de los documentos y no hay características de estos grupos no se han establecido anteriormente.
anotación automática (resumen) le permite acortar el texto, manteniendo su significado. La solución a este problema se controla normalmente por el usuario mediante la determinación de la cantidad de frases recuperables o porcentaje de texto extraído en relación a todo el texto. El resultado incluye las propuestas más significativas en el texto.
El propósito principal de la extracción de conceptos kchyuchevyh (extracción de características) es identificar hechos y relaciones en el texto. En la mayoría de los casos, estos términos son sustantivos y nombres comunes: nombres de personas, empresas, organizaciones, etc. Los algoritmos para extraer conceptos pueden usar los diccionarios para identificar algunos de los patrones terminológicos y lingüísticos para determinar la otra ..
La navegación en el texto (navegación de texto-base) permite a los usuarios navegar a través de documentos en los temas y términos significativos. Esto se realiza mediante la identificación de los conceptos clave y algunas de las relaciones entre ellos.
El análisis de tendencias nos permite identificar las tendencias de la colección de documentos en cualquier momento. La tendencia se puede utilizar, por ejemplo, para detectar cambios en los intereses de la compañía a partir de un segmento a otro.
Buscar asociación es también una de las principales tareas de minería de datos. Para resolver el problema en un determinado conjunto de documentos identificados por las relaciones asociativas entre los conceptos clave.
Hay un buen número de variedades de estas tareas, así como los métodos para su solución. Esto confirma una vez más la importancia del análisis de texto. El resto de este capítulo se tratan las siguientes tareas: extraer conceptos clave, clasificación, agrupación y resumen automático.
Clasificación de los documentos de texto
Clasificación de los documentos de texto, así como en el caso de la clasificación de objetos es clasificar el documento a una de las clases conocidas previamente. La clasificación se aplica a menudo a los documentos de texto o llamada RUBRICADOS categorización. Obviamente, estos nombres se derivan de la tarea de organizar los documentos de directorios, categorías y rúbricas. En esta estructura de directorios puede ser un solo nivel y de varios niveles (jerárquica).
Formalmente, el problema de la clasificación de los documentos de texto describe el conjunto de conjuntos. Se requiere que el problema de la clasificación sobre la base de estos datos para construir un procedimiento que consiste en la búsqueda de la categoría más probable, de C para el instrumento de prueba.
La mayoría de los métodos de clasificación de texto de todos modos basan en el supuesto de que los documentos relativos a la misma categoría, contienen los mismos signos (palabras o frases), y la presencia o ausencia de tales características en el documento habla de su pertenencia o no pertenencia a un tema en particular.
Este conjunto de características a menudo se llama un diccionario, t. K. Se compone de fichas que incluyen palabras y / o frases que caracterizan categoría.
Del mismo modo categorías cada documento también tiene características por las que se puede atribuir con cierto grado de probabilidad a las una o más categorías.
Cabe señalar que estos conjuntos de características son el sello de la clasificación de los documentos de texto a partir de la clasificación de objetos de minería de datos, que se caracteriza por un conjunto de atributos.
La decisión de clasificar un documento d, la categoría con el adoptado sobre la base de la intersección de los síntomas comunes
El problema de los métodos de clasificación es la mejor manera de seleccionar tales características y establecer normas sobre la base de los cuales se tomará la decisión en referencia a la categoría del documento.
Herramientas de análisis de la información de texto
- Herramientas de Oracle – Oracle Text2
Desde la versión 7.3.3 de Oracle, herramientas de análisis de texto son una parte integral de los productos de Oracle. En Oracle estas herramientas han evolucionado y se consiguió un nuevo paquete de software de Oracle nombre-Texto-integrado en la base de datos, lo que permite trabajar de forma efectiva con las investigaciones relacionadas con el texto no estructurado. Cuando esto se combina con capacidades de procesamiento de texto que se proporcionan al usuario para trabajar con bases de datos relacionales. En particular, al escribir aplicaciones para el procesamiento de textos fue posible utilizar SQL.
La principal tarea a resolver por medio de Oracle Text apuntado, es la tarea de búsqueda de documentos en función de su contenido – palabras o frases que, si es necesario, en combinación con las operaciones booleanas. Resultados de la búsqueda se clasifican por relevancia, teniendo en cuenta la frecuencia de ocurrencia de las palabras de la consulta en los documentos encontrados.
- Los fondos de IBM – Intelligent Miner para Texto1
Producto de la empresa IBM Intelligent Miner para el texto representa un conjunto separado de los servicios públicos que se ejecutan desde la línea de comandos o scripts de forma independiente. El sistema comprende una unión de algunos servicios públicos para resolver tareas de análisis de datos textuales.
IBM Intelligent Miner para el texto combina un potente conjunto de herramientas que se basan principalmente en los motores de búsqueda de información (recuperación de información), que es la especificidad de la totalidad del producto. El sistema comprende una serie de componentes básicos, que tienen un significado independiente fuera de la tecnología de minería de textos:
- Herramientas SAS Institute – Text Miner
La empresa estadounidense SAS Institute dio a conocer un sistema de Text Miner SAS para la comparación de ciertas filas gramaticales y verbales por escrito. Text Miner es muy versátil, ya que puede trabajar con documentos de texto en varios formatos – bases de datos, sistemas de archivos, y luego en la web.
Text Miner proporciona el procesamiento lógico del texto en el entorno del paquete SAS Enterprise Miner. Esto permite a los usuarios para enriquecer el proceso de análisis de datos, la integración de la información de texto no estructurado con datos estructurados existentes, tales como la edad, los ingresos y la naturaleza de la demanda del consumidor.
Las principales tesis
- Descubrimiento de conocimiento en el texto – es un proceso no trivial de descubrir patrones realmente nuevos, potencialmente útiles y comprensibles en los datos de texto no estructurados.
- El proceso de análisis de documentos de texto se puede representar como una secuencia de varios pasos: recuperación de información, pre-procesamiento de documentos, extracción de información, aplicaciones de minería de textos, interpretación de los resultados.
- Normalmente usar los siguientes métodos eliminar palabras poco informativos y textos rigurosidad creciente: la eliminación de ventanillas palabras, derivado, L-gramo registro de accionamiento.
- Los objetivos del análisis de la información textual son: clasificación, agrupación, la anotación automática, extraer conceptos clave, texto de navegación, tendencias, buscando asociaciones y otros.
- La eliminación de los conceptos fundamentales del texto puede ser considerado como una tarea de aplicación independiente y como una etapa separada del análisis de textos. En el último caso, extraído del texto de los hechos utilizados para una variedad de tareas de análisis.
- El proceso de extracción de los conceptos clave de uso de plantillas se realiza en dos etapas: en los primeros documentos de texto recuperados hechos individuales a través de análisis léxico realizado en la segunda etapa de la integración extrae hechos y / o derivación de nuevos hechos.
- La mayoría de los métodos de clasificación de texto de todos modos basan en el supuesto de que los documentos relativos a la misma categoría, contienen los mismos signos (palabras o frases), y la presencia o ausencia de tales características en el documento habla de su pertenencia o no pertenencia a un tema en particular.
- La mayoría de los algoritmos de agrupamiento requieren los datos que se presentan en la forma de un modelo de espacio de vector, que se utiliza ampliamente para la recuperación de información, y utiliza una metáfora para reflejar la similitud semántica como una proximidad espacial.
- Hay dos enfoques básicos para la anotación automática de documentos de texto: extracto (selección de las piezas más importantes) y síntesis (el uso del conocimiento pre-ensamblado).
Conclusión
La minería de datos es una de las áreas más relevantes y populares de la matemática aplicada. Procesos de negocio y de fabricación modernos generan enormes cantidades de datos, y la gente se vuelve más y más difícil de interpretar y responder a la gran cantidad de datos que cambian dinámicamente en tiempo de ejecución, por no hablar de la prevención de situaciones de emergencia. ‘La minería de datos’ extraer el máximo conocimiento útil a partir de datos multidimensionales, diversas, incompletos, imprecisos, contradictorios e indirectos. Esto ayuda a hacer esto de manera efectiva, si la cantidad de datos mide en gigabytes o incluso terabytes. Ayuda a construir algoritmos que pueden ser entrenados toma de decisiones en diversos campos profesionales.
Significa ‘minería de datos’ proteger a las personas de sobrecarga de información, procesamiento de datos operacionales en información útil a los efectos oportunos podría tomarse en el momento adecuado.
El desarrollo de aplicaciones se lleva a cabo en las siguientes áreas: la previsión en los sistemas económicos; automatización de la investigación y el análisis de los entornos de los clientes de la industria, el comercio minorista, las telecomunicaciones y las empresas de Internet de marketing; automatización de las decisiones de crédito y la evaluación de los riesgos de crédito; supervisión de los mercados financieros; sistemas de comercio automatizados.
Referencias
- Tecnología de Análisis de datos: Data Mining. Minería visual. Minería de Textos, OLAP »A. Barseghian. M. S. Kupriyanov, V. Stenanenko, frío II. – 2ª ed, Revisada.. y ext.
- http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm – artículo de Internet
- http://www.piter.com/contents/978549807257/978549807257_p.pdf -Tecnologías Análisis de Datos
- http://ru.wikipedia.org/wiki/Data_mining – Minería de datos