hogar/ Soluciones de color

Historia, desarrollo y formación de la lingüística computacional como dirección científica. ¿Qué es la lingüística computacional?

TRABAJO DEL CURSO

en la disciplina "Informática"

sobre el tema: “Lingüística computacional”

INTRODUCCIÓN

2. Interfaces modernas para la lingüística computacional

CONCLUSIÓN

LITERATURA

Introducción

En la vida sociedad moderna Las tecnologías de la información automatizadas desempeñan un papel importante. Con el tiempo, su importancia aumenta continuamente. Pero el desarrollo tecnologías de la información ocurre de manera muy desigual: si el nivel actual tecnologia computacional Y los medios de comunicación son sorprendentes, pero en el campo del procesamiento semántico de la información los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre personas y la capacidad de modelar estos procesos en una computadora.

Cuando se trata de crear tecnologías de la información prometedoras, pasan a primer plano los problemas del procesamiento automático de información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Además, el lenguaje natural es una herramienta de pensamiento. También es un medio universal de comunicación entre personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística informática se ocupa de los problemas del uso del lenguaje natural en sistemas automáticos de procesamiento de información. Esta ciencia surgió hace relativamente poco tiempo, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido importantes resultados científicos y prácticos en el campo de la lingüística informática: se han obtenido sistemas de traducción automática de textos de un lenguaje natural a otro, sistemas de recuperación automatizada de información en textos, sistemas de análisis y síntesis automáticos. sido creado discurso oral y muchos otros. Este trabajo está dedicado a la construcción de una interfaz informática óptima utilizando la lingüística informática al realizar investigaciones lingüísticas.

1. El lugar y el papel de la lingüística computacional en la investigación lingüística

EN mundo moderno La lingüística computacional se utiliza cada vez más en diversos estudios lingüísticos.

La lingüística computacional es un campo del conocimiento asociado a la resolución de problemas de procesamiento automático de información presentada en lenguaje natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de comprensión del significado de los textos (transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (transición de una representación formalizada del significado a textos en formato natural). idioma). Estos problemas surgen al resolver una serie de problemas aplicados y, en particular, problemas de detección y corrección automática de errores al ingresar textos en una computadora, análisis y síntesis automáticos del habla oral, traducción automática de textos de un idioma a otro, comunicación con una computadora en lenguaje natural, clasificación e indexación automática de documentos de texto, su resumen automático, búsqueda de documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística computacional se pueden dividir en dos partes: declarativas y procedimentales. La parte declarativa incluye diccionarios de unidades de lengua y habla, textos y diversos tipos de tablas gramaticales, la parte procesal incluye medios para manipular unidades de lengua y habla, textos y tablas gramaticales. La interfaz de computadora se refiere a la parte procesal de la lingüística computacional.

El éxito en la resolución de problemas aplicados de la lingüística informática depende, en primer lugar, de la integridad y precisión de la representación de los medios declarativos en la memoria de la computadora y de la calidad de los medios procedimentales. Hasta la fecha, aún no se ha alcanzado el nivel requerido para resolver estos problemas, aunque se está trabajando en el campo de la lingüística computacional en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc. ).

Sin embargo, se pueden observar importantes logros científicos y prácticos en el campo de la lingüística computacional. Así, en varios países (Rusia, EE. UU., Japón, etc.) se han construido sistemas experimentales e industriales para la traducción automática de textos de un idioma a otro, se han construido una serie de sistemas experimentales para comunicarse con computadoras en lenguaje natural. , se está trabajando en la creación de bancos de datos terminológicos, tesauros, diccionarios automáticos bilingües y multilingües (Rusia, Estados Unidos, Alemania, Francia, etc.), se están construyendo sistemas de análisis y síntesis automática del habla oral (Rusia, Estados Unidos, Japón, etc.). .), se están realizando investigaciones en el campo de la construcción de modelos de lenguaje natural.

Un problema metodológico importante de la lingüística computacional aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y procesales de los sistemas automáticos de procesamiento de información textual. ¿Qué debería preferirse: procedimientos computacionales potentes basados en sistemas de vocabulario relativamente pequeños con rica información gramatical y semántica, o un componente declarativo potente con interfaces informáticas relativamente simples? La mayoría de los científicos creen que es preferible la segunda forma. Conducirá al logro de objetivos prácticos más rápidamente, ya que habrá menos callejones sin salida y obstáculos difíciles de superar, y aquí será posible utilizar computadoras a mayor escala para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, en primer lugar, para el desarrollo del componente declarativo de los sistemas automáticos de procesamiento de información textual está confirmada por medio siglo de experiencia en el desarrollo de la lingüística informática. Después de todo, aquí, a pesar de los innegables éxitos de esta ciencia, la pasión por los procedimientos algorítmicos no ha dado el éxito esperado. Incluso hubo cierta decepción respecto de la capacidad de los medios procesales.

A la luz de lo anterior, parece prometedor desarrollar un camino de desarrollo de la lingüística informática, en el que los principales esfuerzos estarán dirigidos a crear poderosos diccionarios de lenguas y unidades de habla, estudiar su estructura semántico-sintáctica y crear procedimientos básicos para la comprensión morfológica, Análisis y síntesis semántico-sintáctico y conceptual de textos. Esto nos permitirá resolver una amplia gama de problemas aplicados en el futuro.

La lingüística informática se enfrenta, en primer lugar, a las tareas de apoyo lingüístico a los procesos de recopilación, acumulación, procesamiento y recuperación de información. Los más importantes de ellos son:

1. Automatización de la compilación y procesamiento lingüístico de diccionarios automáticos;

2. Automatización de los procesos de detección y corrección de errores al ingresar textos en una computadora;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación y resumen automático de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. Construcción de procesadores lingüísticos que aseguren la comunicación del usuario con sistemas de información inteligentes automatizados (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural;

8. Extraer información fáctica de textos informales.

Detengámonos en detalle en los problemas más relevantes para el tema de investigación.

EN actividades practicas centros de información existe la necesidad de resolver el problema de la detección y corrección automatizada de errores en los textos cuando se ingresan en una computadora. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de control ortográfico, sintáctico y semántico de los textos. El primero de ellos puede resolverse mediante un procedimiento de análisis morfológico que utiliza un diccionario automático de referencia de raíces de palabras bastante potente. En el proceso de control ortográfico, las palabras del texto son sujetas a análisis morfológico, y si sus bases se identifican con las bases del diccionario de referencia, entonces se consideran correctas; si no se identifican, acompañados de un microcontexto, se presentan a una persona para que los vea. Una persona detecta y corrige palabras distorsionadas y el sistema de software correspondiente realiza estas correcciones en el texto corregido.

La tarea de control sintáctico de los textos para detectar errores en ellos es mucho más difícil que la tarea de control ortográfico. En primer lugar, porque incluye en su composición la tarea de control ortográfico como componente obligatorio y, en segundo lugar, porque el problema del análisis sintáctico de los textos informales aún no está del todo resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede hacerlo de dos maneras: compilar diccionarios automáticos bastante representativos de estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; o desarrollar sistema complejo reglas para comprobar la coherencia gramatical de los elementos del texto. La primera vía nos parece más prometedora, aunque, por supuesto, no excluye la posibilidad de utilizar elementos de la segunda vía. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical de las palabras).

La tarea de control semántico de textos para detectar errores semánticos en ellos debe clasificarse como una clase de tareas de inteligencia artificial. Sólo puede resolverse por completo modelando los procesos del pensamiento humano. En este caso, aparentemente será necesario crear poderosas bases de conocimiento enciclopédico y herramientas de software para la manipulación del conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es completamente solucionable. Debe plantearse y solucionarse como un problema de control semántico-sintáctico de los textos.

El problema de automatizar la indexación de documentos y consultas es tradicional para los sistemas automatizados de recuperación de información textual. En un principio, la indexación se entendía como el proceso de asignar índices de clasificación a documentos y consultas que reflejaran su contenido temático. Posteriormente, este concepto se transformó y el término "indexación" comenzó a referirse al proceso de traducir descripciones de documentos y consultas del lenguaje natural al lenguaje formalizado, en particular, al lenguaje de las "imágenes de búsqueda". Las imágenes de búsqueda de documentos comenzaron, por regla general, a formarse en forma de listas de palabras clave y frases que reflejaban su contenido temático, y las imágenes de búsqueda de consultas, en forma de estructuras lógicas en las que las palabras clave y frases estaban conectadas entre sí. por operadores lógicos y sintácticos.

Es conveniente indexar automáticamente los documentos basándose en los textos de sus resúmenes (si los hay), ya que los resúmenes reflejan el contenido principal de los documentos de forma concentrada. La indexación se puede realizar con o sin control de tesauro. En el primer caso, en el texto del título del documento y su resumen se buscan palabras y frases clave del diccionario automático de referencia y solo se incluyen en el AML aquellas que se encuentran en el diccionario. En el segundo caso, las palabras y frases clave se aíslan del texto y se incluyen en el POD, independientemente de su pertenencia a algún diccionario de referencia. También se implementó una tercera opción, donde, junto con los términos del tesauro de la máquina, el AML también incluía términos extraídos del título y la primera oración del resumen del documento. Los experimentos han demostrado que los POD compilados automáticamente utilizando títulos y resúmenes de documentos proporcionan una búsqueda más completa que los POD compilados manualmente. Esto se explica por el hecho de que el sistema de indexación automática refleja más completamente varios aspectos del contenido de los documentos que el sistema de indexación manual.

La indexación automática de consultas plantea aproximadamente los mismos problemas que la indexación automática de documentos. Aquí también hay que extraer palabras clave y frases del texto y normalizar las palabras incluidas en el texto de la consulta. Las conexiones lógicas entre palabras y frases clave y los operadores contextuales se pueden ingresar manualmente o mediante un procedimiento automatizado. Un elemento importante El proceso de indexación automática de una consulta es la adición de las palabras clave y frases que la componen con sus sinónimos e hipónimos (a veces también hiperónimos y otros términos asociados con los términos de la consulta original). Esto se puede hacer de forma automática o interactiva utilizando un diccionario de sinónimos automático.

Ya hemos considerado parcialmente el problema de la automatización de la búsqueda de información documental en relación con la tarea de indexación automática. Lo más prometedor aquí es buscar documentos utilizando sus textos completos, ya que el uso de todo tipo de sustitutos para este fin (descripciones bibliográficas, imágenes de búsqueda de documentos y los textos de sus resúmenes) conlleva la pérdida de información durante la búsqueda. Las mayores pérdidas se producen cuando se utilizan descripciones bibliográficas como sustitutos de los documentos primarios, y las pérdidas más pequeñas se producen cuando se utilizan resúmenes.

Características importantes La calidad de la recuperación de información es su integridad y precisión. La integridad de la búsqueda se puede garantizar teniendo en cuenta al máximo las conexiones paradigmáticas entre las unidades del lenguaje y el habla (palabras y frases), y la precisión, teniendo en cuenta sus conexiones sintagmáticas. Existe la opinión de que la integridad y precisión de la búsqueda están en relación inversa: las medidas para mejorar una de estas características conducen a un deterioro de la otra. Pero esto sólo es cierto para la lógica de búsqueda fija. Si se mejora esta lógica, entonces se podrán mejorar ambas características simultáneamente.

Es recomendable construir el proceso de búsqueda de información en bases de datos de texto completo como un proceso de comunicación interactiva entre el usuario y el sistema de recuperación de información (IRS), en el que visualiza secuencialmente fragmentos de texto (párrafos) que satisfacen las condiciones lógicas de la solicitud, y selecciona aquellas que sean relevantes para él. Los resultados finales de la búsqueda pueden aparecer como textos completos documentos y cualquier fragmento de los mismos.

Como se desprende de las discusiones anteriores, a la hora de buscar información automáticamente es necesario superar la barrera del idioma que surge entre el usuario y el sistema de información debido a la variedad de formas de representación de un mismo significado que se presenta en los textos. Esta barrera se vuelve aún más importante si la búsqueda debe realizarse en bases de datos multilingües. Una solución radical al problema podría ser la traducción automática de textos de documentos de un idioma a otro. Esto se puede hacer con antelación, antes de cargar documentos en un motor de búsqueda, o durante el proceso de búsqueda de información. En el último caso, la solicitud del usuario debe traducirse al idioma del conjunto de documentos en el que se realiza la búsqueda, y los resultados de la búsqueda deben traducirse al idioma de la solicitud. Este tipo de motores de búsqueda ya funcionan en Internet. En VINITI RAS también se creó el sistema Cyrillic Browser, que permite buscar información en textos en ruso mediante consultas en inglés y mostrar los resultados de la búsqueda también en el idioma del usuario.

Una tarea importante y prometedora de la lingüística informática es la construcción de procesadores lingüísticos que garanticen la comunicación del usuario con sistemas de información automatizados inteligentes (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural. Dado que en los sistemas inteligentes modernos la información se almacena en forma formalizada, los procesadores lingüísticos, actuando como intermediarios entre una persona y una computadora, deben resolver las siguientes tareas principales: 1) la tarea de pasar de los textos de las solicitudes de información de entrada a los mensajes en formato natural lenguaje para representar su significado en un lenguaje formalizado (al ingresar información en una computadora); 2) la tarea de pasar de una representación formalizada del significado de los mensajes de salida a su representación en lenguaje natural (al transmitir información a una persona). La primera tarea debe resolverse mediante un análisis morfológico, sintáctico y conceptual de las consultas y mensajes de entrada, la segunda, mediante una síntesis conceptual, sintáctica y morfológica de los mensajes de salida.

El análisis conceptual de solicitudes y mensajes de información consiste en identificar su estructura conceptual (los límites de los nombres de los conceptos y las relaciones entre conceptos en el texto) y traducir esta estructura a un lenguaje formalizado. Se realiza tras un análisis morfológico y sintáctico de solicitudes y mensajes. La síntesis conceptual de mensajes consiste en la transición de la representación de los elementos de su estructura en un lenguaje formalizado a una representación verbal (verbal). Posteriormente, a los mensajes se les da el formato sintáctico y morfológico necesario.

Para la traducción automática de textos de un lenguaje natural a otro, es necesario disponer de diccionarios de correspondencia de traducción entre los nombres de los conceptos. El conocimiento sobre dichas correspondencias de traducción fue acumulado por muchas generaciones de personas y se recopiló en forma de publicaciones especiales: diccionarios bilingües o multilingües. Para los especialistas con algún conocimiento de lenguas extranjeras, estos diccionarios sirvieron de valiosa ayuda para la traducción de textos.

En los diccionarios tradicionales bilingües y multilingües de uso general, los equivalentes de traducción se indicaban principalmente para palabras individuales y, con mucha menos frecuencia, para frases. La indicación de equivalentes de traducción de frases era más típica de los diccionarios terminológicos especiales. Por lo tanto, al traducir secciones de textos que contienen palabras polisemánticas, los estudiantes a menudo encontraban dificultades.

A continuación se muestran correspondencias de traducción entre varios pares de frases en inglés y ruso sobre temas “escolares”.

1) El murciélago parece un ratón con alas – El murciélago parece un ratón con alas.

2) A los niños les gusta jugar en la arena de la playa - A los niños les encanta jugar en la arena de la orilla del mar.

3) Una gota de lluvia cayó sobre mi mano - Una gota de lluvia cayó sobre mi mano.

4) La madera seca se quema fácilmente; la madera seca se quema bien.

5) Fingió no oírme - Fingió no oírme.

Aquí las frases en inglés no son expresiones idiomáticas. Sin embargo, su traducción al ruso sólo puede considerarse, con cierta extensión, como una simple traducción palabra por palabra, ya que casi todas las palabras incluidas en ellas son ambiguas. Por lo tanto, aquí sólo los logros de la lingüística informática pueden ayudar a los estudiantes.

Introducción

¿Qué es la lingüística computacional?

LINGÜÍSTICA INFORMÁTICA , una dirección de lingüística aplicada, centrada en el uso de herramientas informáticas (programas, tecnologías informáticas para organizar y procesar datos) para modelar el funcionamiento del lenguaje en determinadas condiciones, situaciones, áreas problemáticas, etc., así como todo el ámbito de Aplicación de modelos informáticos del lenguaje en lingüística y disciplinas afines. En realidad, sólo en este último caso estamos hablando de lingüística aplicada en sentido estricto, ya que el modelado informático del lenguaje también puede considerarse como un campo de aplicación de la informática y la teoría de la programación para la resolución de problemas en la ciencia del lenguaje. En la práctica, sin embargo, la lingüística computacional incluye casi todo lo relacionado con el uso de computadoras en lingüística.

La lingüística computacional se constituyó como un campo científico especial en los años 1960. El término ruso "lingüística informática" es una traducción del inglés computacional lingüística. Dado que el adjetivo computacional en ruso también se puede traducir como "computacional", el término "lingüística computacional" también se encuentra en la literatura, pero en la ciencia rusa adquiere un significado más limitado, acercándose al concepto de "lingüística cuantitativa". El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista Computer Linguistics se publica trimestralmente en Estados Unidos. Mayor organización y trabajo científico lo lleva a cabo la Asociación de Lingüística Computacional, que ha estructuras regionales(en particular, la sucursal europea). Cada dos años se celebran congresos internacionales sobre lingüística computacional (COLING). Los temas correspondientes suelen estar ampliamente representados en diversas conferencias sobre inteligencia artificial.

Tareas

Ligüística computacional aborda los problemas lingüísticos reales del modelado informático de la actividad lingüística. Sus objetivos son construir modelos lingüísticos más precisos y completos y algoritmos de análisis y síntesis más avanzados.

Se pueden identificar las direcciones principales:

1) Interacción entre hombre y computadora: control - lenguajes de programación, transferencia de información - interfaz.

2) Trabajar con textos: indexación, análisis y clasificación, edición automática (corrección de errores), identificación de conocimientos, traducción automática.

Historia

La generación sencilla de un subconjunto del idioma inglés para acceder a bases de datos fue proporcionada por uno de los primeros sistemas estadounidenses LIFER (Language Interface Facility with Elipsis and Recursion), creado en los años 70. Después de esto, aparecieron en el mercado de las computadoras otros sistemas más flexibles que proporcionaban una interfaz de lenguaje natural limitada con una computadora.

En los años 80 se formaron en Estados Unidos varias empresas dedicadas al desarrollo y venta de interfaces de lenguaje natural con bases de datos y sistemas expertos. En 1985 Semantek Corporation presentó un paquete de software de preguntas y respuestas, y la empresa Carnegie Group ofreció un paquete LanguageCraft similar.

Se está trabajando activamente para crear sistemas de traducción automática. Se ha generalizado el sistema de traducción automática SYSTRAN, desarrollado bajo la dirección de D. Tom para la Fuerza Aérea de EE. UU. Durante 1974 - 1975 El sistema fue utilizado por la asociación aeroespacial de la NASA para traducir documentos para el proyecto Apollo-Soyuz. Actualmente traduce unas 100.000 páginas al año de varios idiomas.

En Europa, el trabajo sobre la creación de sistemas de traducción informática se vio estimulado por la formación de la Red Europea de Información (EURONET DIANA). En 1982, la Comunidad Económica Europea anunció la creación del programa europeo EUROTRA, cuyo objetivo es desarrollar un sistema de traducción asistida por ordenador para todas las lenguas europeas. El proyecto se estimó inicialmente en 12 millones de dólares; en 1987, los expertos determinaron el coste total del proyecto en más de 160 millones de dólares.

En Japón, la investigación en lingüística computacional se centra en el programa informático nacional de quinta generación anunciado en 1981.

Hay una serie de proyectos militares para crear interfaces hombre-máquina en lenguaje natural. En Estados Unidos, se llevan a cabo principalmente en el marco de la Iniciativa Informática Estratégica, un programa de diez años adoptado por el Departamento de Defensa en 1983. Su objetivo es crear una nueva generación de armas y sistemas militares "inteligentes" en para asegurar la superioridad tecnológica de Estados Unidos a largo plazo.

Naturalmente, los especialistas en inteligencia artificial, que conocen bien las computadoras y los lenguajes de programación, comenzaron con energía a resolver el problema de la comprensión del lenguaje utilizando sus propios métodos. Se buscó algoritmos de lenguaje natural. Se han creado programas complejos de comprensión del lenguaje para áreas especializadas muy limitadas, se han implementado programas parciales de traducción automática y muchos otros. Pero no hubo avances decisivos en la solución del problema de la comprensión del lenguaje. El lenguaje y las personas están tan conectados que los científicos tuvieron que abordar el problema de la comprensión humana del mundo. Y este ya es el ámbito de la filosofía.

Conceptos básicos de lingüística.

TRABAJO DEL CURSO

en la disciplina "Informática"

sobre el tema: “Lingüística computacional”

INTRODUCCIÓN

1. El lugar y el papel de la lingüística computacional en la investigación lingüística

2. Interfaces modernas para la lingüística computacional

CONCLUSIÓN

LITERATURA

Introducción

Las tecnologías de la información automatizadas juegan un papel importante en la vida de la sociedad moderna. Con el tiempo, su importancia aumenta continuamente. Pero el desarrollo de la tecnología de la información es muy desigual: si el nivel moderno de la tecnología informática y las comunicaciones es sorprendente, en el campo del procesamiento semántico de la información los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre personas y la capacidad de modelar estos procesos en una computadora.

Cuando se trata de crear tecnologías de la información prometedoras, pasan a primer plano los problemas del procesamiento automático de información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Además, el lenguaje natural es una herramienta de pensamiento. También es un medio universal de comunicación entre personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística informática se ocupa de los problemas del uso del lenguaje natural en sistemas automáticos de procesamiento de información. Esta ciencia surgió hace relativamente poco tiempo, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido importantes resultados científicos y prácticos en el campo de la lingüística informática: sistemas de traducción automática de textos de una lengua natural a otra, sistemas de recuperación automatizada de información en textos, sistemas de análisis y síntesis automáticos de información oral. discurso, y se han creado muchos otros. Este trabajo está dedicado a la construcción de una interfaz informática óptima utilizando la lingüística informática al realizar investigaciones lingüísticas.

En el mundo moderno, la lingüística computacional se utiliza cada vez más para realizar diversos estudios lingüísticos.

1. Automatización de la compilación y procesamiento lingüístico de diccionarios automáticos;

2. Automatización de los procesos de detección y corrección de errores al ingresar textos en una computadora;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación y resumen automático de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

8. Extraer información fáctica de textos informales.

Detengámonos en detalle en los problemas más relevantes para el tema de investigación.

En las actividades prácticas de los centros de información, existe la necesidad de resolver el problema de la detección y corrección automatizada de errores en los textos cuando se ingresan en una computadora. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de control ortográfico, sintáctico y semántico de los textos. El primero de ellos puede resolverse mediante un procedimiento de análisis morfológico que utiliza un diccionario automático de referencia de raíces de palabras bastante potente. En el proceso de control ortográfico, las palabras del texto son sujetas a análisis morfológico, y si sus bases se identifican con las bases del diccionario de referencia, entonces se consideran correctas; si no se identifican, acompañados de un microcontexto, se presentan a una persona para que los vea. Una persona detecta y corrige palabras distorsionadas y el sistema de software correspondiente realiza estas correcciones en el texto corregido.

La tarea de control sintáctico de los textos para detectar errores en ellos es mucho más difícil que la tarea de control ortográfico. En primer lugar, porque incluye en su composición la tarea de control ortográfico como componente obligatorio y, en segundo lugar, porque el problema del análisis sintáctico de los textos informales aún no está del todo resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede hacerlo de dos maneras: compilar diccionarios automáticos bastante representativos de estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; o desarrollar un sistema complejo de reglas para verificar la coherencia gramatical de los elementos del texto. La primera vía nos parece más prometedora, aunque, por supuesto, no excluye la posibilidad de utilizar elementos de la segunda vía. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical de las palabras).

en el departamento de filologia Escuela secundaria Economía, se lanza un nuevo programa de maestría dedicado a la lingüística computacional: da la bienvenida a solicitantes con una educación básica en humanidades y matemáticas y a cualquier persona interesada en resolver problemas en una de las ramas más prometedoras de la ciencia. Su directora, Anastasia Bonch-Osmolovskaya, explicó a Theories and Practitioners qué es la lingüística computacional, por qué los robots no reemplazarán a los humanos y qué se enseñará en el programa de maestría en lingüística computacional de HSE.

Este programa es casi el único de su tipo en Rusia. ¿Donde estudiaste?

Estudié en la Universidad Estatal de Moscú en el departamento de teoría y la lingüística aplicada Facultad de Filología. No llegué allí de inmediato, primero entré en el departamento de ruso, pero luego me interesé seriamente por la lingüística y me atrajo el ambiente que permanece en el departamento hasta el día de hoy. Lo más importante es el buen contacto entre profesores y alumnos y su interés mutuo.

Cuando tuve hijos y necesité ganarme la vida, me dediqué al campo de la lingüística comercial. En 2005 no estaba muy claro cuál era este ámbito de actividad como tal. Trabajé en diferentes empresas lingüísticas: comencé con una pequeña empresa en el sitio Public.ru, que es una especie de biblioteca multimedia, donde comencé a trabajar en tecnologías lingüísticas. Luego trabajé durante un año en Rosnanotech, donde surgió la idea de crear un portal analítico para que los datos que contenía se estructuraran automáticamente. Luego dirigí el departamento lingüístico de la empresa Avicomp; esto ya es una producción seria en el campo de la lingüística informática y las tecnologías semánticas. Al mismo tiempo, impartí un curso sobre lingüística computacional en la Universidad Estatal de Moscú y traté de modernizarlo.

Dos recursos para un lingüista: - un sitio creado por lingüistas para investigaciones científicas y aplicadas relacionadas con la lengua rusa. Se trata de un modelo de la lengua rusa, presentado a partir de una enorme variedad de textos de diferentes géneros y épocas. Los textos están equipados con marcas lingüísticas, con las que se puede obtener información sobre la frecuencia de determinados fenómenos lingüísticos. Wordnet: una enorme base de datos léxica en Inglés, la idea principal de Wordnet es conectar no palabras, sino sus significados, en una gran red. Wordnet se puede descargar y utilizar para sus propios proyectos.

¿Qué hace la lingüística computacional?

Este es el campo más interdisciplinario. Lo más importante aquí es entender qué está pasando en el mundo electrónico y quién te ayudará a hacer cosas específicas.

Estamos rodeados de muy un gran número de información digital, existen muchos proyectos empresariales, cuyo éxito depende del procesamiento de la información, estos proyectos pueden relacionarse con el campo del marketing, la política, la economía y cualquier otro. Y es muy importante poder manejar esta información de manera efectiva; lo principal no es solo la velocidad de procesamiento de la información, sino también la facilidad con la que, después de filtrar el ruido, puede obtener los datos que necesita y crear un completo. imagen de ella.

Anteriormente, algunas ideas globales estaban asociadas con la lingüística informática, por ejemplo: la gente pensaba que la traducción automática reemplazaría a la traducción humana, que los robots trabajarían en lugar de las personas. Pero ahora parece una utopía y la traducción automática se utiliza en los motores de búsqueda para búsquedas rápidas en un idioma desconocido. Es decir, ahora la lingüística rara vez se ocupa de problemas abstractos, principalmente de algunas cosas pequeñas que pueden insertarse en un producto grande y ganar dinero con ello.

Una de las grandes tareas de la lingüística moderna es la web semántica, cuando la búsqueda no se realiza simplemente relacionando palabras, sino también por significado, y todos los sitios están de una forma u otra marcados por la semántica. Esto puede resultar útil, por ejemplo, para los informes policiales o médicos que se redactan todos los días. El análisis de las conexiones internas proporciona mucha información necesaria, pero leerla y calcularla manualmente requiere mucho tiempo.

En pocas palabras, tenemos mil textos, necesitamos ordenarlos en grupos, presentar cada texto en forma de estructura y obtener una tabla con la que ya podemos trabajar. A esto se le llama procesamiento de información no estructurada. Por otra parte, la lingüística computacional se ocupa, por ejemplo, de la creación de textos artificiales. Hay una empresa que ha ideado un mecanismo para generar textos sobre temas sobre los que a una persona le resulta aburrido escribir: cambios en los precios inmobiliarios, previsiones meteorológicas, informes sobre partidos de fútbol. Es mucho más caro encargar estos textos a una persona y los textos informáticos sobre estos temas están escritos en un lenguaje humano coherente.

Yandex participa activamente en el desarrollo de la búsqueda de información no estructurada en Rusia; Kaspersky Lab contrata grupos de investigación que estudian el aprendizaje automático. ¿Alguien en el mercado está intentando encontrar algo nuevo en el campo de la lingüística computacional?

**Libros sobre lingüística computacional:**

Daniel Jurafsky, Procesamiento del habla y el lenguaje

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Introducción a la recuperación de información"

Yakov Testelets, “Introducción a la sintaxis general”

La mayoría de los desarrollos lingüísticos son propiedad de grandes empresas; prácticamente no se puede encontrar nada en ellos; acceso abierto. Esto frena el desarrollo de la industria; no tenemos un mercado lingüístico libre ni soluciones empaquetadas.

Además, faltan recursos de información completos. Existe un proyecto llamado Corpus Nacional de la Lengua Rusa. Este es uno de los mejores edificios nacionales del mundo, que se está desarrollando rápidamente y abre increíbles oportunidades para la investigación científica y aplicada. La diferencia es aproximadamente la misma que en biología: antes y después de la investigación del ADN.

Pero muchos recursos no existen en ruso. Por lo tanto, no existe un análogo de un recurso en inglés tan maravilloso como Framenet: se trata de una red conceptual donde se presentan formalmente todas las conexiones posibles de una palabra en particular con otras palabras. Por ejemplo, existe la palabra "volar": quién puede volar, dónde, con qué preposición se usa esta palabra, con qué palabras se combina, etc. Este recurso ayuda a conectar el lenguaje con vida real, es decir, monitorear cómo se comporta palabra específica a nivel de morfología y sintaxis. Es muy útil.

La empresa Avicomp está desarrollando actualmente un complemento para buscar artículos con contenido similar. Es decir, si está interesado en un artículo, puede consultar rápidamente la historia de la trama: cuándo surgió el tema, qué se escribió y cuándo fue el pico de interés por este problema. Por ejemplo, con la ayuda de este complemento será posible, a partir de un artículo dedicado a los acontecimientos en Siria, ver muy rápidamente cómo durante el año pasado allí se desarrollaron los acontecimientos.

¿Cómo se estructurará el proceso de aprendizaje en la maestría?

La educación en HSE se organiza en módulos separados, al igual que en las universidades occidentales. Los estudiantes se dividirán en pequeños equipos, mini-startups, es decir, deberíamos tener varios proyectos terminados. Queremos obtener productos reales, que luego abriremos a la gente y dejaremos en el dominio público.

Además de los jefes de proyecto inmediatos de los estudiantes, queremos encontrarles curadores entre sus posibles empleadores, del mismo Yandex, por ejemplo, que también jugarán este juego y darán algunos consejos a los estudiantes.

Espero que al programa de maestría vengan personas de diversos campos: programadores, lingüistas, sociólogos, especialistas en marketing. Tendremos varios cursos de adaptación en lingüística, matemáticas y programación. Luego tendremos dos cursos serios de lingüística, y estarán relacionados con las teorías lingüísticas más actuales; queremos que nuestros graduados sean capaces de leer y comprender artículos lingüísticos modernos; Lo mismo ocurre con las matemáticas. Tendremos un curso llamado “Fundamentos matemáticos de la lingüística computacional”, que describirá aquellas ramas de las matemáticas en las que se basa la lingüística computacional moderna.

Para inscribirse en un programa de maestría, debe aprobar un examen de ingreso en idioma y aprobar un concurso de portafolios.

Además de los cursos principales, habrá una serie de materias optativas. Hemos planificado varios ciclos; dos de ellos se centran en un estudio más profundo de temas individuales, que incluyen, por ejemplo, la traducción automática y la lingüística de corpus. y uno, por el contrario, está relacionado con áreas afines: como , medios de comunicación social, aprendizaje automático o Humanidades Digitales, un curso que esperamos se imparta en inglés.

Ligüística computacional(También: matemático o Ligüística computacional, Inglés Ligüística computacional) - una dirección científica en el campo del modelado matemático e informático de procesos intelectuales en humanos y animales al crear sistemas de inteligencia artificial, cuyo objetivo es utilizar modelos matemáticos para describir lenguajes naturales.

La lingüística computacional se superpone con el procesamiento del lenguaje natural. Sin embargo, en este último el énfasis no está en los modelos abstractos, sino en los métodos aplicados de descripción y procesamiento del lenguaje para sistemas informáticos.

El campo de actividad de los lingüistas informáticos es el desarrollo de algoritmos y programas de aplicación para el procesamiento de información lingüística.

Orígenes

La lingüística matemática es una rama de la ciencia de la inteligencia artificial. Su historia comenzó en los Estados Unidos de América en la década de 1950. Con la invención del transistor y la llegada de una nueva generación de ordenadores, así como de los primeros lenguajes de programación, comenzaron los experimentos con la traducción automática, especialmente de las revistas científicas rusas. En la década de 1960, se llevaron a cabo estudios similares en la URSS (por ejemplo, un artículo sobre la traducción del ruso al armenio en la colección "Problemas de la cibernética" de 1964). Sin embargo, la calidad de la traducción automática sigue siendo muy inferior a la calidad de la traducción humana.

Del 15 al 21 de mayo de 1958 se celebró en el I Instituto Pedagógico Estatal de Lenguas Extranjeras de Moscú la primera Conferencia de toda la Unión sobre traducción automática. El Comité Organizador estuvo encabezado por V. Yu Rosenzweig y el secretario ejecutivo del Comité Organizador G. V. Chernov. El programa completo de la conferencia se publica en la colección “Machine Translation and Applied Linguistics”, vol. 1, 1959 (también conocido como “Boletín nº 8 de la Asociación de Traducción Automática”). Como recuerda V. Yu. Rosenzweig, la colección publicada de resúmenes de conferencias llegó a Estados Unidos y causó una gran impresión allí.

En abril de 1959, tuvo lugar en Leningrado la Primera Reunión de toda la Unión sobre Lingüística Matemática, convocada por la Universidad de Leningrado y el Comité de Lingüística Aplicada. El principal organizador de la reunión fue N.D. Andreev. En la reunión participaron varios matemáticos destacados, en particular, S. L. Sobolev, L. V. Kantorovich (más tarde - Premio Nobel) y A. A. Markov (los dos últimos intervinieron en el debate). V. Yu. Rosenzweig pronunció el discurso de apertura el día de la inauguración del Encuentro: “Teoría lingüística general de la traducción y lingüística matemática”.

Áreas de la Lingüística Computacional

Procesamiento natural del lenguaje procesamiento natural del lenguaje; análisis de texto sintáctico, morfológico y semántico). Esto también incluye:

Lingüística de corpus, la creación y uso de corpus electrónicos de textos.
Creación de diccionarios electrónicos, tesauros, ontologías. Por ejemplo, Lingvo. Los diccionarios se utilizan, por ejemplo, para la traducción automática y la revisión ortográfica.
Traducción automática de textos. Promt es popular entre los traductores de ruso. Entre los gratuitos se encuentra Google Translate.
Extracción automática de hechos del texto (extracción de información) extracción de hechos, minería de textos)
Autorreferenciación resumen automático de texto). Esta característica está incluida, por ejemplo, en Microsoft Word.
Construir sistemas de gestión del conocimiento. Ver Sistemas Expertos
Creación de sistemas de preguntas y respuestas. sistemas de respuesta a preguntas).

Reconocimiento óptico de caracteres LOC). Por ejemplo, el programa FineReader
Reconocimiento automático de voz ASR). Hay software de pago y gratuito.
Síntesis automática de voz

Principales asociaciones y congresos

Programas de estudio en Rusia

ver también

Escribe una reseña sobre el artículo "Lingüística Computacional"

Notas

Enlaces

(abstracto)
- base de conocimientos de recursos lingüísticos para el idioma ruso
- códigos fuente abiertos de algunas utilidades de lingüística computacional
- acceso en línea a programas de lingüística computacional

Un extracto que caracteriza la lingüística computacional.

“Toma, toma a la niña”, dijo Pierre, entregándole a la niña y dirigiéndose a la mujer de manera imperiosa y apresurada. - ¡Dáselo, dáselo! - le gritó casi a la mujer, tirando a la niña que gritaba al suelo, y volvió a mirar a las familias francesa y armenia. El anciano ya estaba sentado descalzo. El pequeño francés se quitó la última bota y las golpeó una contra otra. El anciano, sollozando, dijo algo, pero Pierre sólo lo vislumbró; toda su atención se centró en el francés de la capucha, quien en ese momento, balanceándose lentamente, se acercó a la joven y, sacando las manos de los bolsillos, la agarró del cuello.
La bella mujer armenia seguía sentada en la misma posición inmóvil, con sus largas pestañas bajadas, y como si no viera ni sintiera lo que el soldado le estaba haciendo.
Mientras Pierre recorría los pocos pasos que lo separaban de los franceses, un largo merodeador encapuchado ya arrancaba el collar que llevaba del cuello de la mujer armenia, y la joven, agarrándose el cuello con las manos, gritaba con voz estridente. .
- ¡Deja a esta mujer! [¡Deja a esta mujer!] Pierre jadeó con voz frenética, agarrando al largo y encorvado soldado por los hombros y arrojándolo. El soldado cayó, se levantó y salió corriendo. Pero su compañero, arrojando sus botas, sacó un cuchillo y avanzó amenazadoramente hacia Pierre.
- Voyons, pas de betises! [¡Oh bien! ¡No seas estúpido!] – gritó.
Pierre estaba en ese arrebato de rabia en el que no recordaba nada y en el que sus fuerzas se multiplicaban por diez. Se abalanzó sobre el francés descalzo y, antes de que pudiera sacar su hacha, ya lo había derribado y lo golpeaba con los puños. Se escuchó un grito de aprobación de la multitud circundante y, al mismo tiempo, una patrulla montada de lanceros franceses apareció por la esquina. Los lanceros corrieron hacia Pierre y el francés y los rodearon. Pierre no recordaba nada de lo que pasó después. Recordó que había golpeado a alguien, que lo habían golpeado, y que al final sintió que tenía las manos atadas, que una multitud de soldados franceses lo rodeaban y registraban su vestido.
“Il a un poignard, teniente, [Teniente, tiene un puñal”,] fueron las primeras palabras que Pierre entendió.
- ¡Ah, un brazo! [¡Ah, armas!] - dijo el oficial y se volvió hacia el soldado descalzo que estaba con Pierre.
“C"est bon, vous direz tout cela au conseil de guerre, [Está bien, está bien, lo contarás todo en el juicio”, dijo el oficial y luego se volvió hacia Pierre: “Parlez vous francais vous?” ¿Habla usted francés? ]
Pierre miró a su alrededor con los ojos inyectados en sangre y no respondió. Su cara probablemente parecía muy aterradora, porque el oficial dijo algo en un susurro, y cuatro lanceros más se separaron del equipo y se pararon a ambos lados de Pierre.
– ¿Parlez vous francais? – el oficial le repitió la pregunta, manteniéndose alejado de él. - Faites venir l "interprete. [Llame a un intérprete.] - Detrás de las filas salió hombrecito vestido de civil ruso. Pierre, por su vestimenta y su forma de hablar, lo reconoció inmediatamente como un francés de una de las tiendas de Moscú.
“Il n"a pas l"air d"un homme du peuple, [No parece un plebeyo", dijo el traductor, mirando a Pierre.
– ¡Ay, ay! ca m"a bien l"air d"un des incendiaires", dijo el oficial, "Demandez lui ce qu"il est? [¡Oh, oh! se parece mucho a un pirómano. Pregúntenle ¿quién es?], agregó.
- ¿Quién eres? – preguntó el traductor. "Las autoridades deben responder", dijo.
– Je ne vous dirai pas qui je suis. Je suis votre prisioneronier. Emmenez moi, [No te diré quién soy. Soy tu prisionero. Llévame lejos”, dijo Pierre de repente en francés.
- ¡Ah ah! – dijo el oficial, frunciendo el ceño. - ¡Marchones!
Una multitud se reunió alrededor de los lanceros. Más cerca de Pierre estaba una mujer picada de viruela con una niña; Cuando el desvío comenzó a moverse, ella avanzó.
-¿A dónde te llevan, cariño? - ella dijo. - ¡Esta chica, qué voy a hacer con esta chica, si no es de ellos! - dijo la mujer.
- Qu"est ce qu"elle veut cette femme? [¿Qué quiere?] - preguntó el oficial.
Pierre parecía estar borracho. Su estado de éxtasis se intensificó aún más al ver a la chica que había salvado.
“Ce qu'elle dit?”, dijo. “Elle m”apporte ma fille que je viens de sauver des flammes”, dijo. - ¡Adiós! [¿Qué quiere ella? Lleva en brazos a mi hija, a quien salvé del incendio. ¡Adiós!] - y él, sin saber cómo se le escapó esta mentira sin sentido, caminó con paso decidido y solemne entre los franceses.
La patrulla francesa fue una de las que fueron enviadas por orden de Duronel a varias calles de Moscú para reprimir los saqueos y especialmente para capturar a los pirómanos, que, según la opinión generalizada que surgió ese día entre los franceses de más alto rango, eran los causa de los incendios. Después de recorrer varias calles, la patrulla detuvo a cinco rusos sospechosos más, un comerciante, dos seminaristas, un campesino, un sirviente y varios saqueadores. Pero de todas las personas sospechosas, Pierre parecía el más sospechoso de todos. Cuando todos fueron llevados a pasar la noche en casa Grande En Zubovsky Val, en el que se instaló una caseta de vigilancia, Pierre fue puesto por separado bajo estricta vigilancia.

En San Petersburgo en ese momento, en los círculos más altos, con mayor fervor que nunca, se desarrollaba una lucha compleja entre los partidos de Rumyantsev, los franceses, María Feodorovna, el zarevich y otros, ahogada, como siempre, por los trompetas. de los drones de la corte. Pero tranquila, lujosa, preocupada sólo por los fantasmas, los reflejos de la vida, la vida de San Petersburgo seguía como antes; y por el curso de esta vida, fue necesario hacer grandes esfuerzos para reconocer el peligro y la difícil situación en que se encontraba el pueblo ruso. Había las mismas salidas, los mismos bailes, el mismo teatro francés, los mismos intereses de la corte, los mismos intereses de servicio y de intriga. Sólo en los círculos más elevados se hicieron esfuerzos por recordar la dificultad de la situación actual. Se contaba en susurros cómo las dos emperatrices actuaron una frente a la otra en circunstancias tan difíciles. La emperatriz María Feodorovna, preocupada por el bienestar de las instituciones caritativas y educativas bajo su jurisdicción, ordenó enviar todas las instituciones a Kazán, y las cosas de estas instituciones ya estaban empaquetadas. La emperatriz Elizaveta Alekseevna, cuando se le preguntó qué órdenes quería dar, con su característico patriotismo ruso, se dignó responder que no podía dar órdenes sobre las instituciones estatales, ya que se trataba del soberano; Sobre lo mismo que personalmente depende de ella, se dignó decir que será la última en salir de San Petersburgo.

Materiales populares

Formas de protegerse de la influencia de un vampiro energético.
Akathist al Hieromártir Cipriano y Justina Akathist a la ortodoxia de Cipriano y Justina
Sopa dietética de calabacín Sopa dietética de calabacín
El significado del nombre, el secreto del nombre.
Albóndigas con repollo: recetas