hogar/ Soluciones de color

La lingüística computacional como disciplina lingüística aplicada. Ligüística computacional

TRABAJO DEL CURSO

en la disciplina "Informática"

sobre el tema: “Lingüística computacional”

INTRODUCCIÓN

2. Interfaces modernas para la lingüística computacional

CONCLUSIÓN

LITERATURA

Introducción

Las tecnologías de la información automatizadas juegan un papel importante en la vida de la sociedad moderna. Con el tiempo, su importancia aumenta continuamente. Pero el desarrollo tecnologías de la información Esto sucede de manera muy desigual: si el nivel moderno de la tecnología informática y las comunicaciones es sorprendente, en el campo del procesamiento de información semántica los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre personas y la capacidad de simular estos procesos en una computadora.

Cuando se trata de crear tecnologías de la información prometedoras, pasan a primer plano los problemas del procesamiento automático de información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Además, el lenguaje natural es una herramienta para pensar. También es un medio universal de comunicación entre personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística informática se ocupa de los problemas del uso del lenguaje natural en sistemas automáticos de procesamiento de información. Esta ciencia surgió hace relativamente poco tiempo, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido importantes resultados científicos y prácticos en el campo de la lingüística informática: se han obtenido sistemas de traducción automática de textos de un lenguaje natural a otro, sistemas de recuperación automatizada de información en textos, sistemas de análisis y síntesis automáticos. sido creado discurso oral y muchos otros. este trabajo se dedica a la construcción de una interfaz informática óptima utilizando la lingüística informática al realizar investigaciones lingüísticas.

1. El lugar y el papel de la lingüística computacional en la investigación lingüística

En el mundo moderno, la lingüística computacional se utiliza cada vez más para realizar diversos estudios lingüísticos.

La lingüística computacional es un campo del conocimiento asociado a la resolución de problemas de procesamiento automático de información presentada en lenguaje natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de comprensión del significado de los textos (transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (transición de una representación formalizada del significado a textos en formato natural). idioma). Estos problemas surgen al resolver una serie de problemas aplicados y, en particular, problemas de detección y corrección automática de errores al ingresar textos en una computadora, análisis y síntesis automáticos del habla oral, traducción automática de textos de un idioma a otro, comunicación con una computadora en lenguaje natural, clasificación e indexación automática de documentos de texto, su resumen automático, búsqueda de documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística computacional se pueden dividir en dos partes: declarativas y procedimentales. La parte declarativa incluye diccionarios de unidades de lengua y habla, textos y diversos tipos de tablas gramaticales, la parte procesal incluye medios para manipular unidades de lengua y habla, textos y tablas gramaticales. La interfaz de computadora se refiere a la parte procesal de la lingüística computacional.

El éxito en la resolución de problemas aplicados de la lingüística informática depende, en primer lugar, de la integridad y precisión de la representación de los medios declarativos en la memoria de la computadora y de la calidad de los medios procedimentales. Hasta la fecha, aún no se ha alcanzado el nivel requerido para resolver estos problemas, aunque se está trabajando en el campo de la lingüística computacional en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc. ).

Sin embargo, se pueden observar importantes logros científicos y prácticos en el campo de la lingüística computacional. Así, en varios países (Rusia, EE. UU., Japón, etc.) se han construido sistemas experimentales e industriales para la traducción automática de textos de un idioma a otro, se han construido una serie de sistemas experimentales para comunicarse con computadoras en lenguaje natural. , se está trabajando en la creación de bancos de datos terminológicos, tesauros, diccionarios automáticos bilingües y multilingües (Rusia, Estados Unidos, Alemania, Francia, etc.), se están construyendo sistemas de análisis y síntesis automática del habla oral (Rusia, Estados Unidos, Japón, etc.). .), se están realizando investigaciones en el campo de la construcción de modelos de lenguaje natural.

Un problema metodológico importante de la lingüística computacional aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y procesales de los sistemas automáticos de procesamiento de información textual. ¿Qué debería preferirse: procedimientos computacionales potentes basados en sistemas de vocabulario relativamente pequeños con rica información gramatical y semántica, o un componente declarativo potente con interfaces informáticas relativamente simples? La mayoría de los científicos creen que es preferible la segunda forma. Conducirá al logro de objetivos prácticos más rápidamente, ya que habrá menos callejones sin salida y obstáculos difíciles de superar, y aquí será posible utilizar computadoras a mayor escala para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, en primer lugar, para el desarrollo del componente declarativo de los sistemas automáticos de procesamiento de información textual está confirmada por medio siglo de experiencia en el desarrollo de la lingüística informática. Después de todo, aquí, a pesar de los innegables éxitos de esta ciencia, la pasión por los procedimientos algorítmicos no ha dado el éxito esperado. Incluso hubo cierta decepción respecto de la capacidad de los medios procesales.

A la luz de lo anterior, parece prometedor desarrollar un camino de desarrollo de la lingüística informática, en el que los principales esfuerzos estarán dirigidos a crear poderosos diccionarios de lenguas y unidades de habla, estudiar su estructura semántico-sintáctica y crear procedimientos básicos para la comprensión morfológica, Análisis y síntesis semántico-sintáctico y conceptual de textos. Esto nos permitirá resolver una amplia gama de problemas aplicados en el futuro.

La lingüística informática se enfrenta, en primer lugar, a las tareas de apoyo lingüístico a los procesos de recopilación, acumulación, procesamiento y recuperación de información. Los más importantes de ellos son:

1. Automatización de la compilación y procesamiento lingüístico de diccionarios automáticos;

2. Automatización de los procesos de detección y corrección de errores al ingresar textos en una computadora;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación y resumen automático de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. Construcción de procesadores lingüísticos que aseguren la comunicación del usuario con sistemas de información inteligentes automatizados (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural;

8. Extraer información fáctica de textos informales.

Detengámonos en detalle en los problemas más relevantes para el tema de investigación.

EN actividades practicas centros de información existe la necesidad de resolver el problema de la detección y corrección automatizada de errores en los textos cuando se ingresan en una computadora. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de control ortográfico, sintáctico y semántico de los textos. El primero de ellos puede resolverse mediante un procedimiento de análisis morfológico que utiliza un diccionario automático de referencia de raíces de palabras bastante potente. En el proceso de control ortográfico, las palabras del texto están sujetas a análisis morfológico, y si sus bases se identifican con las bases del diccionario de referencia, entonces se consideran correctas; si no se identifican, acompañados de un microcontexto, se presentan a una persona para que los vea. Una persona detecta y corrige palabras distorsionadas y el sistema de software correspondiente realiza estas correcciones en el texto corregido.

La tarea de control sintáctico de los textos para detectar errores en ellos es mucho más difícil que la tarea de control ortográfico. En primer lugar, porque incluye en su composición la tarea de control ortográfico como componente obligatorio y, en segundo lugar, porque el problema del análisis sintáctico de los textos informales aún no está del todo resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede hacerlo de dos maneras: compilar diccionarios automáticos bastante representativos de estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; o desarrollar sistema complejo reglas para comprobar la coherencia gramatical de los elementos del texto. La primera vía nos parece más prometedora, aunque, por supuesto, no excluye la posibilidad de utilizar elementos de la segunda vía. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical de las palabras).

La tarea de control semántico de textos para detectar errores semánticos en ellos debe clasificarse como una clase de tareas de inteligencia artificial. Sólo puede resolverse por completo modelando los procesos del pensamiento humano. En este caso, aparentemente será necesario crear poderosas bases de conocimiento enciclopédico y herramientas de software para la manipulación del conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es completamente solucionable. Debe plantearse y solucionarse como un problema de control semántico-sintáctico de los textos.

El problema de automatizar la indexación de documentos y consultas es tradicional para los sistemas automatizados de recuperación de información textual. En un principio, la indexación se entendía como el proceso de asignar índices de clasificación a documentos y consultas que reflejaran su contenido temático. Posteriormente, este concepto se transformó y el término "indexación" comenzó a referirse al proceso de traducir descripciones de documentos y consultas del lenguaje natural al lenguaje formalizado, en particular, al lenguaje de las "imágenes de búsqueda". Las imágenes de búsqueda de documentos comenzaron, por regla general, a formarse en forma de listas de palabras clave y frases que reflejaban su contenido temático, y las imágenes de búsqueda de consultas, en forma de estructuras lógicas en las que las palabras clave y frases estaban conectadas entre sí. por operadores lógicos y sintácticos.

Es conveniente indexar automáticamente los documentos basándose en los textos de sus resúmenes (si los hay), ya que los resúmenes reflejan el contenido principal de los documentos de forma concentrada. La indexación se puede realizar con o sin control de tesauro. En el primer caso, en el texto del título del documento y su resumen se buscan palabras y frases clave del diccionario automático de referencia y solo se incluyen en el AML aquellas que se encuentran en el diccionario. En el segundo caso, las palabras y frases clave se aíslan del texto y se incluyen en el POD, independientemente de su pertenencia a algún diccionario de referencia. También se implementó una tercera opción, donde, junto con los términos del tesauro de la máquina, el AML también incluía términos extraídos del título y la primera oración del resumen del documento. Los experimentos han demostrado que los POD compilados automáticamente utilizando títulos y resúmenes de documentos proporcionan una búsqueda más completa que los POD compilados manualmente. Esto se explica por el hecho de que el sistema de indexación automática refleja más completamente varios aspectos del contenido de los documentos que el sistema de indexación manual.

La indexación automática de consultas plantea aproximadamente los mismos problemas que la indexación automática de documentos. Aquí también hay que extraer palabras clave y frases del texto y normalizar las palabras incluidas en el texto de la consulta. Las conexiones lógicas entre palabras y frases clave y los operadores contextuales se pueden ingresar manualmente o mediante un procedimiento automatizado. Un elemento importante El proceso de indexación automática de una consulta es la adición de las palabras clave y frases que la componen con sus sinónimos e hipónimos (a veces también hiperónimos y otros términos asociados con los términos de la consulta original). Esto se puede hacer de forma automática o interactiva utilizando un diccionario de sinónimos automático.

Ya hemos considerado parcialmente el problema de la automatización de la búsqueda de información documental en relación con la tarea de indexación automática. Lo más prometedor aquí es buscar documentos utilizando sus textos completos, ya que el uso de todo tipo de sustitutos para este fin (descripciones bibliográficas, imágenes de búsqueda de documentos y los textos de sus resúmenes) conlleva la pérdida de información durante la búsqueda. Las mayores pérdidas se producen cuando se utilizan descripciones bibliográficas como sustitutos de los documentos primarios, y las pérdidas más pequeñas se producen cuando se utilizan resúmenes.

Las características importantes de la calidad de la recuperación de información son su integridad y precisión. La integridad de la búsqueda se puede garantizar teniendo en cuenta al máximo las conexiones paradigmáticas entre las unidades del lenguaje y el habla (palabras y frases), y la precisión, teniendo en cuenta sus conexiones sintagmáticas. Existe la opinión de que la integridad y la precisión de una búsqueda están inversamente relacionadas: las medidas para mejorar una de estas características conducen a un deterioro de la otra. Pero esto sólo es cierto para la lógica de búsqueda fija. Si se mejora esta lógica, entonces se podrán mejorar ambas características simultáneamente.

Es recomendable construir el proceso de búsqueda de información en bases de datos de texto completo como un proceso de comunicación interactiva entre el usuario y el sistema de recuperación de información (IRS), en el que visualiza secuencialmente fragmentos de texto (párrafos) que satisfacen las condiciones lógicas de la solicitud, y selecciona aquellas que sean relevantes para él. Como resultado final de la búsqueda se pueden devolver tanto los textos completos de los documentos como sus fragmentos.

Como se desprende de las discusiones anteriores, a la hora de buscar información automáticamente es necesario superar la barrera del idioma que surge entre el usuario y el sistema de información debido a la variedad de formas de representación de un mismo significado que se presenta en los textos. Esta barrera se vuelve aún más importante si la búsqueda debe realizarse en bases de datos multilingües. Una solución radical al problema podría ser la traducción automática de textos de documentos de un idioma a otro. Esto se puede hacer con antelación, antes de cargar documentos en un motor de búsqueda, o durante el proceso de búsqueda de información. En el último caso, la solicitud del usuario debe traducirse al idioma del conjunto de documentos en el que se realiza la búsqueda, y los resultados de la búsqueda deben traducirse al idioma de la solicitud. Este tipo de motores de búsqueda ya funcionan en Internet. VINITI RAS también creó un sistema de navegador cirílico, que permite buscar información en textos en ruso mediante consultas en inglés con resultados de búsqueda también en el idioma del usuario.

Una tarea importante y prometedora de la lingüística informática es la construcción de procesadores lingüísticos que garanticen la comunicación del usuario con sistemas de información automatizados inteligentes (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural. Dado que en los sistemas inteligentes modernos la información se almacena en forma formalizada, los procesadores lingüísticos, actuando como intermediarios entre una persona y una computadora, deben resolver las siguientes tareas principales: 1) la tarea de pasar de los textos de las solicitudes de información de entrada a los mensajes en formato natural lenguaje para representar su significado en un lenguaje formalizado (al ingresar información en una computadora); 2) la tarea de pasar de una representación formalizada del significado de los mensajes de salida a su representación en lenguaje natural (al transmitir información a una persona). La primera tarea debe resolverse mediante un análisis morfológico, sintáctico y conceptual de las consultas y mensajes de entrada, la segunda, mediante una síntesis conceptual, sintáctica y morfológica de los mensajes de salida.

El análisis conceptual de solicitudes y mensajes de información consiste en identificar su estructura conceptual (los límites de los nombres de los conceptos y las relaciones entre conceptos en el texto) y traducir esta estructura a un lenguaje formalizado. Se realiza tras un análisis morfológico y sintáctico de solicitudes y mensajes. La síntesis conceptual de mensajes consiste en la transición de la representación de los elementos de su estructura en un lenguaje formalizado a una representación verbal (verbal). Posteriormente, a los mensajes se les da el formato sintáctico y morfológico necesario.

Para la traducción automática de textos de un lenguaje natural a otro, es necesario disponer de diccionarios de correspondencia de traducción entre los nombres de los conceptos. El conocimiento sobre dichas correspondencias de traducción fue acumulado por muchas generaciones de personas y se recopiló en forma de publicaciones especiales: diccionarios bilingües o multilingües. Para los especialistas con algún conocimiento de lenguas extranjeras, estos diccionarios sirvieron de valiosa ayuda para la traducción de textos.

En los diccionarios tradicionales bilingües y multilingües de uso general, los equivalentes de traducción se indicaban principalmente para palabras individuales y, con mucha menos frecuencia, para frases. La indicación de equivalentes de traducción de frases era más típica de los diccionarios terminológicos especiales. Por lo tanto, al traducir secciones de textos que contienen palabras polisemánticas, los estudiantes a menudo encontraban dificultades.

A continuación se muestran correspondencias de traducción entre varios pares de frases en inglés y ruso sobre temas “escolares”.

1) El murciélago parece un ratón con alas – El murciélago parece un ratón con alas.

2) A los niños les gusta jugar en la arena de la playa - A los niños les encanta jugar en la arena de la orilla del mar.

3) Una gota de lluvia cayó sobre mi mano - Una gota de lluvia cayó sobre mi mano.

4) La madera seca arde fácilmente; la madera seca arde bien.

5) Fingió no oírme - Fingió no oírme.

Aquí las frases en inglés no son expresiones idiomáticas. Sin embargo, su traducción al ruso sólo puede considerarse, con cierta extensión, como una simple traducción palabra por palabra, ya que casi todas las palabras incluidas en ellas son ambiguas. Por lo tanto, aquí sólo los logros de la lingüística informática pueden ayudar a los estudiantes.

Desde 2012, el Instituto de Lingüística de la Universidad Estatal de Humanidades de Rusia forma maestros en el programa de maestría. Ligüística computacional(dirección Lingüística fundamental y aplicada). Este programa está diseñado para preparar profesionales. lingüistas que dominan tanto los conceptos básicos de la lingüística como los métodos modernos de investigación, análisis experto y trabajo de ingeniería y son capaces de participar eficazmente en el desarrollo de tecnologías informáticas lingüísticas innovadoras.

En el proceso educativo participan los desarrolladores de grandes sistemas de investigación y comerciales en el campo del procesamiento automático de textos, lo que garantiza la conexión de la formación de maestría con la corriente principal de la lingüística informática moderna. Se presta especial atención a la participación de los maestros en conferencias rusas e internacionales.

Entre los profesores se encuentran autores de libros de texto básicos sobre especialidades lingüísticas, especialistas de talla mundial, directores de proyectos de grandes sistemas automáticos de procesamiento del lenguaje: Ya.G. Testelets, I.M. Boguslavsky, V.I. Belikov, V.I. Podlesskaya, V.P. Selegey, L.L. Iomdin, A.S. Starostin, S.A. Sharov, así como empleados de empresas líderes mundiales en el campo de la lingüística computacional: IBM (sistema Watson), Yandex, ABBYY (sistemas Lingvo, FineReader, Compreno).

La base para la formación de maestros en este programa es el enfoque de proyectos. La participación de los estudiantes de maestría en trabajos de investigación en el campo de la lingüística computacional se lleva a cabo sobre la base de la Universidad Estatal Rusa de Humanidades y sobre la base de empresas que desarrollan programas en el campo de AOT (ABBYY, IBM, etc.), que Por supuesto, es una gran ventaja tanto para los propios maestros como para sus posibles empleadores. En particular, en el programa de maestría se admiten maestros específicos, cuya formación es proporcionada por futuros empleadores.

Pruebas de ingreso: "Modelos y métodos formales de la lingüística moderna". Se puede obtener información precisa sobre el momento del examen en el sitio web del Departamento de Maestría de la Universidad Estatal de Humanidades de Rusia.

Jefes de magistratura - jefe. Centro Educativo y Científico de Lingüística Computacional, Director de Investigación Lingüística de ABBYY Vladimir Pavlovich Selegey y Doctor en Filología, Profesor Vera Isaakovna Podleskaya .

Programa del examen de ingreso y entrevista para la disciplina “Modelos y métodos formales de la lingüística moderna”.

Comentarios sobre el programa.

Cualquier pregunta del programa puede ir acompañada de tareas relacionadas con descripciones de fenómenos lingüísticos específicos relacionados con la sección de la pregunta: construcción de estructuras, descripción de restricciones, posibles algoritmos de construcción y/o identificación.
Las preguntas marcadas con asteriscos son opcionales (aparecen como número 3 en los boletos). El conocimiento del material relevante es una ventaja importante para los candidatos, pero no es obligatorio.
Además de las preguntas teóricas, los boletos de examen ofrecerán un pequeño fragmento de un texto especial (lingüístico) en inglés para traducción y discusión. Los solicitantes deben demostrar un nivel satisfactorio de competencia en terminología científica en inglés y habilidades de análisis de textos científicos. Como ejemplo de un texto que no debería causar serias dificultades al solicitante, a continuación se muestra un fragmento del artículo https://en.wikipedia.org/wiki/Anaphora_(linguistics):

En lingüística, anáfora (/əˈnæfərə/) es el uso de una expresión cuya interpretación depende de otra expresión en contexto (su antecedente o poscedente). En un sentido más estricto, anáfora es el uso de una expresión que depende específicamente de una expresión antecedente y, por tanto, se contrasta con la catáfora, que es el uso de una expresión que depende de una expresión poscedente. El término anafórico (de referencia) se llama anáfora. Por ejemplo, en la oración Sally llegó, pero nadie la vio, el pronombre ella es una anáfora y se refiere al antecedente Sally. En la oración Antes de su llegada, nadie vio a Sally, el pronombre ella se refiere a la Sally poscedente, por lo que ella es ahora una catáfora (y una anáfora en el sentido más amplio, pero no en el más estricto). Por lo general, una expresión anafórica es una proforma o algún otro tipo de expresión deíctica (dependiente del contexto). Tanto la anáfora como la catáfora son especies de endófora y se refieren a algo mencionado en otra parte de un diálogo o texto.

La anáfora es un concepto importante por diferentes razones y en diferentes niveles: primero, la anáfora indica cómo se construye y mantiene el discurso; en segundo lugar, la anáfora une diferentes elementos sintácticos al nivel de la oración; tercero, la anáfora presenta un desafío para el procesamiento del lenguaje natural en lingüística computacional, ya que la identificación de la referencia puede resultar difícil; y cuarto, la anáfora dice algunas cosas sobre cómo se entiende y procesa el lenguaje, lo cual es relevante para los campos de la lingüística interesados en la psicología cognitiva.

CUESTIONES TEÓRICAS

CUESTIONES GENERALES DE LINGÜÍSTICA

Objeto de la lingüística. Lenguaje y habla. Sincronía y diacronía.
Niveles de lenguaje. Modelos formales de niveles lingüísticos.
Sintagmática y paradigmática. El concepto de distribución.
Fundamentos de las comparaciones interlingüísticas: lingüística tipológica, genealógica y areal.
*Lingüística matemática: objeto y métodos de investigación.

FONÉTICA

Materia de fonética. Fonética articulatoria y acústica.
Fonética segmentaria y suprasegmental. Prosodia y entonación.
Conceptos básicos de fonología. Tipología de sistemas fonológicos y sus implementaciones fonéticas.
*Herramientas informáticas y métodos de investigación fonética.
*Análisis y síntesis del discurso.

MORFOLOGÍA

Tema de morfología. Morfos, morfemas, alomorfos.
Inflexión y formación de palabras.
Significados gramaticales y formas de su implementación. Categorías gramaticales y gramamas. Significados gramaticales morfológicos y sintácticos.
Los conceptos de forma de palabra, raíz, lema y paradigma.
Partes de la oración; Enfoques básicos para identificar partes del discurso.
*Modelos formales para describir la inflexión y formación de palabras.
*Morfología en tareas de procesamiento automático del lenguaje: revisión ortográfica, lematización, POS-tagging

SINTAXIS

Tema de sintaxis. Modos de expresar relaciones sintácticas.
Formas de representar la estructura sintáctica de una oración. Ventajas y desventajas de los árboles y componentes de dependencia.
Formas de describir el orden lineal. Falta de proyectividad y rotura de componentes. El concepto de transformación; transformaciones asociadas con el orden lineal.
La relación entre sintaxis y semántica: valencias, modelos de control, actantes y circonstantes.
Diátesis y colaterales. Derivación del actante.
Organización comunicativa del enunciado. Tema y rema, dado y nuevo, contraste.
*Principales teorías sintácticas: MST, generativismo, gramática funcional, HPSG
*Modelos matemáticos de sintaxis: clasificación de lenguajes formales según Chomsky, algoritmos de reconocimiento y su complejidad.

SEMÁNTICA

Tema de semántica. Imágenes lingüísticas ingenuas y científicas del mundo. Hipótesis de Sapir-Whorf.
El significado en el lenguaje y el habla: significado y referente. Tipo de referencia (estado denotativo).
Semántica léxica. Formas de describir la semántica de una palabra.
Semántica gramatical. Categorías principales utilizando el ejemplo del idioma ruso.
Semántica de la oración. Componente proposicional. Deixis y anáfora. Cuantificadores y conectivos. Modalidad.
Jerarquía y sistematicidad de significados léxicos. Polisemia y homonimia. Estructura semántica de una palabra polisemántica. Los conceptos de invariante y prototipo.
Relaciones paradigmáticas y sintagmáticas en el vocabulario. Funciones léxicas.
Interpretación. Lengua de interpretación. Escuela Semántica de Moscú
Semántica y lógica. El valor de verdad del enunciado.
Teoría de los actos de habla. El enunciado y su fuerza ilocutiva. Performativos. Clasificación de actos de habla.
Fraseología: inventario y métodos de descripción de unidades fraseológicas.
*Modelos y métodos de semántica formal.
*Modelos de semántica en la lingüística computacional moderna.
*Semántica distributiva y operativa.
*Ideas básicas de gramática de la construcción.

TIPOLOGÍA

Clasificaciones tipológicas tradicionales de las lenguas.
Tipología de categorías gramaticales de sustantivo y verbo.
Tipología de una oración simple. Los principales tipos de construcciones: acusativo, ergativo, activo.
Tipología del orden de las palabras y correlaciones de Greenberg. Lenguajes de ramificación izquierda y derecha.

LEXICOGRAFÍA

El vocabulario como inventario de la cultura; variación social del vocabulario, uso léxico, norma, codificación.
Tipología de diccionarios (sobre material ruso). Reflexión de vocabulario en diccionarios de diversos tipos.
Lexicografía bilingüe utilizando la lengua rusa.
Lexicografía descriptiva y prescriptiva. Diccionarios lingüísticos profesionales.
Detalles de los principales diccionarios explicativos rusos. Estructura de una entrada de diccionario. Interpretación e información enciclopédica.
Vocabulario y gramática. La idea de un modelo integral de lenguaje en la Escuela Semántica de Moscú.
*Metodología de un lexicógrafo.
*Métodos de corpus en lexicografía.

LINGÜÍSTICA DEL TEXTO Y DEL DISCURSO

El concepto de texto y discurso.
Mecanismos de comunicación entre frases. Los principales tipos de medios de su implementación lingüística.
La oración como unidad del lenguaje y como elemento del texto.
Unidades superfrasales, principios de su formación y aislamiento, propiedades básicas.
Principales categorías de clasificación de textos (género, estilo, registro, área temática, etc.)
*Métodos de clasificación automática de géneros.

SOCIOLINGÜÍSTICA

El problema de la asignatura y los límites de la sociolingüística, su carácter interdisciplinar. Conceptos básicos de sociología y demografía. Niveles de estructura lingüística y sociolingüística. Conceptos básicos y direcciones de la sociolingüística.
Contactos lingüísticos. Bilingüismo y diglosia. Procesos divergentes y convergentes en la historia del lenguaje.
Diferenciación social del lenguaje. Formas de existencia del lenguaje. Lenguaje literario: uso-norma-codificación. Áreas funcionales del lenguaje.
Socialización del lenguaje. La naturaleza jerárquica de la identidad social y lingüística. El comportamiento lingüístico de un individuo y su repertorio comunicativo.
Métodos de investigación sociolingüística.

LINGÜÍSTICA INFORMÁTICA

Tareas y métodos de la lingüística computacional.
Lenguaje del cuerpo. Principales características del caso.
Representación del conocimiento. Ideas básicas de la teoría de marcos de M. Minsky. Sistema Framenet.
Tesauros y ontologías. WordNet.
Lo esencial análisis estadístico textos. Diccionarios de frecuencias. Análisis de colocación.
*El concepto de aprendizaje automático.

LITERATURA

Educativo (nivel básico)

Baranov A.N. Introducción a la Lingüística Aplicada. M.: Editorial URRS, 2001.

Baranov A.N., Dobrovolsky D.O. Conceptos básicos de fraseología (curso corto) Tutorial. 2da edición. Moscú: Flintá, 2014.

Belikov V.A., Krysin L.P. Sociolingüística. M., Universidad Estatal Rusa de Humanidades, 2001.

Burlak S.A., Starostin S.A. Lingüística histórica comparada. M.: Academia. 2005

Vakhtin N.B., Golovko E.V.. Sociolingüística y sociología del lenguaje. San Petersburgo, 2004.

Knyazev S. V., Pozharitskaya S. K. Lengua literaria rusa moderna: fonética, gráfica, ortografía, ortografía. 2da ed. M., 2010

Kobozeva I.M. Semántica lingüística. M.: Editorial URSS. 2004.

Kodzasov S.V., Krivnova O.F. Fonética general. M.: RSUH, 2001.

Krongauz M.A. Semántica. M.: RSUH. 2001.

Krongauz M.A. Semántica: Tareas, encargos, textos. M.: Academia. 2006..

Maslov yu.s. Introducción a la lingüística. Ed. 6to, borrado. M.: Academia, phil. falso. Universidad Estatal de San Petersburgo,

Plungyan V.A. Morfología general: Introducción a la materia. Ed. 2do. M.: Editorial URSS, 2003.

Testelets Ya.G. Introducción a la sintaxis general. M., 2001.

Shaikevich A.Ya. Introducción a la lingüística. M.: Academia. 2005.

Científico y de referencia

Apresyan Yu.D. Obras seleccionadas, volumen I. Semántica léxica: 2ª ed., español. y adicional M.: Escuela "Lenguas de la cultura rusa", 1995.

Apresyan Yu.D. Obras seleccionadas, Volumen II. Descripción integral de la lengua y lexicografía del sistema. M.: Escuela "Lenguas de la cultura rusa", 1995.

Apresyan Yu.D.(ed.) Nuevo diccionario explicativo de sinónimos de la lengua rusa. Moscú - Viena: "Lenguas de la cultura rusa", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(ed.) Imagen lingüística del mundo y lexicografía sistémica (ed. Yu. D. Apresyan). M.: "Lenguas de las culturas eslavas", 2006, Prefacio y capítulo. 1, págs.26-74.

Bulygina T.V., Shmelev A.D. Conceptualización lingüística del mundo (basada en la gramática rusa). M.: Escuela "Lenguas de la cultura rusa", 1997.

Weinreich W. Contactos lingüísticos. Kyiv, 1983.

Vezhbitskaya A. Universales semánticos y descripción de lenguas. M.: Escuela "Lenguas de la cultura rusa". 1999.

Galperín I.R. El texto como objeto de investigación lingüística. 6ª edición. M.: LKI, 2008 ("Patrimonio lingüístico del siglo XX")

Zaliznyak A.A.“Inflexión nominal rusa” con la aplicación de obras seleccionadas sobre la lengua rusa moderna y la lingüística general. M.: Lenguas de cultura eslava, 2002.

Zaliznyak A.A., Paducheva E.V. Hacia una tipología de cláusulas de relativo. / Semiótica e informática, vol. 35. M., 1997, pág. 59-107.

Ivanov Vyach. Sol.. Lingüística del tercer milenio. Preguntas para el futuro. M., 2004. P. 89-100 (11. Situación lingüística en el mundo y previsión para el futuro próximo).

Kibrik A.E. Ensayos sobre cuestiones generales y aplicadas de la lingüística. M.: Editorial de la Universidad Estatal de Moscú, 1992.

Kibrik A.E. Constantes y variables del lenguaje. San Petersburgo: Aletheya, 2003.

Labov U. Sobre el mecanismo de los cambios lingüísticos // Novedades en lingüística. Número 7. M., 1975. P.320-335.

Lyons J. Semántica lingüística: Introducción. M.: Lenguas de cultura eslava. 2003.

Lyon Juan. Lengua y lingüística. Curso de introducción. M: URSS, 2004

Lakoff J. Mujeres, fuego y cosas peligrosas: lo que nos dicen las categorías del lenguaje sobre el pensamiento. M.: Lenguas de cultura eslava. 2004.

Lakoff J, Johnson M. Metáforas por las que vivimos. Por. De inglés Edición 2. M.: URSS. 2008.

Diccionario Enciclopédico Lingüístico / Ed. Y EN. Yartseva. M.: Editorial científica "Gran Enciclopedia Rusa", 2002.

Melchuk I.A. Curso de morfología general. Tt. I-IV. Moscú-Viena: "Lenguas de la cultura eslava", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

Melchuk I.A. Experiencia en la teoría de modelos lingüísticos “SIGNIFICADO ↔ TEXTO”. M.: Escuela "Lenguas de la cultura rusa", 1999.

Fedorova L.L. Semiótica. M., 2004.

Filippov K.A. Lingüística del texto: Curso de conferencias - 2ª ed., español. y adicional Ed. San Petersburgo Universidad, 2007.

Haspelmath, M., et al.. (eds.). Atlas mundial de estructuras del lenguaje. Oxford, 2005.

Secadora, MS y Haspelmath, M.(eds.) Atlas mundial de estructuras lingüísticas en línea. Leipzig: Instituto Max Planck de Antropología Evolutiva, 2013. (http://wals.info)

Croft W. Tipología y Universales. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.). Tipología de lenguas y descripción sintáctica. 2da edición. Cambridge, 2007.

V. I. Belikov. Sobre los diccionarios "que contienen las normas de la lengua literaria rusa moderna cuando se utiliza como lengua estatal de la Federación de Rusia". 2010 // Portal Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Lingüística informática y tecnologías intelectuales: basado en los materiales de la Conferencia Internacional anual “Diálogo”. vol. 1-11. - M.: Editorial Nauka, de la Universidad Estatal Rusa de Humanidades, 2002-2012. (Artículos sobre lingüística computacional, http://www.dialog-21.ru).

Corpus Nacional de la Lengua Rusa: 2006-2008. Nuevos resultados y perspectivas. / Rep. ed. V. A. Plungyan. - San Petersburgo: Nestor-Historia, 2009.

Novedad en lingüística extranjera. vol. XXIV, Lingüística computacional / Comp. B. Yu. M.: Progreso, 1989.

Shimchuk E. G. Lexicografía rusa: libro de texto. M.: Academia, 2009.

Corpus Nacional de la Lengua Rusa: 2003-2005. Compendio de artículos. M.: Indrik, 2005.

Para contactos:

Centro Educativo y Científico de Lingüística Computacional del Instituto de Lingüística de la Universidad Estatal Rusa de Humanidades

Ligüística computacional(También: matemático o Ligüística computacional, Inglés Ligüística computacional) - una dirección científica en el campo del modelado matemático e informático de procesos intelectuales en humanos y animales al crear sistemas de inteligencia artificial, cuyo objetivo es utilizar modelos matemáticos para describir lenguajes naturales.

La lingüística computacional se superpone con el procesamiento del lenguaje natural. Sin embargo, en este último el énfasis no está en los modelos abstractos, sino en los métodos aplicados de descripción y procesamiento del lenguaje para sistemas informáticos.

El campo de actividad de los lingüistas informáticos es el desarrollo de algoritmos y programas de aplicación para el procesamiento de información lingüística.

Orígenes

La lingüística matemática es una rama de la ciencia de la inteligencia artificial. Su historia comenzó en los Estados Unidos de América en la década de 1950. Con la invención del transistor y la llegada de una nueva generación de ordenadores, así como de los primeros lenguajes de programación, se comenzaron a experimentar con la traducción automática, especialmente en ruso. revistas científicas. En la década de 1960, se llevaron a cabo estudios similares en la URSS (por ejemplo, un artículo sobre la traducción del ruso al armenio en la colección "Problemas de la cibernética" de 1964). Sin embargo, la calidad de la traducción automática sigue siendo muy inferior a la calidad de la traducción humana.

Del 15 al 21 de mayo de 1958 se celebró en el I Instituto Pedagógico Estatal de Lenguas Extranjeras de Moscú la primera Conferencia de toda la Unión sobre traducción automática. El Comité Organizador estuvo encabezado por V. Yu Rosenzweig y el secretario ejecutivo del Comité Organizador G. V. Chernov. El programa completo de la conferencia se publica en la colección “Machine Translation and Applied Linguistics”, vol. 1, 1959 (también conocido como “Boletín nº 8 de la Asociación de Traducción Automática”). Como recuerda V. Yu. Rosenzweig, la colección publicada de resúmenes de conferencias llegó a Estados Unidos y causó una gran impresión allí.

En abril de 1959, tuvo lugar en Leningrado la Primera Reunión de toda la Unión sobre Lingüística Matemática, convocada por la Universidad de Leningrado y el Comité de Lingüística Aplicada. El principal organizador de la reunión fue N.D. Andreev. En la reunión participaron varios matemáticos destacados, en particular, S. L. Sobolev, L. V. Kantorovich (más tarde - Premio Nobel) y A. A. Markov (los dos últimos intervinieron en el debate). V. Yu. Rosenzweig pronunció el discurso de apertura el día de la inauguración del Encuentro: “Teoría lingüística general de la traducción y lingüística matemática”.

Áreas de la Lingüística Computacional

Procesamiento natural del lenguaje procesamiento natural del lenguaje; análisis de texto sintáctico, morfológico y semántico). Esto también incluye:

Lingüística de corpus, la creación y uso de corpus electrónicos de textos.
Creación de diccionarios electrónicos, tesauros, ontologías. Por ejemplo, Lingvo. Los diccionarios se utilizan, por ejemplo, para la traducción automática y la revisión ortográfica.
Traducción automática de textos. Promt es popular entre los traductores de ruso. Entre los gratuitos se encuentra Google Translate.
Extracción automática de hechos del texto (extracción de información) extracción de hechos, minería de textos)
Autorreferenciación resumen automático de texto). Esta característica está incluida, por ejemplo, en Microsoft Word.
Construir sistemas de gestión del conocimiento. Ver Sistemas Expertos
Creación de sistemas de preguntas y respuestas. sistemas de respuesta a preguntas).

Reconocimiento óptico de caracteres LOC). Por ejemplo, el programa FineReader
Reconocimiento automático de voz ASR). Hay software de pago y gratuito.
Síntesis automática de voz

Principales asociaciones y congresos

Programas de estudio en Rusia

ver también

Escribe una reseña sobre el artículo "Lingüística Computacional"

Notas

Enlaces

(abstracto)
- base de conocimientos de recursos lingüísticos para el idioma ruso
- códigos fuente abiertos de algunas utilidades de lingüística computacional
- acceso en línea a programas de lingüística computacional

Un extracto que caracteriza la lingüística computacional.

“Toma, toma a la niña”, dijo Pierre, entregándole a la niña y dirigiéndose a la mujer de manera imperiosa y apresurada. - ¡Dáselo, dáselo! - le gritó casi a la mujer, tirando a la niña que gritaba al suelo, y volvió a mirar a las familias francesa y armenia. El anciano ya estaba sentado descalzo. El pequeño francés se quitó la última bota y las golpeó una contra otra. El anciano, sollozando, dijo algo, pero Pierre sólo lo vislumbró; toda su atención se centró en el francés de la capucha, quien en ese momento, balanceándose lentamente, se acercó a la joven y, sacando las manos de los bolsillos, la agarró del cuello.
La bella mujer armenia seguía sentada en la misma posición inmóvil, con sus largas pestañas bajadas, y como si no viera ni sintiera lo que el soldado le estaba haciendo.
Mientras Pierre recorría los pocos pasos que lo separaban de los franceses, un largo merodeador encapuchado ya arrancaba el collar que llevaba del cuello de la mujer armenia, y la joven, agarrándose el cuello con las manos, gritaba con voz estridente. .
– ¡Laissez cette femme! [¡Deja a esta mujer!] - Pierre gruñó con voz frenética, agarrando al soldado largo y encorvado por los hombros y arrojándolo. El soldado cayó, se levantó y salió corriendo. Pero su compañero, arrojando sus botas, sacó un cuchillo y avanzó amenazadoramente hacia Pierre.
- Voyons, pas de betises! [¡Oh bien! ¡No seas estúpido!] – gritó.
Pierre estaba en ese arrebato de rabia en el que no recordaba nada y en el que sus fuerzas se multiplicaban por diez. Se abalanzó sobre el francés descalzo y, antes de que pudiera sacar su hacha, ya lo había derribado y lo golpeaba con los puños. Se escuchó un grito de aprobación de la multitud circundante y, al mismo tiempo, una patrulla montada de lanceros franceses apareció por la esquina. Los lanceros corrieron hacia Pierre y el francés y los rodearon. Pierre no recordaba nada de lo que pasó después. Recordó que había golpeado a alguien, que lo habían golpeado, y que al final sintió que tenía las manos atadas, que una multitud de soldados franceses lo rodeaban y registraban su vestido.
“Il a un poignard, teniente, [Teniente, tiene un puñal”,] fueron las primeras palabras que Pierre entendió.
- ¡Ah, un brazo! [¡Ah, armas!] - dijo el oficial y se volvió hacia el soldado descalzo que estaba con Pierre.
“C"est bon, vous direz tout cela au conseil de guerre, [Está bien, está bien, lo contarás todo en el juicio”, dijo el oficial y luego se volvió hacia Pierre: “Parlez vous francais vous?” ¿Habla usted francés? ]
Pierre miró a su alrededor con los ojos inyectados en sangre y no respondió. Su cara probablemente parecía muy aterradora, porque el oficial dijo algo en un susurro, y cuatro lanceros más se separaron del equipo y se pararon a ambos lados de Pierre.
– ¿Parlez vous francais? – el oficial le repitió la pregunta, manteniéndose alejado de él. - Faites venir l "interprete. [Llame a un intérprete.] - Detrás de las filas salió hombrecito vestido de civil ruso. Pierre, por su vestimenta y su forma de hablar, lo reconoció inmediatamente como un francés de una de las tiendas de Moscú.
“Il n"a pas l"air d"un homme du peuple, [No parece un plebeyo", dijo el traductor, mirando a Pierre.
– ¡Ay, ay! ca m"a bien l"air d"un des incendiaires", dijo el oficial, "Demandez lui ce qu"il est? [¡Oh, oh! se parece mucho a un pirómano. Pregúntenle ¿quién es?], agregó.
- ¿Quién eres? – preguntó el traductor. "Las autoridades deben responder", dijo.
– Je ne vous dirai pas qui je suis. Je suis votre prisioneronier. Emmenez moi, [No te diré quién soy. Soy tu prisionero. Llévame lejos”, dijo Pierre de repente en francés.
- ¡Ah ah! – dijo el oficial, frunciendo el ceño. - ¡Marchones!
Una multitud se reunió alrededor de los lanceros. Más cerca de Pierre estaba una mujer picada de viruela con una niña; Cuando el desvío comenzó a moverse, ella avanzó.
-¿A dónde te llevan, cariño? - ella dijo. - ¡Esta chica, qué voy a hacer con esta chica, si no es de ellos! - dijo la mujer.
- Qu"est ce qu"elle veut cette femme? [¿Qué quiere?] - preguntó el oficial.
Pierre parecía estar borracho. Su estado de éxtasis se intensificó aún más al ver a la chica que había salvado.
“Ce qu'elle dit?”, dijo. “Elle m”apporte ma fille que je viens de sauver des flammes”, dijo. - ¡Adiós! [¿Qué quiere ella? Lleva en brazos a mi hija, a quien salvé del incendio. ¡Adiós!] - y él, sin saber cómo se le escapó esta mentira sin sentido, caminó con paso decidido y solemne entre los franceses.
La patrulla francesa fue una de las que fueron enviadas por orden de Duronel a varias calles de Moscú para reprimir los saqueos y especialmente para capturar a los pirómanos, quienes, según la opinión general de los franceses ese día, altos funcionarios, fueron la causa de los incendios. Después de recorrer varias calles, la patrulla detuvo a cinco rusos sospechosos más, un comerciante, dos seminaristas, un campesino, un sirviente y varios saqueadores. Pero de todas las personas sospechosas, Pierre parecía el más sospechoso de todos. Cuando todos fueron llevados a pasar la noche en casa Grande En Zubovsky Val, en el que se instaló una caseta de vigilancia, Pierre fue puesto por separado bajo estricta vigilancia.

En San Petersburgo en ese momento, en los círculos más altos, con mayor fervor que nunca, se desarrollaba una lucha compleja entre los partidos de Rumyantsev, los franceses, María Feodorovna, el zarevich y otros, ahogada, como siempre, por los trompetas. de los drones de la corte. Pero tranquila, lujosa, preocupada sólo por los fantasmas, los reflejos de la vida, la vida de San Petersburgo seguía como antes; y por el curso de esta vida fue necesario hacer grandes esfuerzos para reconocer el peligro y la difícil situación en que se encontraba el pueblo ruso. Había las mismas salidas, los mismos bailes, el mismo teatro francés, los mismos intereses de la corte, los mismos intereses de servicio y de intriga. Sólo en los círculos más elevados se hicieron esfuerzos por recordar la dificultad de la situación actual. Se contaba en susurros cómo las dos emperatrices actuaron una frente a la otra en circunstancias tan difíciles. La emperatriz María Feodorovna, preocupada por el bienestar de las instituciones caritativas y educativas bajo su jurisdicción, ordenó enviar todas las instituciones a Kazán, y las cosas de estas instituciones ya estaban empaquetadas. La emperatriz Elizaveta Alekseevna, cuando se le preguntó qué órdenes quería dar, con su característico patriotismo ruso, se dignó responder que no podía dar órdenes sobre las instituciones estatales, ya que se trataba del soberano; Sobre lo mismo que personalmente depende de ella, se dignó decir que será la última en salir de San Petersburgo.

La informática lingüística forma parte de la teoría de los servicios de información. La teoría de los servicios de información surgió en relación con la informatización del habla, es decir, en relación con el uso de computadoras como medio para registrar, contabilizar y almacenar información lingüística. Gracias a la tecnología, fue posible combinar las funciones de biblioteca, archivo y oficina.

Grandes clases de textos se procesan mediante resumen automático. El volumen cada vez mayor de información científica y técnica, cuya búsqueda es cada vez más laboriosa, dio lugar a la idea de buscar a través de los llamados textos secundarios, que son información condensada de un documento primario: la descripción bibliográfica. , traducción abstracta, abstracta y científica.

El colapso del texto principal se realiza comprimiéndolo. Se han desarrollado métodos especiales para contraer el texto principal:

a) los métodos estadístico-distributivos consisten en identificar las oraciones más informativas, en las que se concentran los signos lingüísticos más significativos de un texto determinado;

b) métodos de uso de indicadores semánticos, cuando se anotan los “puntos” más significativos del texto: el tema de la investigación, el propósito, los métodos, la relevancia, el alcance, las conclusiones, los resultados); c) el método de las conexiones textuales, que consiste en que tener en cuenta las conexiones entre frases hace que lo abstracto sea holístico.

3. Terminología práctica.
La terminología práctica incluye secciones:

a) terminología lexicográfica, que se ocupa de la teoría y la práctica de la creación de diccionarios especiales, unificación de sistemas de términos, traducción de términos, creación de bancos de datos terminológicos y automatización de su almacenamiento y procesamiento.

b) la propia lexicografía se convirtió en objeto de la lingüística aplicada como uno de los tipos de lingüística práctica que requiere más mano de obra. Los diccionarios se han creado durante décadas. Por tanto, es comprensible el deseo de los científicos de automatizar las actividades lexicográficas. Aparecieron diccionarios automáticos. Su propósito es aumentar la productividad laboral al trabajar con textos, recopilar, almacenar y procesar diversas unidades lingüísticas. Los diccionarios de este tipo se utilizan en sistemas automáticos de procesamiento de textos.

Traducción automática.

La traducción automática se basa en el supuesto de que es posible armonizar estructuras lingüísticas tipológicamente diferentes (vocabulario, orden de las palabras, flexión, estructuras sintácticas). El principio lingüístico de la traducción es la comparación de unidades lingüísticas de dos o más lenguas que tienen un significado equivalente.

Hay dos etapas en el desarrollo de los sistemas de traducción automática. En una primera etapa se resolvieron problemas fundamentales de la traducción automática como la creación de diccionarios automáticos, el desarrollo de una lengua intermedia, la formalización de la gramática, la superación de la homonimia y el procesamiento de formaciones idiomáticas. En la segunda etapa, los modelos de gramáticas de teoría de conjuntos, los modelos de gramáticas de dependencia, los componentes directos y los modelos de gramática generativa continúan desarrollándose e implementándose de manera bastante fructífera en la práctica. Durante este período, la semántica según el modelo "significado - texto" está cada vez más involucrada en la lingüística aplicada. Los centros de lingüística aplicada que han surgido en universidades nacionales y extranjeras están desarrollando estrategias de traducción automática. Entre ellos se encuentran el laboratorio de lingüística matemática de la Universidad de San Petersburgo, en el Instituto de Matemáticas Aplicadas de la Academia de Ciencias de Rusia; Centro de traducción de toda la Unión; el grupo "Estadísticas del habla" del Instituto Pedagógico de Leningrado bajo la dirección de Raymond Genrikhovich Piotrovsky; grupo para el estudio del modelado sintáctico "significado - texto" bajo la dirección de Igor Aleksandrovich Melchuk.

Una nueva etapa en la mejora de la traducción automática está asociada con el uso de un lenguaje intermediario: un lenguaje de representación del conocimiento. Se basa en el análisis del significado de una oración, obtenido al comprender la oración de entrada, complementada y marcada con la ayuda de información de la base de conocimientos y en sus términos. El proceso de traducción es la transformación de la oración de entrada del idioma X en la estructura de salida del idioma Y. En otras palabras, el resultado de la traducción automática no es la traducción en sí, sino una repetición del texto fuente (X). La calidad de la traducción depende de la eficacia del lenguaje de representación del conocimiento. La traducción automática de alta calidad sólo puede garantizarse mediante la creación de bases lingüísticas fiables y herramientas de software para construir potentes redes semánticas basadas en léxicos automatizados.

IV. Etnolingüística.

La etnolingüística (etnosemántica, antropolingüística) es un campo de la lingüística que estudia el lenguaje en su relación con la cultura de un grupo étnico en particular. Las bases de la etnolingüística se sentaron en los trabajos de Franz Boas y Edward Sapir en el primer cuarto del siglo XX. En la segunda mitad del siglo XX. La etnolingüística se ha convertido en una rama independiente de la lingüística. Estudios etnolingüísticos de la segunda mitad del siglo XX. caracterizado por características tales como: el uso de métodos de psicología experimental; comparación de modelos semánticos de diferentes idiomas; estudiar problemas de taxonomía popular; investigación paralingüística; reconstrucción de la cultura étnica espiritual basada en datos lingüísticos; Reavivar la atención al folclore.

Son fundamentales para la etnolingüística dos problemas estrechamente interrelacionados, que pueden denominarse "cognitivos" y "comunicativos":

1. ¿Cómo, por qué medios y de qué forma se reflejan en el idioma las ideas culturales (cotidianas, religiosas, sociales, etc.) de las personas que hablan este idioma sobre el mundo que los rodea y sobre el lugar del hombre en este mundo?

2. ¿Qué formas y medios de comunicación -principalmente comunicación lingüística- son específicos de un grupo étnico o social determinado?

De acuerdo con estos problemas, han surgido dos direcciones en la etnolingüística: la etnolingüística de orientación cognitiva y la lingüística de orientación comunicativa.

a) Etnolingüística de orientación cognitiva.

La etnolingüística de orientación cognitiva es característica de la lingüística estadounidense. Se llama lingüística antropológica. Inicialmente, la lingüística antropológica se centró en el estudio de la cultura de los pueblos que se diferenciaban marcadamente de los europeos, principalmente los indios americanos. Establecer conexiones relacionadas entre estos idiomas y describirlos. estado actual subordinado a la tarea de una descripción integral de la cultura de estos pueblos y la reconstrucción de su historia, incluidas las rutas migratorias. La grabación e interpretación de textos cotidianos y folclóricos era un componente integral de la descripción antropológica.

Siguiendo a Franz Boas, la lingüística antropológica cree que fragmentos más fraccionados de la clasificación de la realidad en una lengua corresponden a aspectos más importantes de una cultura determinada. Como señala el lingüista y antropólogo estadounidense Harry Heuer: “Los pueblos cazadores-recolectores, como las tribus apaches del suroeste de Estados Unidos, tienen un extenso vocabulario de nombres para animales, plantas y fenómenos ambientales. Los pueblos cuya principal fuente de sustento es la pesca (en particular, los indios de la costa norte del Océano Pacífico) tienen en su diccionario un conjunto detallado de nombres de peces, así como herramientas y técnicas de pesca”.

La mayor atención de los etnolingüistas fue atraída por sistemas taxonómicos como las designaciones de partes del cuerpo, los términos de parentesco, las llamadas clasificaciones etnobiológicas, es decir, los nombres de plantas y animales (la científica inglesa B. Berlin, Anna Vezhbitskaya), - y especialmente designaciones de colores (B. Berlin y P .Kay, A.Vezhbitskaya).

En la etnolingüística antropológica moderna, podemos distinguir condicionalmente direcciones "relativistas" y "universalistas": para la primera, la prioridad es el estudio de las especificidades culturales y lingüísticas en la imagen del mundo que tiene el hablante, para la segunda, la búsqueda de propiedades universales de El vocabulario y la gramática de las lenguas naturales.

Un ejemplo de investigación sobre la dirección relativista en etnolingüística es el trabajo de Yuri Derenikovich Apresyan, Nina Davidovna Arutyunova, Anna Vezhbitskaya, Tatyana Vyacheslavovna Bulygina, Alexey Dmitrievich Shmelev, E.S Yakovleva, dedicado a las peculiaridades de la imagen lingüística rusa del mundo. Estos autores analizan el significado y uso de palabras que denotan conceptos únicos que no son típicos de la conceptualización del mundo en otros idiomas (melancolía y atrevimiento, tal vez y supongo), o corresponden a conceptos que existen en otras culturas. pero son especialmente significativos para la cultura rusa o reciben una interpretación especial (verdad y justicia, libertad y voluntad, destino y destino). Pongamos como ejemplo un fragmento de la descripción de la palabra "tal vez" del libro de T.V. Bulygina y A.D. Shmelev "Conceptualización lingüística del mundo":

«<...>Quizás no significa en absoluto lo mismo que simplemente "posiblemente" o "tal vez".<...>la mayoría de las veces, tal vez se utiliza como una especie de justificación del descuido, cuando se trata de esperar no tanto que suceda algún evento favorable, sino que se evite alguna consecuencia extremadamente indeseable. No se dirá que una persona que compra un billete de lotería actúa por casualidad. Entonces, más bien, se puede decir de una persona que<...>ahorra dinero al no comprar seguro médico y espera que no pase nada malo<...>Por lo tanto, la esperanza del azar no es sólo esperanza de la suerte. Si el símbolo de la fortuna es la ruleta, entonces la esperanza del azar puede simbolizarse con la “ruleta rusa”.

Un ejemplo de investigación en la dirección universalista en etnolingüística es el trabajo de la científica polaca Anna Wierzbicka, dedicada a los principios de descripción de significados lingüísticos. El objetivo de muchos años de investigación de A. Vezhbitskaya y sus seguidores es establecer un conjunto de los llamados "primitivos semánticos", conceptos elementales universales, cuya combinación cada lengua puede crear un número infinito de configuraciones específicas de una lengua determinada y cultura. Los primitivos semánticos son universales léxicos, es decir, son conceptos elementales para los cuales en cualquier idioma existe una palabra que los denota. Estos conceptos son intuitivamente claros para un hablante de cualquier idioma y, a partir de ellos, se pueden construir interpretaciones de cualquier unidad lingüística, por compleja que sea. Al estudiar material de lenguas del mundo genética y culturalmente diversas, incluidas las lenguas de Papua Nueva Guinea, las lenguas austronesias, las lenguas africanas y los aborígenes australianos, A. Vezhbitskaya perfecciona constantemente la lista de primitivos semánticos. Su obra “La interpretación de los conceptos emocionales” ofrece la siguiente lista de ellos:

“sustantivos” – yo, tú, alguien, algo, gente;
“determinantes y cuantificadores” – esto, lo mismo, lo mismo, lo otro, uno, dos, muchos, todos/entero;
“predicados mentales” – pensar (sobre), hablar, saber, sentir, querer;
“acciones y eventos” - ocurren, ocurren/suceden;
“calificaciones” – buenas, malas;
“descriptores” – grande, pequeño;
“tiempo y lugar” – cuándo, dónde, después/antes, debajo/arriba;
“metapredicados” – no/no/negación, porque/a causa de, si, puede;
“intensificador” – muy;
“taxonomía y partonomía” – especie/variedad, parte;
“laxitud/prototipo” – similar/as.

A partir de primitivos semánticos, como “bloques de construcción”, A. Vezhbitskaya reúne interpretaciones incluso de conceptos tan sutiles como las emociones. Por ejemplo, logra demostrar la sutil diferencia entre el concepto cultura americana, denotado por la palabra "feliz", y el concepto denotado por la palabra rusa "feliz" (y adjetivos similares polacos, franceses y alemanes). La palabra "feliz", como escribe A. Vezhbitskaya, aunque generalmente se considera el equivalente en el diccionario de la palabra inglesa "feliz", en la cultura rusa tiene un significado más estrecho, "generalmente se usa para designar estados raros de completa felicidad o completa felicidad". satisfacción que se obtiene de cosas tan serias como el amor, la familia, el sentido de la vida, etc.” Así es como se formula esta diferencia en el lenguaje de las primitivas semánticas (los componentes de la interpretación B que están ausentes en la interpretación A están resaltados en letras mayúsculas).

Interpretación A: X se siente feliz
x siente algo
algo bueno me pasó
quería esto
no quiero nada mas
X siente algo similar

Interpretación B: X es feliz
x siente algo
A veces una persona piensa algo como esto:
me pasó algo MUY bueno
quería esto
TODO ESTA BIEN
NO PUEDO QUERER nada más
entonces esta persona siente algo bueno
X siente algo similar

Para el programa de investigación de A. Vezhbitskaya, es fundamental que la búsqueda de primitivos semánticos universales se lleve a cabo empíricamente, utilizando métodos de lingüística de campo, trabajando con un informante: en primer lugar, en cada idioma individual, se determina el papel que juega un concepto determinado en la interpretación de otros. Se aclaran conceptos y, en segundo lugar, para cada concepto se identifica un conjunto de lenguajes en los que se lexicaliza ese concepto, es decir, hay una palabra especial que expresa este concepto.

B) Etnolingüística de orientación comunicativa.

Los resultados más significativos en la etnolingüística de orientación comunicativa están asociados con la dirección llamada "etnografía del habla" o "etnografía de la comunicación". La etnografía del habla como teoría y método para analizar el uso del lenguaje en un contexto sociocultural fue propuesta a principios de los años 60. en los trabajos de D. Himes y John J. Gumperz y desarrollado en los trabajos del científico estadounidense Aron Cicurel, J. Bauman, A.W. Corsario. Un enunciado se estudia únicamente en relación con cualquier discurso o evento comunicativo en cuyo marco se genera. Se enfatiza la condicionalidad cultural de cualquier discurso (sermón, audiencia judicial, conversación telefónica, etc.). Las reglas de uso del lenguaje se establecen mediante la observación presente (participación en un evento de habla), el análisis de datos espontáneos y entrevistas a hablantes nativos de un idioma determinado.

En el marco de esta dirección, se estudian los modelos de comportamiento del habla aceptados en una cultura particular, en un grupo étnico o social particular. Así, por ejemplo, en la cultura del "estándar centroeuropeo", una conversación informal entre varias personas supone, de acuerdo con las reglas de buenos modales aceptadas en esta comunidad, que los participantes no se interrumpirán entre sí, todos tienen la oportunidad. hablar por turnos, y la persona que quiere hablar suele indicarlo con las palabras “déjame anotar”, “déjame preguntar”, etc. Cualquiera que quiera abandonar la conversación anuncia su intención con las palabras “lamentablemente tengo que irme”, “tengo que irme por un tiempo”, etc. En varias culturas aborígenes australianas se aceptan, por ejemplo, normas completamente diferentes de comportamiento en el discurso público. El respeto de los derechos individuales de un participante individual en una conversación en estas comunidades no es una regla obligatoria: varios interlocutores pueden hablar al mismo tiempo, no es necesario reaccionar ante la declaración de otro, el hablante habla sin dirigirse específicamente a nadie, el los interlocutores no pueden mirarse, etc. Este modelo de comportamiento del habla se basa en la premisa inicial de que todas las expresiones se acumulan de alguna manera en el mundo circundante y, por lo tanto, la "recepción" de un mensaje no necesariamente tiene que seguir directamente a su "transmisión".

Un tema relevante en la etnografía de la comunicación es también el estudio de la expresión lingüística del estatus social relativo de los interlocutores: las reglas para dirigirse al interlocutor, incluido el uso de títulos, direcciones por nombre, apellido, nombre y patronímico, profesional. direcciones (por ejemplo, "doctor", "camarada mayor", "profesor"), la idoneidad de las direcciones "sobre usted" y "sobre usted", etc. Se presta especial atención a los idiomas en los que la relación entre la posición social del hablante y el oyente está fijada no solo en el vocabulario, sino también en la gramática. Un ejemplo es el idioma japonés, donde la elección de la forma gramatical de un verbo depende de si el oyente está por encima o por debajo del hablante en la jerarquía social, y también de si el hablante y el oyente forman parte de la misma unidad social o no. . Además, también se tiene en cuenta la relación entre el hablante y la persona en cuestión. Como resultado del efecto complejo de estas restricciones, una misma persona utiliza diferentes formas del verbo cuando se dirige a un subordinado y cuando se dirige a un superior, cuando se dirige a un compañero de trabajo y cuando se dirige a un extraño, cuando se dirige a su esposa y a la esposa de su vecino. .

La gramática también refleja una característica de la etiqueta del habla japonesa como el deseo de evitar la intrusión en la esfera de los pensamientos y sentimientos del interlocutor. En japonés, existe una forma gramatical especial del verbo: el llamado "modo opcional". Usando el sufijo de modo deseable –tai, el hablante expresa el deseo de realizar la acción indicada por el verbo original: “leer” + tai = “quiero leer”, “dejar” + tai = “quiero irme”. Sin embargo, las formas del estado de ánimo deseado sólo son posibles si el hablante describe su propio deseo. El deseo del interlocutor o de un tercero se expresa mediante una construcción especial, que significa aproximadamente "a partir de signos externos se puede concluir que la persona X quiere realizar la acción Y". Así, sujeto a los requisitos de la gramática, un hablante de japonés sólo puede emitir juicios sobre sus propias intenciones. El lenguaje simplemente no permite hacer declaraciones directas sobre el estado interno de otra persona, por ejemplo sobre sus deseos. Puedes decir “Yo quiero...”, pero no puedes decir “Tú quieres...” o “Él quiere...”, sino sólo “Me parece (tengo la impresión) que tú quieres... ” o “Me parece (tengo la impresión) que quiere…”

Además de las normas de etiqueta del habla, la etnografía de la comunicación también estudia situaciones del habla ritualizadas en ciertas culturas, como una audiencia judicial, la defensa de una disertación, una transacción comercial y similares; reglas para elegir un idioma en la comunicación interlingüística; convenciones lingüísticas y clichés que señalan que un texto pertenece a un determinado género (“érase una vez” - en los cuentos de hadas, “escucharon y decidieron” - en el acta de una reunión).

La etnolingüística moderna está estrechamente relacionada con la sociología, la psicología y la semiótica. En la etnolingüística rusa, un lugar especial lo ocupa la investigación en la intersección de la etnolingüística, la folclorística y la lingüística histórica comparada. En primer lugar, se trata de un programa de investigación dedicado a la historia etnolingüística y etnocultural de los pueblos eslavos (Nikita Ilyich Tolstoy, Svetlana Mikhailovna Tolstaya, Vladimir Nikolaevich Toporov). En el marco de este programa se compilan atlas etnolingüísticos, se mapean rituales, creencias y folclore; Se estudia la estructura de los textos eslavos codificados de ciertos géneros, incluidos los textos de hechizos, acertijos, rituales funerarios y de construcción, etc., en correlación con datos de investigaciones históricas y arqueológicas comparadas.

Sistematización en lingüística y clasificación lingüística de los pueblos del mundo.

Clasificación sociolingüística (o funcional) de lenguas y formas de habla.

Lingüística computacional: métodos, recursos, aplicaciones.

Introducción

Término Ligüística computacional(CL) se ha vuelto cada vez más común en los últimos años en relación con el desarrollo de diversos sistemas de software de aplicaciones, incluidos productos de software comerciales. Esto se debe al rápido crecimiento de la información textual en la sociedad, incluso en Internet, y a la necesidad de procesamiento automático de textos en lenguaje natural (NL). Esta circunstancia estimula el desarrollo de la lingüística informática como campo de la ciencia y el desarrollo de nuevas tecnologías lingüísticas y de la información.

En el marco de la lingüística computacional, que existe desde hace más de 50 años (y también se conoce como lingüística de máquinas, procesamiento automático de textos en NL) Se han propuesto muchos métodos e ideas prometedores, pero no todos han encontrado todavía su expresión en productos de software utilizados en la práctica. Nuestro objetivo es caracterizar las particularidades de este campo de investigación, formular sus principales tareas, indicar sus conexiones con otras ciencias, dar una breve descripción de los principales enfoques y recursos utilizados, y también caracterizar brevemente las aplicaciones existentes de CL. Para una introducción más detallada a estos temas, podemos recomendar libros.

1. Problemas de la lingüística computacional

La lingüística informática surgió en la intersección de ciencias como la lingüística, las matemáticas, la informática (Informática) y la inteligencia artificial. Los orígenes de CL se remontan a las investigaciones del famoso científico estadounidense N. Chomsky en el campo de la formalización de la estructura del lenguaje natural; su desarrollo se basa en resultados en el campo de la lingüística general (lingüística). La lingüística estudia las leyes generales del lenguaje natural: su estructura y funcionamiento, e incluye las siguientes áreas:

Ø Fonología– estudia los sonidos del habla y las reglas de su conexión durante la formación del habla;

Ø Morfología– se ocupa de la estructura interna y la forma externa de las palabras del discurso, incluidas las partes del discurso y sus categorías;

Ø Sintaxis– estudia la estructura de las oraciones, las reglas de compatibilidad y el orden de las palabras en una oración, así como sus propiedades generales como unidad del lenguaje.

Ø Semánticay pragmática– áreas estrechamente relacionadas: la semántica se ocupa del significado de palabras, oraciones y otras unidades del habla, y la pragmática se ocupa de las peculiaridades de expresar este significado en relación con objetivos específicos de la comunicación;

Ø Lexicografía describe el léxico de un NL en particular: sus palabras individuales y sus propiedades gramaticales, así como métodos para crear diccionarios.

Los resultados de N. Chomsky, obtenidos en la intersección de la lingüística y las matemáticas, sentaron las bases para la teoría de los lenguajes formales y las gramáticas (a menudo llamadas generativo, o generando gramáticos). Esta teoría ahora se aplica a lingüística matemática y se utiliza para procesar no tanto NL, sino lenguajes artificiales, principalmente lenguajes de programación. Por su naturaleza, se trata de una disciplina completamente matemática.

La lingüística matemática también incluye lingüística cuantitativa, que estudia las características de frecuencia del lenguaje: palabras, sus combinaciones, estructuras sintácticas, etc., y utiliza métodos matemáticos de estadística, por lo que esta rama de la ciencia puede denominarse lingüística estadística.

CL también está estrechamente relacionado con un campo científico tan interdisciplinario como la inteligencia artificial (IA), dentro del cual se desarrollan modelos informáticos de funciones intelectuales individuales. Uno de los primeros programas en funcionamiento en el campo de la IA y la CL es el famoso programa de T. Winograd, que comprendía las órdenes humanas más simples para cambiar el mundo de los cubos, formuladas en un subconjunto limitado de NL. Tenga en cuenta que a pesar de la obvia intersección de la investigación en el campo de CL e IA (ya que el dominio del lenguaje se relaciona con funciones intelectuales), la IA no absorbe toda la CL, ya que tiene su propia base teórica y metodología. Lo que estas ciencias tienen en común es el modelado informático como método principal y objetivo final de la investigación.

Por tanto, la tarea CL puede formularse como el desarrollo de programas informáticos para el procesamiento automático de textos en NL. Y aunque el procesamiento se entiende de manera bastante amplia, no todos los tipos de procesamiento pueden denominarse lingüísticos y los procesadores correspondientes, lingüísticos. Procesador lingüístico debe utilizar uno u otro modelo formal de lenguaje (incluso uno muy simple), lo que significa que debe depender del lenguaje de una forma u otra (es decir, depender de un NL específico). Entonces, por ejemplo, el editor de texto de Mycrosoft Word puede llamarse lingüístico (aunque solo sea porque usa diccionarios), pero el editor de Bloc de notas no.

La complejidad de las tareas de CL se debe al hecho de que NL es un complejo sistema de signos de múltiples niveles que surgió para el intercambio de información entre personas, desarrollado en el proceso de la actividad práctica humana y que cambia constantemente en relación con esta actividad. Otra dificultad en el desarrollo de métodos CL (y la dificultad de estudiar NL en el marco de la lingüística) está asociada con la diversidad de lenguajes naturales, diferencias significativas en su vocabulario, morfología, sintaxis. diferentes idiomas proporcionan diferentes formas de expresar el mismo significado; .

2. Características del sistema NL: niveles y conexiones.

El objeto de los procesadores lingüísticos son los textos NL. Se entiende por textos cualquier muestra de habla, oral y escrita, de cualquier género, pero principalmente CL considera textos escritos. El texto tiene una estructura lineal unidimensional y también tiene un cierto significado, mientras que el lenguaje actúa como un medio para transformar el significado transmitido en textos (síntesis del habla) y viceversa (análisis del habla). El texto se compone de unidades más pequeñas y existen varias formas posibles de dividir (dividir) el texto en unidades que pertenecen a diferentes niveles.

Generalmente se acepta la existencia de los siguientes niveles:

· nivel de propuestas (declaraciones) – nivel sintáctico;

· Léxico-morfológico La homonimia (el tipo más común) ocurre cuando las formas de las palabras de dos lexemas diferentes coinciden, por ejemplo, poema– un verbo en singular, masculino, y un sustantivo en singular, caso nominativo),

· Homonimia sintáctica Significa la ambigüedad de la estructura sintáctica, lo que da lugar a varias interpretaciones: Los estudiantes de Lvov fueron a Kyiv,Volador aviones poder ser peligroso(célebre ejemplo de Chomsky), etc.

3. Modelado en lingüística computacional

El desarrollo de un procesador lingüístico (LP) implica una descripción de las propiedades lingüísticas del texto NL procesado, y esta descripción se organiza como modelo idioma. Al igual que con el modelado en matemáticas y programación, un modelo se entiende como un determinado sistema que muestra una serie de propiedades esenciales del fenómeno que se está modelando (es decir, SE) y, por lo tanto, tiene similitud estructural o funcional.

Los modelos lingüísticos utilizados en CL suelen construirse sobre la base de teorías creadas por los lingüistas mediante el estudio de varios textos y sobre la base de su intuición lingüística (introspección). ¿Cuál es la especificidad de los modelos CL? Se pueden distinguir las siguientes características:

· Formalidad y, en última instancia, algoritmización;

· Funcionalidad (el propósito del modelado es reproducir las funciones del lenguaje como una “caja negra”, sin construir un modelo preciso de síntesis y análisis del habla humana);

· La generalidad del modelo, es decir, que tiene en cuenta un conjunto bastante amplio de textos;

· Validez experimental, que implica probar el modelo en diferentes textos;

· Dependencia de los diccionarios como componente obligatorio del modelo.

La complejidad de la NL, su descripción y procesamiento lleva a la división de este proceso en etapas separadas correspondientes a los niveles de la lengua. La mayoría de las NL modernas son de tipo modular, en las que cada nivel de análisis o síntesis lingüística corresponde a un nivel separado. módulo procesador. En particular, en el caso del análisis de texto, los módulos LP individuales realizan:

Ø Análisis grafemático, es decir, resaltar formas de palabras en el texto (transición de símbolos a palabras);

Ø Análisis morfológico – transición de las formas de las palabras a sus lemas(formas del diccionario de lexemas) o lo esencial(partes nucleares de la palabra, menos morfemas flexivos);

Ø Análisis sintáctico, es decir, identificar la estructura gramatical de las oraciones en un texto;

Ø Análisis semántico y pragmático, que determina el significado de las frases y la correspondiente reacción del sistema dentro del cual opera el LP.

Son posibles diferentes esquemas para la interacción de estos módulos (operación secuencial o análisis entrelazado paralelo), sin embargo, los niveles individuales (morfología, sintaxis y semántica) todavía se procesan mediante diferentes mecanismos.

Así, el LP puede considerarse como un conversor de múltiples etapas que, en el caso del análisis de texto, traduce cada una de sus oraciones en una representación interna de su significado y viceversa en el caso de la síntesis. El modelo de lenguaje correspondiente se puede llamar estructural.

Aunque los modelos CL completos requieren tener en cuenta todos los niveles principales del idioma y la presencia de los módulos correspondientes, al resolver algunos problemas aplicados es posible prescindir de representar niveles individuales en LP. Por ejemplo, en los primeros programas experimentales de CL, los textos procesados pertenecían a áreas problemáticas muy limitadas (con un conjunto limitado de palabras y su orden estricto), de modo que sus letras iniciales podían usarse para reconocer palabras, omitiendo las etapas de desarrollo morfológico y sintáctico. análisis.

Otro ejemplo de modelo reducido, que ahora se utiliza con bastante frecuencia, es el modelo lingüístico de la frecuencia de los símbolos y sus combinaciones (digramas, trigramas, etc.) en los textos de un NL en particular. Semejante modelo estadístico muestra información lingüística a nivel de caracteres (letras) del texto, y es suficiente, por ejemplo, para identificar errores tipográficos en el texto o reconocer su identidad lingüística. Un modelo similar basado en las estadísticas de palabras individuales y su coexistencia en los textos (bigramas, trigramas de palabras) se utiliza, por ejemplo, para resolver ambigüedades léxicas o determinar la parte del discurso de una palabra (en idiomas como el inglés). ).

Tenga en cuenta que es posible modelos estadístico-estructurales, en el que, al representar niveles individuales de la NL, se tienen en cuenta una u otra estadística: palabras, estructuras sintácticas, etc.

En un LP de tipo modular, en cada etapa del análisis o síntesis del texto se utiliza un modelo correspondiente (morfología, sintaxis, etc.).

Los modelos morfológicos para analizar las formas de las palabras existentes en CL se diferencian principalmente en los siguientes parámetros:

· el resultado del trabajo: un lema o raíz con un conjunto de características morfológicas (género, número, caso, aspecto, persona, etc.) de una forma verbal determinada;

· método de análisis - basado en un diccionario de formas de palabras de un idioma o un diccionario de conceptos básicos, o un método sin diccionario;

· la capacidad de procesar la forma de la palabra de un lexema no incluido en el diccionario.

En la síntesis morfológica, los datos de partida son el lexema y las características morfológicas específicas de la forma verbal solicitada de este lexema; también es posible solicitar la síntesis de todas las formas de un lexema determinado; El resultado tanto del análisis morfológico como de la síntesis es generalmente ambiguo.

Para modelar la sintaxis en el marco de CL, se han propuesto una gran cantidad de ideas y métodos diferentes, que se diferencian en la forma de describir la sintaxis del lenguaje, la forma de utilizar esta información en el análisis o síntesis de una oración NL, como así como la forma de representar la estructura sintáctica de la oración. De manera bastante convencional, podemos distinguir tres enfoques principales para la creación de modelos: un enfoque generativo, que se remonta a las ideas de Chomsky, un enfoque que se remonta a las ideas de I. Melchuk y representado por el modelo "Significado-Texto", así como un enfoque dentro del cual se hacen ciertos intentos de superar las limitaciones de los dos primeros enfoques, en particular, la teoría de los grupos sintácticos.

Dentro del enfoque generativo, el análisis sintáctico generalmente se realiza sobre la base de una gramática formal libre de contexto que describe la estructura frasal de una oración, o sobre la base de alguna extensión de la gramática libre de contexto. Estas gramáticas se basan en la división lineal consistente de una oración en frases (construcciones sintácticas, por ejemplo, frases nominales) y, por lo tanto, reflejan simultáneamente sus estructuras sintácticas y lineales. Se describe la estructura sintáctica jerárquica de la oración NL obtenida como resultado del análisis. árbol de componentes, cuyas hojas contienen las palabras de la oración, los subárboles corresponden a las construcciones sintácticas (frases) incluidas en la oración y los arcos expresan las relaciones de anidamiento de las construcciones.

El enfoque considerado puede incluir gramáticas de red, que son a la vez un aparato para describir un sistema lingüístico y para especificar un procedimiento para analizar oraciones basado en el concepto de una máquina de estados finitos, por ejemplo, la red de transición extendida ATN.

Dentro del segundo enfoque, se utiliza un método más visual y común para representar la estructura sintáctica de una oración: árboles de dependencia. Los nodos del árbol contienen las palabras de la oración (la raíz suele ser un predicado verbal), y cada arco del árbol que conecta un par de nodos se interpreta como sintáctico. subordinando conexión entre ellos, y la dirección de la conexión corresponde a la dirección del arco dado. Dado que en este caso las conexiones sintácticas de las palabras y el orden de las palabras en una oración están separados, entonces, sobre la base de árboles de subordinación, rotos y no proyectivo construcciones que aparecen con bastante frecuencia en idiomas con orden de palabras libre.

Los árboles de componentes son más adecuados para describir idiomas en un orden rígido de palabras; representar con su ayuda construcciones fragmentadas y no proyectivas requiere ampliar el formalismo gramatical utilizado. Pero en el marco de este enfoque, las construcciones con relaciones no subordinadas se describen de forma más natural. Al mismo tiempo, una dificultad común a ambos enfoques es la representación de miembros homogéneos de una oración.

Los modelos sintácticos en todos los enfoques intentan tener en cuenta las restricciones impuestas a la conexión de unidades lingüísticas en el habla, mientras que el concepto de valencia se utiliza de una forma u otra. Valencia- esta es la capacidad de una palabra u otra unidad del lenguaje para conectar otras unidades de una determinada forma sintáctica; actante Es una palabra o construcción sintáctica que llena esta valencia. Por ejemplo, el verbo ruso Entregar tiene tres valencias principales, que pueden expresarse mediante las siguientes palabras interrogativas: ¿OMS? ¿A quien? ¿Qué? En el marco del enfoque generativo, las valencias de las palabras (principalmente verbos) se describen principalmente en forma de marcos especiales ( subcategorización marcos), y en el marco del enfoque basado en árboles de dependencia - ¿cómo modelos de gestión.

Los modelos de semántica del lenguaje son los menos desarrollados en el marco de CL. Para el análisis semántico de oraciones se utilizan las llamadas gramáticas de casos y casos semánticos(valencia), a partir del cual se describe la semántica de una oración tanto a través de las conexiones de la palabra principal (verbo) con sus actantes semánticos, es decir, a través de casos semánticos. Por ejemplo, verbo Entregar descrito por casos semánticos donación(agente), destinatario Y objeto de transferencia.

Para representar la semántica de un texto completo, se utilizan comúnmente dos formalismos lógicamente equivalentes (ambos descritos en detalle dentro del marco de IA):

· Fórmulas para el cálculo de predicados que expresan propiedades, estados, procesos, acciones y relaciones;

· Las redes semánticas son gráficos etiquetados en los que los vértices corresponden a conceptos y los vértices corresponden a relaciones entre ellos.

En cuanto a los modelos de pragmática y discurso, que permiten procesar no sólo oraciones individuales, sino también el texto en su conjunto, las ideas de Van Dyck se utilizan principalmente para construirlos. Uno de los modelos raros y exitosos es el modelo de síntesis discursiva de textos coherentes. Dichos modelos deben tener en cuenta referencias anafóricas y otros fenómenos a nivel del discurso.

Concluyendo la caracterización de los modelos lingüísticos en el marco de CL, nos detendremos un poco más en la teoría de los modelos lingüísticos “Significado-Texto”, y en cuyo marco aparecieron muchas ideas fructíferas que se adelantaron a su tiempo y son sigue siendo relevante hoy.

De acuerdo con esta teoría, la NL se considera un tipo especial de transformador que procesa significados dados en textos correspondientes y textos dados en significados correspondientes. El significado se entiende como la invariante de todas las transformaciones sinónimas del texto. El contenido de un fragmento de discurso coherente sin división en frases y formas de palabras se muestra en forma de una representación semántica especial, que consta de dos componentes: gráfico semántico e información sobre organización comunicativa del significado.

Conviene indicar las características distintivas de la teoría:

o orientación hacia la síntesis de textos (la capacidad de generar textos correctos se considera el principal criterio de competencia lingüística);

o naturaleza modular y multinivel del modelo, con los principales niveles del lenguaje divididos en niveles superficiales y profundos: se diferencian, por ejemplo, profundo(semantizado) y superficie sintaxis (“pura”), así como niveles morfológicos superficiales y morfológicos profundos;

o la naturaleza integral del modelo lingüístico; almacenamiento de la información presentada en cada nivel por el módulo correspondiente, realizando la transición de este nivel al siguiente;

o medios especiales para describir la sintáctica (reglas para conectar unidades) en cada nivel; Se propuso un conjunto para describir la compatibilidad léxica. funciones léxicas, con la ayuda del cual se formulan las reglas de paráfrasis sintáctica;

o énfasis en el vocabulario más que en la gramática; el diccionario almacena información relacionada con diferentes niveles del idioma; en particular, para el análisis sintáctico se utilizan modelos de control de palabras que describen sus valencias sintácticas y semánticas.

Esta teoría y modelo de lenguaje están plasmados en el sistema de traducción automática ETAP.

4. Recursos lingüísticos

El desarrollo de procesadores lingüísticos requiere una representación adecuada de la información lingüística sobre el lenguaje procesado. Esta información se muestra en una variedad de gramáticas y diccionarios informáticos.

Diccionarios son los más forma tradicional representación de información léxica; se diferencian en sus unidades (generalmente palabras o frases), estructura y cobertura de vocabulario (diccionarios de términos en un área problemática específica, diccionarios de vocabulario general, etc.). La unidad de vocabulario se llama entrada de diccionario, proporciona información sobre el token. Los homónimos léxicos suelen estar representados en diferentes entradas del diccionario.

Los diccionarios más comunes en CL son diccionarios morfológicos utilizados para el análisis morfológico; su entrada de diccionario presenta información morfológica sobre la palabra correspondiente: parte de la oración, clase flexiva (para idiomas flexivos), una lista de significados de palabras, etc. Dependiendo de la organización de Al procesador lingüístico también se le puede añadir información gramatical en el diccionario, por ejemplo, modelos de control de palabras.

Existen diccionarios que proporcionan información más amplia sobre las palabras. Por ejemplo, el modelo lingüístico “Significado-Texto” se basa significativamente en diccionario combinatorio explicativo, en cuya entrada del diccionario, además de información morfológica, sintáctica y semántica (valencias sintácticas y semánticas), se presenta información sobre la compatibilidad léxica de esta palabra.

Varios procesadores lingüísticos utilizan diccionarios de sinónimos. Un tipo de diccionario relativamente nuevo: diccionarios parónimos, es decir, palabras aparentemente similares que difieren en significado, por ejemplo, extraño Y extraterrestre, edición Y referencia .

Otro tipo de recursos léxicos es bases de datos de frases, en el que se seleccionan las frases más típicas de un idioma concreto. Esta base de datos de frases en ruso (alrededor de un millón de unidades) constituye el núcleo del sistema CrossLexica.

Más especies complejas los recursos léxicos son tesauros y ontologías. Un tesauro es un diccionario semántico, es decir, un diccionario en el que se presentan las conexiones semánticas de las palabras: sinónimos, relaciones de tipo género (a veces llamadas relación arriba-abajo), asociaciones parte-todo. La difusión de tesauros está asociada a la resolución de problemas de recuperación de información.

Estrechamente relacionado con el concepto de tesauro está el concepto de ontología. La ontología es un conjunto de conceptos y entidades de un determinado campo del conocimiento, orientados a la reutilización para diversas tareas. Las ontologías se pueden crear a partir del vocabulario existente en un idioma; en este caso se denominan lingüístico Y.

Se considera que una ontología lingüística similar es el sistema WordNet, un gran recurso léxico que recopila palabras en inglés: sustantivos, adjetivos, verbos y adverbios, y sus conexiones semánticas de varios tipos. Para cada una de las partes del discurso especificadas, las palabras se agrupan en grupos de sinónimos ( sintetizadores), entre los cuales se establecen las relaciones de antonimia, hiponimia (relación género-especie), meronimia (relación parte-todo). El recurso contiene aproximadamente 25 mil palabras, el número de niveles de jerarquía para la relación género-especie es en promedio de 6 a 7, llegando a veces a 15. El nivel superior de la jerarquía forma una ontología general, un sistema de conceptos básicos sobre el mundo.

Sobre la base del esquema inglés WordNet, se construyeron recursos léxicos similares para otros idiomas europeos, unidos bajo el nombre general EuroWordNet.

Un tipo completamente diferente de recursos lingüísticos es gramática NL, cuyo tipo depende del modelo de sintaxis utilizado en el procesador. En una primera aproximación, la gramática es un conjunto de reglas que expresan las propiedades sintácticas generales de palabras y grupos de palabras. Numero total Las reglas gramaticales también dependen del modelo de sintaxis y varían desde varias decenas hasta varios cientos. Básicamente, aquí surge un problema con la relación entre gramática y vocabulario en un modelo de lenguaje: cuanta más información se presenta en el diccionario, más corta puede ser la gramática y viceversa.

Tenga en cuenta que la construcción de diccionarios, tesauros y gramáticas informáticas es un trabajo voluminoso y que requiere mucha mano de obra, a veces incluso más que el desarrollo de un modelo lingüístico y el procesador correspondiente. Por tanto, una de las tareas subordinadas de CL es la automatización de la construcción de recursos lingüísticos.

Los diccionarios informáticos suelen formarse mediante la conversión de diccionarios de texto ordinarios, pero su construcción suele requerir un trabajo mucho más complejo y minucioso. Esto suele suceder cuando se construyen diccionarios y tesauros para campos científicos en rápido desarrollo: biología molecular, informática, etc. El material fuente para extraer la información lingüística necesaria puede ser colecciones y corpus de texto.

Un corpus de textos es una colección de textos recopilados según un determinado principio de representatividad (por género, autoría, etc.), en la que todos los textos están marcados, es decir, dotados de algunas marcas lingüísticas (anotaciones): morfológicas, acentuales, sintáctico, etc. n. Actualmente, existen al menos cien corpus diferentes; para diferentes idiomas y con diferentes marcas, el más famoso es el Corpus Nacional de la Lengua Rusa;

Los corpus etiquetados son creados por lingüistas y se utilizan tanto para la investigación lingüística como para ajustar (entrenar) modelos y procesadores utilizados en CL utilizando métodos matemáticos bien conocidos de aprendizaje automático. Por tanto, el aprendizaje automático se utiliza para configurar métodos para resolver ambigüedades léxicas, reconocer partes del discurso y resolver referencias anafóricas.

Dado que los corpus y las colecciones de textos siempre son limitados en términos de los fenómenos lingüísticos representados en ellos (y los corpus, entre otras cosas, tardan bastante en crearse), en Últimamente Los textos de Internet se consideran cada vez más como un recurso lingüístico más completo. Por supuesto, Internet es la fuente más representativa de muestras de voz modernas, pero su uso como corpus requiere el desarrollo de tecnologías especiales.

5. Aplicaciones de la lingüística computacional

El campo de aplicaciones de la lingüística computacional está en constante expansión, por lo que caracterizaremos aquí los problemas aplicados más conocidos resueltos por sus herramientas.

traducir automáticamente– la primera aplicación de CL, junto con la cual surgió y se desarrolló este campo. Los primeros programas de traducción se crearon hace más de 50 años y se basaban en una estrategia sencilla de traducción palabra por palabra. Sin embargo, rápidamente se comprendió que la traducción automática requiere un modelo lingüístico completo que tenga en cuenta todos los niveles del lenguaje, hasta la semántica y la pragmática, lo que ha obstaculizado repetidamente el desarrollo de este campo. En el sistema nacional ETAP se utiliza un modelo bastante completo, que traduce textos científicos del francés al ruso.

Sin embargo, tenga en cuenta que en el caso de la traducción a un idioma relacionado, por ejemplo, al traducir del español al portugués o del ruso al ucraniano (que tienen mucho en común en sintaxis y morfología), el procesador se puede implementar basándose en una versión simplificada. modelo, por ejemplo, basado en el uso de la misma estrategia de traducción palabra por palabra.

Actualmente existe toda una gama de sistemas de traducción informática (de diversa calidad), desde grandes proyectos de investigación internacionales hasta traductores automáticos comerciales. De gran interés son los proyectos de traducción multilingüe que utilizan un idioma intermedio en el que se codifica el significado de las frases traducidas. Otra dirección moderna es la traducción estadística, basada en estadísticas sobre la traducción de palabras y frases (estas ideas, por ejemplo, se implementan en el traductor del motor de búsqueda de Google).

Pero a pesar de muchas décadas de desarrollo en todo este ámbito, en general el problema de la traducción automática está todavía muy lejos de estar completamente resuelto.

Otra aplicación bastante antigua de la lingüística computacional es búsqueda de información y tareas afines de indexación, resúmenes, clasificación y rubricación de documentos.

La búsqueda de texto completo de documentos en grandes bases de datos (principalmente científicas, técnicas y comerciales) se suele realizar en función de su buscar imágenes, con lo que nos referimos a un conjunto palabras clave– palabras que reflejen el tema principal del documento. Al principio, solo se consideraron como palabras clave palabras individuales de la NL y la búsqueda se realizó sin tener en cuenta su flexión, lo que no es crítico en idiomas con flexión débil como el inglés. Para lenguas flexionadas, por ejemplo el ruso, era necesario utilizar un modelo morfológico que tuviera en cuenta la inflexión.

La consulta de búsqueda también se presentó como un conjunto de palabras; los documentos adecuados (relevantes) se determinaron en función de la similitud de la consulta y la imagen de búsqueda del documento. Crear una imagen de búsqueda de un documento implica indexación su texto, es decir, resaltando las palabras clave en él. Dado que muy a menudo el tema y el contenido de un documento se reflejan con mucha más precisión no en palabras individuales, sino en frases, las frases comenzaron a considerarse palabras clave. Esto complicó significativamente el procedimiento de indexación de documentos, ya que era necesario utilizar varias combinaciones de criterios estadísticos y lingüísticos para seleccionar frases significativas en el texto.

De hecho, la recuperación de información utiliza principalmente modelo de texto vectorial(aveces llamado bolsa de palabras– bolsa de palabras), en la que un documento se representa como un vector (conjunto) de sus palabras clave. Los modernos motores de búsqueda de Internet también utilizan este modelo, indexando textos según las palabras utilizadas en ellos (al mismo tiempo, utilizan procedimientos de clasificación muy sofisticados para devolver documentos relevantes).

El modelo de texto especificado (con algunas complicaciones) también se utiliza en los problemas de recuperación de información relacionados que se analizan a continuación.

Texto resumido– reducir su volumen y obtener un resumen del mismo – un resumen (contenido condensado), lo que agiliza la búsqueda en colecciones de documentos. También se puede compilar un resumen general de varios documentos relacionados con el tema.

El método principal de resumen automático sigue siendo la selección de las oraciones más significativas del texto que se está resumiendo, para lo cual generalmente primero se calculan las palabras clave del texto y se calcula el coeficiente de significancia de las oraciones del texto. La selección de oraciones significativas se complica por conexiones anafóricas de oraciones, cuya ruptura no es deseable; para resolver este problema, se están desarrollando ciertas estrategias para seleccionar oraciones.

Una tarea cercana a la abstracción es anotación texto del documento, es decir, redactar su anotación. En su forma más simple, un resumen es una lista de los temas principales de un texto para cuya identificación se pueden utilizar procedimientos de indexación.

Al crear grandes colecciones de documentos, las siguientes tareas son relevantes: clasificaciones Y agrupamiento textos para crear clases de documentos relacionados con el tema. Clasificación significa asignar cada documento a una clase específica con parámetros previamente conocidos, y agrupar significa dividir un conjunto de documentos en grupos, es decir, subconjuntos de documentos temáticamente similares. Para resolver estos problemas se utilizan métodos de aprendizaje automático, por lo que estos problemas aplicados se denominan Text Mining y pertenecen a la dirección científica conocida como Data Mining, o minería de datos.

El problema está muy cerca de la clasificación. rubricación texto: su asignación a uno de los títulos temáticos previamente conocidos (normalmente los títulos forman un árbol jerárquico de temas).

El problema de la clasificación está cada vez más extendido; se soluciona, por ejemplo, con el reconocimiento de spam y una aplicación relativamente nueva es la clasificación de mensajes SMS en dispositivos móviles. Una nueva y relevante dirección de investigación para Tarea común recuperación de información – búsqueda de documentos multilingües.

Otra tarea relativamente nueva relacionada con la recuperación de información es generando respuestas a preguntas(Respuesta de preguntas). Este problema se resuelve determinando el tipo de pregunta, buscando textos que potencialmente contengan la respuesta a esta pregunta y extrayendo la respuesta de estos textos.

Una dirección aplicada completamente diferente, que se está desarrollando, aunque lenta pero constantemente, es automatización de preparación y edición textos en EA. Una de las primeras aplicaciones en esta dirección fueron los programas para determinar automáticamente los guiones de las palabras y los programas de ortografía de textos (ortográficos o autocorrectores). A pesar de la aparente simplicidad del problema de la transferencia, su correcta solución para muchos idiomas (por ejemplo, el inglés) requiere el conocimiento de la estructura morfémica de las palabras en el idioma correspondiente y, por tanto, del diccionario correspondiente.

La revisión ortográfica se ha implementado desde hace mucho tiempo en los sistemas comerciales y se basa en un diccionario y un modelo de morfología adecuados. También se utiliza un modelo de sintaxis incompleta, a partir del cual se identifican todos los errores sintácticos que son bastante frecuentes (por ejemplo, errores de concordancia de palabras). Al mismo tiempo, los autocorrectores aún no han implementado la detección de errores más complejos, por ejemplo, el uso incorrecto de preposiciones. Muchos errores léxicos tampoco se detectan, en particular los errores resultantes de errores tipográficos o del uso incorrecto de palabras similares (por ejemplo, peso en lugar de pesado). La investigación moderna de CL propone métodos para la detección y corrección automática de dichos errores, así como algunos otros tipos de errores de estilo. Estos métodos utilizan estadísticas sobre la aparición de palabras y frases.

Una tarea aplicada cercana al apoyo a la preparación de textos es enseñanza del lenguaje natural, en el marco de esta dirección, a menudo se desarrollan sistemas informáticos para la enseñanza de idiomas: inglés, ruso, etc. (se pueden encontrar sistemas similares en Internet). Normalmente, estos sistemas apoyan el estudio de aspectos individuales del lenguaje (morfología, vocabulario, sintaxis) y se basan en modelos apropiados, por ejemplo, el modelo morfológico.

En cuanto al aprendizaje de vocabulario, también se utilizan análogos electrónicos de diccionarios de texto (que esencialmente no tienen modelos lingüísticos). Sin embargo, también se están desarrollando diccionarios informáticos multifuncionales que no tienen análogos de texto y están dirigidos a una amplia gama de usuarios, por ejemplo, el diccionario Crosslexics de frases en ruso. Este sistema cubre una amplia gama de vocabulario: palabras y sus combinaciones aceptables de palabras, y también brinda ayuda sobre modelos de manejo de palabras, sinónimos, antónimos y otros correlatos semánticos de palabras, lo cual es claramente útil no solo para quienes estudian el idioma ruso, sino también para hablantes nativos.

La siguiente área de aplicación que vale la pena mencionar es generación automática textos en EA. En principio, esta tarea puede considerarse una subtarea de la tarea de traducción automática ya comentada anteriormente, sin embargo, dentro de la dirección hay una serie de tareas específicas. Una tarea de este tipo es la generación multilingüe, es decir, la construcción automática de documentos especiales en varios idiomas: fórmulas de patentes, instrucciones de funcionamiento de productos técnicos o sistemas de software, basándose en sus especificaciones en un lenguaje formal. Para resolver este problema, se utilizan modelos de lenguaje bastante detallados.

Un problema aplicado cada vez más relevante, a menudo denominado minería de textos, es extracción de información de textos, o Extracción de Información, que se requiere a la hora de resolver problemas de análisis económico y de producción. Para hacer esto, en la prueba NL se identifican ciertos objetos: entidades nombradas (nombres, personalidades, nombres geográficos), sus relaciones y eventos asociados con ellas. Como regla general, esto se implementa sobre la base de un análisis parcial del texto, lo que permite procesar flujos de noticias desde agencias de noticias. Dado que la tarea es bastante compleja no sólo desde el punto de vista teórico sino también tecnológico, la creación de sistemas importantes para extraer información de textos es factible en las empresas comerciales.

El campo de la minería de textos también incluye otras dos tareas relacionadas: la minería de opiniones (Opinion Mining) y el análisis de sentimientos (Sentiment Analysis), que están atrayendo la atención de un número cada vez mayor de investigadores. La primera tarea consiste en buscar (en blogs, foros, tiendas online, etc.) opiniones de los usuarios sobre productos y otros objetos, y también analizar estas opiniones. La segunda tarea se acerca a la clásica tarea de análisis de contenido de textos de comunicación de masas: evalúa el tono general de las declaraciones;

Otra aplicación que vale la pena mencionar es apoyo al diálogo con el usuario en EA en el marco de cualquier sistema de software de información. En la mayoría de los casos, este problema se resolvió para bases de datos especializadas; en este caso, el lenguaje de consulta es bastante limitado (léxica y gramaticalmente), lo que permite el uso de modelos de lenguaje simplificados. Las consultas a la base de datos formuladas en NL se traducen al lenguaje formal, después de lo cual se busca la información requerida y se construye la frase de respuesta correspondiente.

Como último en nuestra lista de aplicaciones CL (pero no menos importante), indicamos reconocimiento y síntesis de voz. Los errores de reconocimiento que inevitablemente surgen en estas tareas se corrigen mediante métodos automáticos basados en diccionarios y conocimientos lingüísticos de morfología. En este ámbito también se utilizará el aprendizaje automático.

Conclusión

La lingüística computacional demuestra resultados bastante tangibles en diversas aplicaciones para el procesamiento automático de textos en NL. Su desarrollo futuro depende tanto de la aparición de nuevas aplicaciones como del desarrollo independiente de varios modelos de lenguaje, en los que muchos problemas aún no se han resuelto. Los modelos más desarrollados son el análisis morfológico y la síntesis. Los modelos de sintaxis aún no han alcanzado el nivel de módulos de trabajo estables y eficientes, a pesar de la gran cantidad de formalismos y métodos propuestos. Los modelos a nivel de semántica y pragmática están aún menos estudiados y formalizados, aunque en varias aplicaciones ya se requiere el procesamiento automático del discurso. Tenga en cuenta que las herramientas ya existentes de la propia lingüística computacional, el uso del aprendizaje automático y los corpus de texto, pueden avanzar significativamente en la solución de estos problemas.

Literatura

1. Baeza-Yates, R. y Ribeiro-Neto, B. Recuperación de información moderna, Adison Wesley, 1999.

2. Bateman, J., Zock M. Generación del lenguaje natural. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Oxford University Press, 2003, página 304.

3. Biber, D., Conrad S. y Reppen D. Corpus Linguistics. Investigación de la estructura y el uso del lenguaje. Prensa de la Universidad de Cambridge, Cambridge, 1998.

4. Bolshakov, I. A., Gelbukh Lingüística putacional. Modelos, Recursos, Aplicaciones. México, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. Las matemáticas de la traducción automática estadística. // Lingüística computacional, vol. 19(2): 263-3

6. Carroll J R. Análisis. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 233-248.

7. Chomsky, N. Estructuras sintácticas. La Haya: Mouton, 1957.

8. Grishman R. Extracción de información. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 545-559.

9. Harabagiu, S., Moldovan D. Respuesta a preguntas. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 560-582.

10. Hearst, M. A. Descubrimiento automatizado de relaciones WordNet. En: Fellbaum, C. (ed.) WordNet: una base de datos léxica electrónica. MIT Press, Cambridge, 1998, páginas 131-151.

11. Hirst, G. Ontología y léxico. En.: Manual de Ontologías en Sistemas de Información. Berlín, Springer, 2003.

12. Jacquemin C., Bourigault D. Extracción de términos e indexación automática // Mitkov R. (ed.): Manual de lingüística computacional. Prensa de la Universidad de Oxford, 2003. p. 599-615.

13. Kilgarriff, A., G. Grefenstette. Introducción al número especial sobre la Web como lingüística putacional, V. 29, núm. 3, 2003, pág. 333-347.

14. Manning, cap. D., H. Schütze. Fundamentos del procesamiento estadístico del lenguaje natural. Prensa del MIT, 1999.

15. Matsumoto Y. Adquisición de conocimientos léxicos. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 395-413.

16. Manual de Oxford sobre lingüística computacional. R. Mitkov (Ed.). Prensa de la Universidad de Oxford, 2005.

17. Oakes, M., Paice C. D. Extracción de términos para resúmenes automáticos. Avances recientes en terminología computacional. D. Bourigault, C. Jacquemin y M. L'Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.

18. Pedersen, T. Un árbol de decisión de bigramas es un predictor preciso de los sentidos de las palabras. Proc. Segunda reunión anual de NAC ACL, Pittsburgh, PA, 2001, p. 79-86.

19. Samuelsson C. Métodos estadísticos. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 358-375.

20. Salton, G. Procesamiento automático de textos: transformación, análisis y recuperación de información por computadora. Lectura, MA: Addison-Wesley, 1988.

21. Somers, H. Traducción automática: últimos desarrollos. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 512-528.

22. Strzalkowski, T. (ed.) Recuperación de información en lenguaje natural. Kluwer, 19p.

23. Woods W. A. Transition Network Grammers for Natural Language Analysis/ Communications of the ACM, V. 13, 1970, N 10, p. 591-606.

24. Word Net: una base de datos léxica electrónica. / Christiane Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Sugerencia de colocación automática en redacción académica // Actas de los artículos breves de la conferencia ACL 2010, 2010.

26. y otros. Soporte lingüístico del sistema ETAP-2. M.: Nauka, 1989.

27. etc. Tecnologías de análisis de datos: Minería de datos, Minería visual, Minería de textos, OLAP – 2ª ed. – San Petersburgo: BHV-Petersburgo, 2008.

28. Bolshakov, Lexika: un gran diccionario electrónico de combinaciones y conexiones semánticas de palabras rusas. //Comp. Lingüística e inteligencia. tecnología: Actas int. Conf. "Diálogo 2009". Edición: Universidad Estatal Rusa de Humanidades, 2009, págs. 45-50.

29. Bolshakova E.I., Detección de Bolshakov y corrección automatizada de malapropismos rusos // NTI. Ser. 2, núm. 5, 2007, págs. 27-40.

30. Wang, Kinch V. Estrategia para comprender un texto conectado // Novedades en lingüística extranjera. vol. XXIII– M., Progreso, 1988, p. 153-211.

31. Vasiliev V. G., Krivenko M. P. Métodos de procesamiento de texto automatizado. – M.: IPI RAS, 2008.

32. Vinograd T. Un programa que comprende el lenguaje natural - M., Mir, 1976.

33. Estructuras fluidas del lenguaje natural en sistemas de comunicación automatizados. – M., Nauka, 1985.

34. Gusev, V. D., Diccionario de parónimos de Salomatina: versión 2. // NTI, Ser. 2, núm. 7, 2001, pág. 26-33.

35. Zakharov: el espacio como corpus lingüístico // Lingüística informática y tecnologías intelectuales: Actas de la Internacional. Conferencia Diálogo ‘2005 / Ed. , – M.: Nauka, 2005, pág. 166-171.

36. Kasevich de lingüística general. - M., Nauka, 1977.

37. Comprensión de textos de Leontief: Sistemas, modelos, recursos: Libro de texto - M.: Academia, 2006.

38. Diccionario enciclopédico lingüístico / Ed. V. N. Yartseva, M.: Enciclopedia soviética, 1990, 685 p.

39. , Salium para indexación y categorización automática: desarrollo, estructura, mantenimiento. // NTI, ser. 2, núm. 1, 1996.

40. Luger J. Inteligencia artificial: estrategias y métodos para resolver problemas complejos. M., 2005.

41. McQueen K. Estrategias discursivas para la síntesis de textos en lenguaje natural // Novedades en lingüística extranjera. vol. XXIV. M.: Progreso, 1989, págs. 311-356.

42. Teoría Melchuk de los modelos lingüísticos “SIGNIFICADO “TEXTO”. - M., Nauka, 1974.

43. Corpus Nacional de la Lengua Rusa. http://******

44. Khoroshevsky V. F. OntosMiner: una familia de sistemas para extraer información de colecciones de documentos multilingües // Novena Conferencia Nacional sobre Inteligencia Artificial con participación internacional KII-2004. T. 2. – M.: Fizmatlit, 2004, p.573-581.

Materiales populares

Formas de protegerse de la influencia de un vampiro energético.
Akathist al Hieromártir Cipriano y Justina Akathist a la ortodoxia de Cipriano y Justina
Sopa dietética de calabacín Sopa dietética de calabacín
El significado del nombre, el secreto del nombre.
Albóndigas con repollo: recetas