Компьютерная лингвистика как прикладная лингвистическая дисциплина. Компьютерная лингвистика
КУРСОВАЯ РАБОТА
по дисциплине «Информатика»
по теме: «Компьютерная лингвистика»
ВВЕДЕНИЕ
2. Современные интерфейсы компьютерной лингвистики
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
Введение
В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.
Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.
1. Место и роль компьютерной лингвистики в лингвистических исследованиях
В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.
Компьютерная лингвистика – это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.
Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части – средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.
Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).
Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.
Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.
Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.
В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.
Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:
1. Автоматизация составления и лингвистической обработки машинных словарей;
2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;
3. Автоматическое индексирование документов и информационных запросов;
4. Автоматическая классификация и реферирование документов;
5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;
6. Машинный перевод текстов с одних естественных языков на другие;
7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;
8. Извлечение фактографической информации из неформализованных текстов.
Подробно остановимся на проблемах, наиболее относящихся к теме исследования.
В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи – задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.
Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее – в виде последовательностей наборов грамматической информации к словам).
Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов.
Проблема автоматизации индексирования документов и запросов является традиционной для систем автоматизированного поиска текстовой информации. Поначалу под индексированием понимали процесс присвоения документам и запросам классификационных индексов, отражающих их тематическое содержание. В дальнейшем это понятие трансформировалось и термином «индексирование» стали называть процесс перевода описаний документов и запросов с естественного языка на формализованный, в частности, на язык «поисковых образов». Поисковые образы документов стали, как правило, оформляться в виде перечней ключевых слов и словосочетаний, отражающих их тематическое содержание, а поисковые образы запросов – в виде логических конструкций, в которых ключевые слова и словосочетания соединялись друг с другом логическими и синтаксическими операторами.
Автоматическое индексирование документов удобно проводить по текстам их рефератов (если они имеются), поскольку в рефератах основное содержание документов отражается в концентрированном виде. Индексирование может проводиться с контролем по тезаурусу или без контроля. В первом случае в тексте заголовка документа и его реферата ищутся ключевые слова и словосочетания эталонного машинного словаря и в ПОД включаются только те из них, которые нашлись в словаре. Во втором случае ключевые слова и словосочетания выделяются из текста и включаются в ПОД независимо от их принадлежности к какому-либо эталонному словарю. Был реализован еще и третий вариант, где наряду с терминами из машинного тезауруса в ПОД включались еще и термины, выделенные из заголовка и первого предложения реферата документа. Эксперименты показали, что ПОДы, составленные в автоматическом режиме по заголовкам и рефератам документов, обеспечивают большую полноту поиска, чем ПОДы, составленные вручную. Объясняется это тем, что система автоматического индексирования более полно отражает различные аспекты содержания документов, чем система ручного индексирования.
При автоматическом индексировании запросов возникают примерно те же проблемы, что и при автоматическом индексировании документов. Здесь также приходится выделять ключевые слова и словосочетания из текста и нормализовать слова, входящие в текст запроса. Логические связки между ключевыми словами и словосочетаниями и контекстуальные операторы могут проставляться вручную или с помощью автоматизированной процедуры. Важным элементом процесса автоматического индексирования запроса является дополнение входящих в его состав ключевых слов и словосочетаний их синонимами и гипонимами (иногда также гиперонимами и другими терминами, ассоциированными с исходными терминами запроса). Это может быть сделано в автоматическом или в интерактивном режиме с помощью машинного тезауруса.
Проблему автоматизации поиска документальной информации мы уже частично рассматривали в связи с задачей автоматического индексирования. Наиболее перспективным здесь является поиск документов по их полным текстам, так как использование для этой цели всякого рода заменителей (библиографических описаний, поисковых образов документов и текстов их рефератов) приводит к потерям информации при поиске. Наибольшие потери имеют место тогда, когда в качестве заменителей первичных документов используются их библиографические описания, наименьшие – при использовании рефератов.
Важными характеристиками качества поиска информации являются его полнота и точность. Полнота поиска может быть обеспечена путем максимального учета парадигматических связей между единицами языка и речи (словами и словосочетаниями), а точность – путем учета их синтагматических связей. Существует мнение, что полнота и точность поиска находятся в обратной зависимости: меры по улучшению одной из этих характеристик приводят к ухудшению другой. Но это справедливо только для фиксированной логики поиска. Если эту логику совершенствовать, то обе характеристики могут улучшаться одновременно.
Процесс поиска информации в полнотекстовых базах данных целесообразно строить как процесс диалогового общения пользователя с информационно-поисковой системой (ИПС), при котором он последовательно просматривает фрагменты текстов (абзацы, параграфы), удовлетворяющие логическим условиям запроса, и отбирает те из них, которые для него представляют интерес. В качестве окончательных результатов поиска могут выдаваться как полные тексты документов, так и любые их фрагменты.
Как видно из предыдущих рассуждений, при автоматическом поиске информации приходится преодолевать языковый барьер, возникающий между пользователем и ИПС в связи с имеющим место в текстах разнообразием форм представления одного и того же смысла. Этот барьер становится еще более значительным, если поиск приходится вести в разноязычных базах данных. Кардинальным решением проблемы здесь может быть машинный перевод текстов документов с одних языков на другие. Это можно делать либо заранее, перед загрузкой документов в поисковую систему, либо в процессе поиска информации. В последнем случае запрос пользователя должен переводиться на язык массива документов, в котором ведется поиск, а результаты поиска – на язык запроса. Такого рода поисковые системы уже работают в системе Internet. В ВИНИТИ РАН была также построена система Cyrillic Browser, которая позволяет производить поиск информации в русскоязычных текстах по запросам на английском языке с выдачей результатов поиска также на языке пользователя.
Важной и перспективной задачей компьютерной лингвистики является построение лингвистических процессоров, обеспечивающих общение пользователей с интеллектуальными автоматизированными информационными системами (в частности с экспертными системами) на естественном языке или на языке, близком к естественному. Поскольку в современных интеллектуальных системах информация хранится в формализованном виде, то лингвистические процессоры, выполняя роль посредников между человеком и ЭВМ, должны решать следующие основные задачи: 1) задачу перехода от текстов входных информационных запросов и сообщений на естественном языке к представлению их смысла на формализованном языке (при вводе информации в ЭВМ); 2) задачу перехода от формализованного представления смысла выходных сообщений к его представлению на естественном языке (при выдаче информации человеку). Первая задача должна решаться путем морфологического, синтаксического и концептуального анализа входных запросов и сообщений, вторая – путем концептуального, синтаксического и морфологического синтеза выходных сообщений.
Концептуальный анализ информационных запросов и сообщений состоит в выявлении их понятийной структуры (границ наименований понятий и отношений между понятиями в тексте) и переводе этой структуры на формализованный язык. Он проводится после морфологического и синтаксического анализа запросов и сообщений. Концептуальный синтез сообщений состоит в переходе от представления элементов их структуры на формализованном языке к вербальному (словесному) представлению. После этого сообщениям дается необходимое синтаксическое и морфологическое оформление.
Для машинного перевода текстов с одних естественных языков на другие необходимо располагать словарями переводных соответствий между наименованиями понятий. Знания о таких переводных соответствиях накапливались многими поколениями людей и оформлялись в виде специальных изданий – двуязычных или многоязычных словарей. Для специалистов, владеющих в той или иной мере иностранными языками, эти словари служили ценными пособиями при переводе текстов.
В традиционных двуязычных и многоязычных словарях общего назначения переводные эквиваленты указывались преимущественно для отдельных слов, для словосочетаний – значительно реже. Указание переводных эквивалентов для словосочетаний было более характерно для специальных терминологических словарей. Поэтому при переводе отрезков текстов, содержащих многозначные слова, у обучаемых часто возникали затруднения.
Ниже приведены переводные соответствия между несколькими парами английских и русских фраз по «школьной» тематике.
1) The bat looks like a mouse with wings – Летучая мышь похожа на мышь с крыльями.
2) Children like to play in the sand on the beach – Дети любят играть в песке на берегу моря.
3) A drop of rain fell on my hand – Капля дождя упала мне на руку.
4) Dry wood burns easily – сухие дрова хорошо горят.
5) He pretended not to hear me – Он делал вид, что не слышит меня.
Здесь английские фразы не являются идиоматическими выражениями. Тем не менее, их перевод на русский язык лишь с некоторой натяжкой можно рассматривать как простой пословный перевод, так как почти все входящие в них слова многозначные. Поэтому здесь обучаемым способны помочь только достижения компьютерной лингвистики.
В Институте лингвистики РГГУ с 2012 года осуществляется подготовка магистров по программе магистратуры Компьютерная лингвистика (направление Фундаментальная и прикладная лингвистика ). Эта программа предназначена для подготовки профессиональных лингвистов , владеющих как основами языкознания, так и современными методами научно-исследовательской, экспертно-аналитической, инженерной работы и способных эффективно участвовать в разработке инновационных языковых компьютерных технологий.
В образовательном процессе участвуют разработчики крупных исследовательских и коммерческих систем в области автоматической обработки текста, что обеспечивает связь обучения магистров с мейнстримом современной компьютерной лингвистики. Особое внимание уделяется участию магистров в российских и международных конференциях.
Среди преподавателей авторы базовых учебников по лингвистическим специальностям, специалисты мирового уровня, руководители проектов крупных систем автоматической обработки языка: Я.Г. Тестелец, И.М. Богуславский, В.И. Беликов, В.И. Подлесская, В.П. Селегей, Л.Л. Иомдин, А.С. Старостин, С.А. Шаров, а также сотрудники компаний, являющихся мировыми лидерами в области компьютерной лингвистики: IBM (система Watson), Яндекс, ABBYY (системы Lingvo, FineReader, Compreno).
Основой подготовки магистров по данной программе является проектный подход. Привлечение магистрантов к научно-исследовательской работе в области компьютерной лингвистики происходит на базе РГГУ и на базе компаний, занимающихся разработкой программ в области АОТ (ABBYY, IBM и др.), что, безусловно, является большим плюсом как для самих магистров, так и для их возможных работодателей. В частности, осуществляется приём в магистратуру целевых магистров, обучение которых обеспечивается будущими работодателями.
Вступительные испытания : "Формальные модели и методы современной лингвистики". Точную информацию о времени экзамена можно получить на сайте отдела магистратуры РГГУ .
Руководители магистратуры - зав. Учебно-научным центром компьютерной лингвистики, директор по лингвистическим исследованиям компании ABBYY Владимир Павлович Селегей и д.ф.н., профессор Вера Исааковна Подлесская .
Программа вступительного экзамена и собеседования по дисциплине «Формальные модели и методы современной лингвистики».
Комментарии к программе
- Любой вопрос программы может сопровождаться задачами, связанными с описаниями конкретных языковых явлений, относящихся к разделу вопроса: построению структур, описанию ограничений, возможным алгоритмам построения и/или идентификации.
- Вопросы, отмеченные звездочками, являются факультативными (в билетах стоят под №3). Владение соответствующим материалом является серьезным бонусом для кандидатов, но не обязательно.
- Помимо теоретических вопросов в билетах на экзамене будет предложен небольшой фрагмент специального (лингвистического) текста на английском языке – для перевода и обсуждения. От поступающих требуется продемонстрировать удовлетворительный уровень владения англоязычной научной терминологией и навыками анализа научного текста. В качестве примера текста, который не должен вызвать у поступающего серьезных трудностей, ниже приводится фрагмент статьи https://en.wikipedia.org/wiki/Anaphora_(linguistics) :
In linguistics, anaphora (/əˈnæfərə/) is the use of an expression whose interpretation depends upon another expression in context (its antecedent or postcedent). In a narrower sense, anaphora is the use of an expression that depends specifically upon an antecedent expression and thus is contrasted with cataphora, which is the use of an expression that depends upon a postcedent expression. The anaphoric (referring) term is called an anaphor. For example, in the sentence Sally arrived, but nobody saw her, the pronoun her is an anaphor, referring back to the antecedent Sally. In the sentence Before her arrival, nobody saw Sally, the pronoun her refers forward to the postcedent Sally, so her is now a cataphor (and an anaphor in the broader, but not the narrower, sense). Usually, an anaphoric expression is a proform or some other kind of deictic (contextually-dependent) expression. Both anaphora and cataphora are species of endophora, referring to something mentioned elsewhere in a dialog or text.
Anaphora is an important concept for different reasons and on different levels: first, anaphora indicates how discourse is constructed and maintained; second, anaphora binds different syntactical elements together at the level of the sentence; third, anaphora presents a challenge to natural language processing in computational linguistics, since the identification of the reference can be difficult; and fourth, anaphora tells some things about how language is understood and processed, which is relevant to fields of linguistics interested in cognitive psychology.
ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ
ОБЩИЕ ВОПРОСЫ ЯЗЫКОЗНАНИЯ
- Объект лингвистики. Язык и речь. Синхрония и диахрония.
- Уровни языка. Формальные модели уровней языка.
- Синтагматика и парадигматика. Понятие дистрибуции.
- Основания межъязыковых сравнений: типологическая, генеалогическая и ареальная лингвистика.
- *Математическая лингвистика: объект и методы исследований
ФОНЕТИКА
- Предмет фонетики. Артикуляционная и акустическая фонетика.
- Сегментная и супрасегментная фонетика. Просодия и интонация.
- Основные понятия фонологии. Типология фонологических систем и их фонетических реализаций.
- *Компьютерные инструменты и методы фонетических исследований
- *Анализ и синтез речи.
МОРФОЛОГИЯ
- Предмет морфологии. Морфы, морфемы, алломорфы.
- Словоизменение и словообразование.
- Грамматические значения и способы их реализации. Грамматические категории и граммемы. Морфологические и синтаксические грамматические значения.
- Понятия словоформы, основы, леммы и парадигмы.
- Части речи; основные подходы к выделению частей речи.
- *Формальные модели описания словоизменения и словообразования.
- *Морфология в задачах автоматической обработки языка: проверка орфографии, лемматизация, POS-tagging
СИНТАКСИС
- Предмет синтаксиса. Способы выражения синтаксических отношений.
- Способы представления синтаксической структуры предложения. Достоинства и недостатки деревьев зависимостей и составляющих.
- Способы описания линейного порядка. Непроективность и разрыв составляющих. Понятие трансформации; трансформации, связанные с линейным порядком.
- Связь между синтаксисом и семантикой: валентности, модели управления, актанты и сирконстанты.
- Диатеза и залог. Актантная деривация.
- Коммуникативная организация высказывания. Тема и рема, данное и новое, контрастивность.
- *Основные синтаксичеcкие теории: МСТ, генеративизм, функциональная грамматика, HPSG
- *Математические модели синтаксиса: классификация формальных языков по Хомскому, алгоритмы распознавания и их сложность.
СЕМАНТИКА
- Предмет семантики. Наивная и научная языковые картины мира. Гипотеза Сепира – Уорфа.
- Значение в языке и речи: смысл и референт. Тип референции (денотативный статус).
- Лексическая семантика. Способы описания семантики слова.
- Грамматическая семантика. Основные категории на примере русского языка.
- Семантика предложения. Пропозициональный компонент. Дейксис и анафора. Кванторы и связки. Модальность.
- Иерархия и системность лексических значений. Полисемия и омонимия. Семантическая структура многозначного слова. Понятия инварианта и прототипа.
- Парадигматические и синтагматические отношения в лексике. Лексические функции.
- Толкование. Язык толкований. Московская семантическая школа
- Семантика и логика. Истинностное значение высказывания.
- Теория речевых актов. Высказывание и его иллокутивная сила. Перформативы. Классификация речевых актов.
- Фразеология: инвентарь и способы описания фразеологических единиц.
- *Модели и методы формальной семантики.
- *Модели семантики в современной компьютерной лингвистике.
- *Дистрибутивная и операциональная семантики.
- *Основные идеи грамматики конструкций.
ТИПОЛОГИЯ
- Традиционные типологические классификации языков.
- Типология грамматических категорий имени и глагола.
- Типология простого предложения. Основные типы конструкций: аккузативная, эргативная, активная.
- Типология порядка слов и гринберговские корреляции. Лево- и правоветвящиеся языки.
ЛЕКСИКОГРАФИЯ
- Лексика как инвентарь культуры; социальное варьирование лексики, лексические узус, норма, кодификация.
- Типология словарей (на русском материале). Отражение лексики в словарях различных типов.
- Двуязычная лексикография с привлечением русского языка.
- Дескриптивная и прескриптивная лексикография. Профессиональные лингвистические словари.
- Специфика основных русских толковых словарей. Структура словарной статьи. Толкование и энциклопедическая информация.
- Лексика и грамматика. Представление об интегральной модели языка в Московской семантической школе.
- *Методика работы лексикографа.
- *Корпусные методы в лексикографии.
ЛИНГВИСТИКА ТЕКСТА И ДИСКУРС
- Понятие текста и дискурса.
- Механизмы межфразовой связи. Основные разновидности средств их языковой реализации.
- Предложение как единица языка и как элемент текста.
- Сверхфразовые единства, принципы их формирования и выделения, основные свойства.
- Основные категории классификации текстов (жанр, стиль, регистр, предметная область и т.д)
- *Методы автоматической жанровой классфикации.
СОЦИОЛИНГВИСТИКА
- Проблема предмета и границ социолингвистики, ее междисциплинарный характер. Основные понятия социологии и демографии. Уровни языковой структуры и социолингвистика. Основные понятия и направления социолингвистики.
- Языковые контакты. Билингвизм и диглоссия. Дивергентные и конвергентные процессы в истории языка.
- Социальная дифференциация языка. Формы существования языка. Литературный язык: узус-норма-кодификация. Функциональные сферы языка.
- Языковая социализация. Иерархический характер социальной и языковой идентичности. Языковое поведение индивида и его коммуникативный репертуар.
- Методы социолингвистических исследований.
КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА
- Задачи и методы компьютерной лингвистики.
- Корпусная лингвистика. Основные характеристики корпуса.
- Представление знаний. Основные идеи теории фреймов М. Минского. Система FrameNet.
- Тезаурусы и онтологии. WordNet.
- Основы статистического анализа текстов. Частотные словари. Анализ коллокаций.
- *Понятие машинного обучения.
ЛИТЕРАТУРА
Учебная (базовый уровень)
Баранов А.Н. Введение в прикладную лингвистику. М.: Едиториал УРРС, 2001.
Баранов А.Н., Добровольский Д.О. Основы фразеологии (краткий курс) Учебное пособие. 2-е издание. Москва: Флинта, 2014.
Беликов В.А., Крысин Л.П. Социолингвистика. М., РГГУ, 2001.
Бурлак С.А., Старостин С.А. Сравнительно-историческое языкознание. М.: Академия. 2005
Вахтин Н.Б., Головко Е.В.. Социолингвистика и социология языка. СПб., 2004.
Князев С. В., Пожарицкая С. К. Современный русский литературный язык: Фонетика, графика, орфография, орфоэпия. 2 изд. М., 2010
Кобозева И.М. Лингвистическая семантика. М.: Едиториал УРСС. 2004.
Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М.: РГГУ, 2001.
Кронгауз М.А. Семантика. М.: РГГУ. 2001.
Кронгауз М.А. Семантика: Задачи, задания, тексты. М.: Академия. 2006..
Маслов Ю.С. Ведение в языкознание. Изд. 6-е, стер. М.: Академия, фил. фак. СПбГУ,
Плунгян В.А. Общая морфология: Введение в проблематику. Изд. 2-е. М.: Едиториал УРСС, 2003.
Тестелец Я.Г. Введение в общий синтаксис. М., 2001.
Шайкевич А.Я. Введение в лингвистику. М.: Академия. 2005.
Научная и справочная
Апресян Ю.Д. Избранные труды, том I. Лексическая семантика: 2-е изд., исп. и доп. М.: Школа "Языки русской культуры", 1995.
Апресян Ю.Д. Избранные труды, том II. Интегральное описание языка и системная лексикография. М.: Школа "Языки русской культуры", 1995.
Апресян Ю.Д. (ред.) Новый объяснительный словарь синонимов русского языка. Москва - Вена: "Языки русской культуры", Wiener Slavistischer Almanach, Sonderband 60, 2004.
Апресян Ю.Д. (ред.) Языковая картина мира и системная лексикография (отв. ред. Ю. Д. Апресян). М.: "Языки славянских культур", 2006, Предисловие и гл. 1, с.26 -- 74.
Булыгина Т.В., Шмелев А.Д. Языковая концептуализация мира (на материале русской грамматики). М.: Школа "Языки русской культуры", 1997.
Вайнрайх У. Языковые контакты. Киев, 1983.
Вежбицкая А. Семантические универсалии и описание языков. М.: Школа "Языки русской культуры". 1999.
Гальперин И.Р. Текст как объект лингвистического исследования. 6-е изд. М.: ЛКИ, 2008 ("Лингвистическое наследие XX века")
Зализняк А.А. “Русское именное словоизменение” с приложением избранных работ по современному русскому языку и общему языкознанию. М.: Языки славянской культуры, 2002.
Зализняк А.А., Падучева Е.В. К типологии относительного предложения. / Семиотика и информатика, вып. 35. М., 1997, с. 59-107.
Иванов Вяч. Вс.. Лингвистика третьего тысячелетия. Вопросы к будущему. М., 2004. С. 89-100 (11. Языковая ситуация мира и прогноз на ближайшее будущее).
Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. М.: Изд-во МГУ, 1992.
Кибрик А.Е. Константы и переменные языка. СПб: Алетейя, 2003.
Лабов У. О механизме языковых изменений // Новое в лингвистике. Вып.7. М., 1975. С.320-335.
Лайонз Дж. Лингвистическая семантика: Введение. М.: Языки славянской культуры. 2003.
Лайонс Джон. Язык и лингвистика. Вводный курс. М: УРСС, 2004
Лакофф Дж. Женщины, огонь и опасные вещи: Что категории языка говорят нам о мышлении. М.: Языки славянской культуры. 2004.
Лакофф Дж., Джонсон М . Метафоры, которыми мы живем. Пер. с англ. Изд.2. М.: УРСС. 2008.
Лингвистический энциклопедический словарь / Под ред. В.И. Ярцевой. М.: Научное изд-во «Большая российская энциклопедия», 2002.
Мельчук И.А. Курс общей морфологии. Тт. I-IV. Москва-Вена: "Языки славянской культуры", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.
Мельчук И. А. Опыт теории лингвистических моделей «СМЫСЛ ↔ ТЕКСТ». М.: Школа "Языки русской культуры", 1999.
Фёдорова Л.Л. Семиотика. М., 2004.
Филиппов К. А. Лингвистика текста: Курс лекций - 2-е изд., исп. и доп. Изд. С.-Петерб. ун-та, 2007.
Haspelmath, M., et al . (eds.). World Atlas of Language Structures. Oxford, 2005.
Dryer, M.S. and Haspelmath, M. (eds.) The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology, 2013. (http://wals.info)
Croft W. Typology and Universals. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.) . Language Typology and Syntactic Description. 2nd edition. Cambridge, 2007.
В. И. Беликов. О словарях, «содержащих нормы современного русского литературного языка при его использовании в качестве государственного языка Российской Федерации». 2010 // Портал Грамота.Ру (http://gramota.ru/biblio/research/slovari-norm)
Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 1-11. - М.: Изд-во Наука, из-во РГГУ, 2002-2012. (Статьи по компьютерной лингвистике, http://www.dialog-21.ru) .
Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. / Отв. ред. В. А. Плунгян. - СПб.: Нестор-История, 2009.
Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика / Сост. Б. Ю. Городецкий. М.: Прогресс, 1989.
Шимчук Э. Г. Русская лексикография: Учебное пособие. М.: Академия, 2009.
Национальный корпус русского языка: 2003-2005. Сборник статей. М.: Индрик, 2005.
Для контактов:
Учебно-научный центр компьютерной лингвистики Института лингвистики РГГУ
Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика , англ. computational linguistics ) - научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта , которое ставит своей целью использование математических моделей для описания естественных языков .
Компьютерная лингвистика частично пересекается с обработкой естественных языков . Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.
Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.
Истоки
Математическая лингвистика является ветвью науки искусственного интеллекта . Её история началась в Соединённых Штатах Америки в 1950-х годах. С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом , особенно русских научных журналов. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор сильно уступает качеству перевода, произведённого человеком.
С 15 по 21 мая 1958 года в I МГПИИЯ состоялась первая Всесоюзная конференция по машинному переводу. Оргкомитет возглавляли В. Ю. Розенцвейг и ответственный секретарь Оргкомитета Г. В. Чернов . Полностью программа конференции опубликована в сборнике «Машинный перевод и прикладная лингвистика», вып. 1, 1959 г. (он же «Бюллетень Объединения по машинному переводу № 8»). Как вспоминает В. Ю. Розенцвейг , опубликованный сборник тезисов конференции попал в США и произвел там большое впечатление.
В апреле 1959 года в Ленинграде состоялось I Всесоюзное совещание по математической лингвистике, созванное Ленинградским университетом и комитетом прикладной лингвистики. Главным организатором Совещания был Н. Д. Андреев . В Совещании приняли участие ряд видных математиков, в частности, С. Л. Соболев , Л. В. Канторович (впоследствии - Нобелевский лауреат) и А. А. Марков (последние двое выступали в прениях). В. Ю. Розенцвейг выступил в день открытия Совещания с программным докладом «Общая лингвистическая теория перевода и математическая лингвистика».
Направления компьютерной лингвистики
- Обработка естественного языка (англ. natural language processing ; синтаксический, морфологический, семантический анализы текста). Сюда включают также:
- Корпусная лингвистика , создание и использование электронных корпусов текстов
- Создание электронных словарей , тезаурусов , онтологий . Например, Lingvo . Словари используют, например, для автоматического перевода, проверки орфографии.
- Автоматический перевод текстов. Среди русских переводчиков популярным является Промт . Среди бесплатных известен переводчик Google Translate
- Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact extraction, text mining )
- Автореферирование (англ. automatic text summarization ). Эта функция включена, например, в Microsoft Word .
- Построение систем управления знаниями . См. Экспертные системы
- Создание вопросно-ответных систем (англ. question answering systems ).
- Оптическое распознавание символов (англ. OCR ). Например, программа FineReader
- Автоматическое распознавание речи (англ. ASR ). Есть платное и бесплатное ПО
- Автоматический синтез речи
Крупные ассоциации и конференции
Учебные программы в России
См. также
Напишите отзыв о статье "Компьютерная лингвистика"
Примечания
Ссылки
- (реферат)
- - база знаний по лингвистическим ресурсам для русского языка
- - открытые исходники некоторых утилит компьютерной лингвистики
- - онлайн доступ к программам компьютерной лингвистики
Отрывок, характеризующий Компьютерная лингвистика
– Возьми, возьми ребенка, – проговорил Пьер, подавая девочку и повелительно и поспешно обращаясь к бабе. – Ты отдай им, отдай! – закричал он почти на бабу, сажая закричавшую девочку на землю, и опять оглянулся на французов и на армянское семейство. Старик уже сидел босой. Маленький француз снял с него последний сапог и похлопывал сапогами один о другой. Старик, всхлипывая, говорил что то, но Пьер только мельком видел это; все внимание его было обращено на француза в капоте, который в это время, медлительно раскачиваясь, подвинулся к молодой женщине и, вынув руки из карманов, взялся за ее шею.Красавица армянка продолжала сидеть в том же неподвижном положении, с опущенными длинными ресницами, и как будто не видала и не чувствовала того, что делал с нею солдат.
Пока Пьер пробежал те несколько шагов, которые отделяли его от французов, длинный мародер в капоте уж рвал с шеи армянки ожерелье, которое было на ней, и молодая женщина, хватаясь руками за шею, кричала пронзительным голосом.
– Laissez cette femme! [Оставьте эту женщину!] – бешеным голосом прохрипел Пьер, схватывая длинного, сутоловатого солдата за плечи и отбрасывая его. Солдат упал, приподнялся и побежал прочь. Но товарищ его, бросив сапоги, вынул тесак и грозно надвинулся на Пьера.
– Voyons, pas de betises! [Ну, ну! Не дури!] – крикнул он.
Пьер был в том восторге бешенства, в котором он ничего не помнил и в котором силы его удесятерялись. Он бросился на босого француза и, прежде чем тот успел вынуть свой тесак, уже сбил его с ног и молотил по нем кулаками. Послышался одобрительный крик окружавшей толпы, в то же время из за угла показался конный разъезд французских уланов. Уланы рысью подъехали к Пьеру и французу и окружили их. Пьер ничего не помнил из того, что было дальше. Он помнил, что он бил кого то, его били и что под конец он почувствовал, что руки его связаны, что толпа французских солдат стоит вокруг него и обыскивает его платье.
– Il a un poignard, lieutenant, [Поручик, у него кинжал,] – были первые слова, которые понял Пьер.
– Ah, une arme! [А, оружие!] – сказал офицер и обратился к босому солдату, который был взят с Пьером.
– C"est bon, vous direz tout cela au conseil de guerre, [Хорошо, хорошо, на суде все расскажешь,] – сказал офицер. И вслед за тем повернулся к Пьеру: – Parlez vous francais vous? [Говоришь ли по французски?]
Пьер оглядывался вокруг себя налившимися кровью глазами и не отвечал. Вероятно, лицо его показалось очень страшно, потому что офицер что то шепотом сказал, и еще четыре улана отделились от команды и стали по обеим сторонам Пьера.
– Parlez vous francais? – повторил ему вопрос офицер, держась вдали от него. – Faites venir l"interprete. [Позовите переводчика.] – Из за рядов выехал маленький человечек в штатском русском платье. Пьер по одеянию и говору его тотчас же узнал в нем француза одного из московских магазинов.
– Il n"a pas l"air d"un homme du peuple, [Он не похож на простолюдина,] – сказал переводчик, оглядев Пьера.
– Oh, oh! ca m"a bien l"air d"un des incendiaires, – смазал офицер. – Demandez lui ce qu"il est? [О, о! он очень похож на поджигателя. Спросите его, кто он?] – прибавил он.
– Ти кто? – спросил переводчик. – Ти должно отвечать начальство, – сказал он.
– Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Я не скажу вам, кто я. Я ваш пленный. Уводите меня,] – вдруг по французски сказал Пьер.
– Ah, Ah! – проговорил офицер, нахмурившись. – Marchons!
Около улан собралась толпа. Ближе всех к Пьеру стояла рябая баба с девочкою; когда объезд тронулся, она подвинулась вперед.
– Куда же это ведут тебя, голубчик ты мой? – сказала она. – Девочку то, девочку то куда я дену, коли она не ихняя! – говорила баба.
– Qu"est ce qu"elle veut cette femme? [Чего ей нужно?] – спросил офицер.
Пьер был как пьяный. Восторженное состояние его еще усилилось при виде девочки, которую он спас.
– Ce qu"elle dit? – проговорил он. – Elle m"apporte ma fille que je viens de sauver des flammes, – проговорил он. – Adieu! [Чего ей нужно? Она несет дочь мою, которую я спас из огня. Прощай!] – и он, сам не зная, как вырвалась у него эта бесцельная ложь, решительным, торжественным шагом пошел между французами.
Разъезд французов был один из тех, которые были посланы по распоряжению Дюронеля по разным улицам Москвы для пресечения мародерства и в особенности для поимки поджигателей, которые, по общему, в тот день проявившемуся, мнению у французов высших чинов, были причиною пожаров. Объехав несколько улиц, разъезд забрал еще человек пять подозрительных русских, одного лавочника, двух семинаристов, мужика и дворового человека и нескольких мародеров. Но из всех подозрительных людей подозрительнее всех казался Пьер. Когда их всех привели на ночлег в большой дом на Зубовском валу, в котором была учреждена гауптвахта, то Пьера под строгим караулом поместили отдельно.
В Петербурге в это время в высших кругах, с большим жаром чем когда нибудь, шла сложная борьба партий Румянцева, французов, Марии Феодоровны, цесаревича и других, заглушаемая, как всегда, трубением придворных трутней. Но спокойная, роскошная, озабоченная только призраками, отражениями жизни, петербургская жизнь шла по старому; и из за хода этой жизни надо было делать большие усилия, чтобы сознавать опасность и то трудное положение, в котором находился русский народ. Те же были выходы, балы, тот же французский театр, те же интересы дворов, те же интересы службы и интриги. Только в самых высших кругах делались усилия для того, чтобы напоминать трудность настоящего положения. Рассказывалось шепотом о том, как противоположно одна другой поступили, в столь трудных обстоятельствах, обе императрицы. Императрица Мария Феодоровна, озабоченная благосостоянием подведомственных ей богоугодных и воспитательных учреждений, сделала распоряжение об отправке всех институтов в Казань, и вещи этих заведений уже были уложены. Императрица же Елизавета Алексеевна на вопрос о том, какие ей угодно сделать распоряжения, с свойственным ей русским патриотизмом изволила ответить, что о государственных учреждениях она не может делать распоряжений, так как это касается государя; о том же, что лично зависит от нее, она изволила сказать, что она последняя выедет из Петербурга.
Лингвистическая информатика является частью теории информационного обслуживания. Теория информационного обслуживания возникла в связи с компьютеризацией речи, то есть в связи с применением ЭВМ как средства записи, учета и хранения языковой информации. Благодаря технике удалось совместить функции библиотеки, архива и канцелярии.
Большие классы текстов обрабатываются путем автоматического реферирования. Непрерывно растущий объем научно-технической информации, поиск которой становится все более трудоемким, вызвал идею вести поиск по так называемым вторичным текстам, представляющим собой свернутую информацию первичного документа: библиографическое описание, аннотация, реферат, научный перевод.
Свертывание первичного текста осуществляется путем его сжатия, компрессии. Разработаны специальные методы свертывания первичного текста:
а) статистико-дистрибутивные методы заключаются в том, что выделяются наиболее информативные предложения, в которых сосредоточены наиболее значимые для данного текста языковые знаки;
б) методы использования смысловых индикаторов, когда отмечаются наиболее содержательные «точки» текста - предмет исследования, цель, методы, актуальность, область применения, выводы, результаты); в) метод текстовых связей, который заключаются в том, что учет межфразовых связей делает реферат целостным.
3. Практическое терминоведение.
Практическое терминоведение включает разделы:
а) лексикографическая терминология, которая занимается теорией и практикой создания специальных словарей, унификацией терминосистем, переводом терминов, созданием терминологических банков данных, автоматизацией их хранения и обработки.
б) предметом прикладной лингвистики стала и сама лексикография как один из самых трудоемких видов практического языковедения. Словари создаются десятилетиями. Поэтому вполне объяснимо стремление ученых автоматизировать лексикографическую деятельность. Появились автоматические словари. Их предназначение - повысить производительность труда при работе с текстами, по сбору, хранению и обработке различных единиц языка. Словари такого типа используются в системах автоматической переработки текстов.
Автоматический перевод.
В основе автоматического, или машинного, перевода лежит предположение о возможности приведения в соответствие типологически разных языковых структур (словаря, порядка слов, словоизменения, синтаксических структур). Лингвистический принцип перевода заключается в сопоставлении эквивалентных по смыслу языковых единиц двух и более языков.
В разработках систем автоматического перевода выделяют два этапа. На первом этапе решались такие фундаментальные проблемы машинного перевода, как создание автоматических словарей, разработка языка- посредника, формализация грамматики, преодоление омонимии, обработка идиоматических образований. На втором этапе продолжают достаточно плодотворно развиваться и воплощаться в практике теоретико-множественные модели грамматик, модели грамматик зависимостей, непосредственно составляющих, моделей порождающей грамматики. В этот период все более активно в прикладную лингвистику вовлекается семантика по модели «смысл - текст». Возникшие в отечественных и зарубежных университетах центры прикладной лингвистики разрабатывают стратегии машинного перевода. К ним относятся лаборатория математической лингвистики в Санкт-Петербургском университете, в Институте прикладной математики РАН; Всесоюзный центр перевода; группа «Статистика речи» в Ленинградском пединституте под руководством Раймонда Генриховича Пиотровского; группа по исследованию синтаксического моделирования «смысл - текст» под руководством Игоря Александровича Мельчука.
Новый этап совершенствования машинного перевода связан с использованием языка-посредника - языка представления знаний. В его основе лежит анализ значения предложения, получаемого при осмыслении входного предложения, дополненного и размеченного с помощью информации из базы знаний и в ее терминах. Процесс перевода представляет собой преобразование входного предложения языка X в выходную структуру языка У. Иными словами, результатом машинного перевода является скорее не собственно перевод, а пересказ исходного текста (X). Качество перевода зависит от эффективности языка представления знаний. Высокое качество машинного перевода может быть обеспечено только созданием надежных лингвистических основ и программных средств для построения мощных семантических сетей на основе автоматизированных лексиконов.
IV. Этнолингвистика.
Этнолингвистика (этносемантика, антрополингвистика) – это область языкознания, изучающая язык в его взаимоотношении с культурой определенного этноса. Основы этнолингвистики были заложены в работах Франца Боаса и Эдварда Сепира в первой четверти 20 века. Во второй половине 20 в. этнолингвистика оформилась в самостоятельный раздел языкознания. Этнолингвистические исследования второй половины 20 в. характеризуются такими чертами, как: привлечение методов экспериментальной психологии; сопоставление семантических моделей разных языков; изучение проблем народной таксономии; паралингвистические исследования; реконструкция духовной этнической культуры на основе данных языка; оживление внимания к фольклористике.
Центральными для этнолингвистики являются две тесно взаимосвязанных проблемы, которые можно назвать «когнитивной» и «коммуникативной»:
1. Каким образом, с помощью каких средств и в какой форме в языке находят отражение культурные (бытовые, религиозные, социальные и пр.) представления народа, говорящего на этом языке, об окружающем мире и о месте человека в этом мире?
2. Какие формы и средства общения – в первую очередь, языкового общения – являются специфическими для данной этнической или социальной группы?
В соответствии с этими проблемами в этнолинвистике выделились два направления: когнитивно ориентированная этнолингвистика и коммуникативно ориентированная лингвистика.
а) Когнитивно ориентированная этнолингвистика.
Когнитивно ориентированная этнолингвистика характерна для американского языкознания. Она называется антропологической лингвистикой. Первоначально антропологическая лингвистика была ориентирована на изучение культуры народов, резко отличающихся от европейских, прежде всего – американских индейцев. Установление родственных связей между этими языками и описание их современного состояния подчинялись задаче комплексного описания культуры этих народов и реконструкции их истории, в том числе путей миграции. Запись и интерпретация бытовых и фольклорных текстов была неотъемлемым компонентом антропологического описания.
Вслед за Францем Боасом в антропологической лингвистике считается, что более дробные фрагменты классификации действительности в языке соответствуют более важным аспектам данной культуры. Как замечает американский лингвист и антрополог Гарри Хойер, «народы, живущие охотой и собирательством, как, например, племена апачей на юго-западе Америки, обладают обширным словарем названий животных и растений, а также явлений окружающего мира. Народы же, основным источником существования которых является рыбная ловля (в частности, индейцы северного побережья Тихого океана), имеют в своем словаре детальный набор названий рыб, а также орудий и приемов рыбной ловли».
Наибольшее внимание этнолингвистов привлекали такие таксономические системы, как обозначения частей тела, термины родства, так называемые этно-биологические классификации, то есть названия растений и животных (английский ученый Б.Берлин, Анна Вежбицкая), – и особенно цветообозначения (Б.Берлин и П.Кей, А.Вежбицкая).
В современной антропологической этнолингвистике можно условно выделить «релятивистское» и «универсалистское» направления: для первого приоритетным является изучение культурной и языковой специфики в картине мира говорящего, для второго – поиск универсальных свойств лексики и грамматики естественных языков.
Примером исследований релятивистского направления в этнолингвистике могут служить работы Юрия Дерениковича Апресяна, Нины Давидовны Арутюновой, Анны Вежбицкой, Татьяны Вячеславовны Булыгиной, Алексея Дмитриевича Шмелева, Е.С.Яковлевой, посвященные особенностям русской языковой картины мира. Эти авторы анализируют значение и употребление слов, которые либо обозначают уникальные понятия, не характерные для концептуализации мира в других языках (тоска и удаль, авось и небось), либо соответствуют понятиям, существующим и в других культурах, но особенно значимым именно для русской культуры или получающим особую интерпретацию (истина и правда, свобода и воля, судьба и доля). Приведем для примера фрагмент описания слова «авось» из книги Т.В.Булыгиной и А.Д.Шмелева «Языковая концептуализация мира»:
«<...> авось значит вовсе не то же, что просто „возможно“ или „может быть“. <...> чаще всего авось используется как своего рода оправдание беспечности, когда речь идет о надежде не столько на то, что случится некоторое благоприятное событие, сколько на то, что удастся избежать какого-то крайне нежелательного последствия. О человеке, который покупает лотерейный билет, не скажут, что он действует на авось. Так, скорее, можно сказать о человеке, который <...> экономит деньги, не покупая медицинской страховки, и надеется, что ничего плохого не случится <...> Поэтому надежда на авось – не просто надежда на удачу. Если символ фортуны – рулетка, то надежду на авось может символизировать „русская рулетка“».
Примером исследований универсалистского направления в этнолингвистике являются работы польского ученого Анны Вежбицкой, посвященные принципам описания языковых значений. Цель многолетних исследований А.Вежбицкой и ее последователей – установить набор так называемых «семантических примитивов», универсальных элементарных понятий, комбинируя которые каждый язык может создавать бесконечное число специфических для данного языка и культуры конфигураций. Семантические примитивы являются лексическими универсалиями, иначе говоря, это такие элементарные понятия, для которых в любом языке найдется обозначающее их слово. Эти понятия интуитивно ясны носителю любого языка, и на их основе можно строить толкования любых сколь угодно сложных языковых единиц. Изучая материал генетически и культурно различных языков мира, в том числе языков Папуа – Новой Гвинеи, австронезийских языков, языков Африки и аборигенов Австралии, А.Вежбицкая постоянно уточняет список семантических примитивов. В ее работе «Толкование эмоциональных концептов» приводится следующий их список:
«субстантивы» – я, ты, кто-то, что-то, люди;
«детерминаторы и квантификаторы» – этот, тот же, самый, другой, один, два, много, все/весь;
«ментальные предикаты» – думать (о), говорить, знать, чувствовать, хотеть;
«действия и события» – делать, происходить/случаться;
«оценки» – хороший, плохой;
«дескрипторы» – большой, маленький;
«время и место» – когда, где, после/до, под/над;
«метапредикаты» – не/нет/отрицание, потому что/из-за, если, мочь;
«интенсификатор» – очень;
«таксономия и партономия» – вид/разновидность, часть;
«нестрогость/прототип» – подобный/как.
Из семантических примитивов, как из «кирпичиков», А.Вежбицкая складывает толкования даже таких тонких понятий, как эмоции. Так, например, ей удается продемонстрировать трудноуловимое различие между понятием американской культуры, обозначаемым словом «happy», и понятием, обозначаемым русским словом «счастливый» (и близкими ему по смыслу польским, французским и немецким прилагательными). Слово «счастливый», как пишет А.Вежбицкая, хотя и считается обычно словарным эквивалентом английского слова «happy», в русской культуре имеет более узкое значение, «обычно оно употребляется для обозначения редких состояний полного блаженства или совершенного удовлетворения, получаемого от таких серьезных вещей, как любовь, семья, смысл жизни и т.п.». Вот как формулируется это отличие на языке семантических примитивов (компоненты толкования В, отсутствующие в толковании А, выделяются заглавными буквами).
Толкование А: X feels happy
X чувствует что-то
со мной произошло что-то хорошее
я хотел этого
я не хочу ничего другого
Х чувствует что-то похожее
Толкование B: X счастлив
X чувствует что-то
иногда человек думает примерно так:
со мной произошло что-то ОЧЕНЬ хорошее
я хотел этого
ВСЕ ХОРОШО
я не МОГУ ХОТЕТЬ ничего другого
поэтому этот человек чувствует что-то хорошее
Х чувствует что-то похожее
Для исследовательской программы А.Вежбицкой принципиально, что поиск универсальных семантических примитивов осуществляется эмпирическим путем, с применением методик полевой лингвистики – работой с информантом: во-первых, в каждом отдельном языке выясняется роль, которую играет данное понятие в толковании других понятий, и, во-вторых, для каждого понятия выясняется множество языков, в которых данное понятие лексикализовано, то есть имеется специальное слово, выражающее это понятие.
Б) Коммуникативно ориентированная этнолингвистика.
Наиболее значительные результаты в коммуникативно ориентированной этнолингвистике связаны с направлением, именуемым «этнографией речи» или «этнографией коммуникации». Этнография речи как теория и метод анализа языкового употребления в социокультурном контексте была предложена в начале 60-х гг. в работах Д. Хаймза и Джона Дж. Гамперца и развита в работах американского ученого Арона Сикурела, Дж. Баумана, А.У. Корсаро. Высказывание исследуется только в связи с каким-либо речевым или коммуникативным событием, в рамках которого оно порождается. Подчёркивается культурная обусловленность любых речевых событий (проповедь, судебное заседание, телефонный разговор и т.д.). Устанавливаются правила языкового употребления путём присутствующего наблюдения (соучастие в речевом событии), анализа спонтанных данных, интервьюирования носителей данного языка как родного.
В рамках этого направления изучаются модели речевого поведения, принятые в той или иной культуре, в той или иной этнической или социальной группе. Так, например, в культуре «среднеевропейского стандарта» неформальная беседа нескольких человек предполагает, согласно принятым в данном сообществе правилам хорошего тона, что участники не будут перебивать друг друга, всем поочередно предоставляется возможность высказываться, желающий высказаться обычно сигнализирует об этом словами «позвольте заметить», «разрешите спросить» и т.п. Желающий выбыть из числа участников беседы объявляет о своем намерении словами «к сожалению, мне пора», «я должен ненадолго отлучиться» и так далее. Совсем иные нормы публичного речевого поведения приняты, например, в ряде культур аборигенов Австралии. Соблюдение индивидуальных прав отдельного участника разговора в этих сообществах не является обязательным правилом: несколько собеседников могут говорить одновременно, реагировать на высказывание другого не обязательно, говорящий высказывается, ни к кому специально не обращаясь, собеседники могут не смотреть друг на друга и т.д. Такая модель речевого поведения строится на исходной предпосылке, что все высказывания так или иначе аккумулируются в окружающем мире, и поэтому «прием» сообщения не обязательно должен непосредственно следовать за его «передачей».
Актуальной темой этнографии коммуникации является также изучение языкового выражения относительного социального статуса собеседников: правила обращения к собеседнику, в том числе использование титулов, обращений по имени, фамилии, имени и отчеству, профессиональные обращения (например, «доктор», «товарищ майор», «профессор»), уместность обращений «на ты» и «на Вы» и т.д. Особенно пристально исследуются такие языки, в которых соотношение социального положения говорящего и слушающего закрепляется не только в лексике, но и в грамматике. Примером может служить японский язык, где выбор грамматической формы глагола зависит от того, стоит ли слушающий выше говорящего в социальной иерархии или ниже, а также от того, входят ли говорящий и слушающий в одну социальную ячейку или нет. Кроме того, учитываются и отношения между говорящим и лицом, о котором идет речь. В результате комплексного действия этих ограничений один и тот же человек употребляет разные формы глагола при обращении к подчиненному и при обращении к начальнику, при обращении к сослуживцу и при обращении к незнакомому человеку, при обращении к своей жене и к жене соседа.
В грамматике находит отражение и такая особенность речевого этикета японцев, как стремление избежать вторжения в сферу мыслей и чувств собеседника. В японском языке существует особая грамматическая форма глагола – так называемое «желательное наклонение». С помощью суффикса желательного наклонения –tai говорящий выражает желание совершить действие, обозначенное исходным глаголом: "читать" + tai = "хочу читать", "уйти" + tai = "хочу уйти". Однако формы желательного наклонения возможны, только если говорящий описывает собственное желание. Желание собеседника или третьего лица выражается с помощью особой конструкции, приблизительно означающей "по внешним признакам можно заключить, что лицо X хочет совершить действие Y". Таким образом, подчиняясь требованиям грамматики, говорящий на японском языке может высказывать суждения лишь о собственных намерениях. Делать же прямые утверждения о внутреннем состоянии другого человека, например о его желаниях, язык просто не позволяет. Можно сказать «Я хочу...», но нельзя сказать «Вы хотите...» или «Он хочет...», а лишь «Мне кажется (у меня такое впечатление), что Вы хотите...» или «Мне кажется (у меня такое впечатление), что он хочет...».
Помимо норм речевого этикета, этнография коммуникации изучает также ритуализованные в тех или иных культурах речевые ситуации, такие, как заседание суда, защита диссертации, торговая сделка и тому подобные; правила выбора языка при межъязыковом общении; языковые конвенции и клише, сигнализирующие о принадлежности текста к определенному жанру («жили-были» – в сказках, «слушали и постановили» – в протоколе заседания).
Современная этнолингвистика тесно связана с социологией, психологией, семиотикой. В российской этнолингвистике особое место занимают исследования на стыке этнолингвистики, фольклористики и сравнительно-исторического языкознания. В первую очередь это исследовательская программа, посвященная этноязыковой и этнокультурной истории славянских народов (Никита Ильич Толстой, Светлана Михайловна Толстая, Владимир Николаевич Топоров). В рамках этой программы составляются этнолингвистические атласы, картографируются обряды, верования, фольклор; изучается структура кодифицированных славянских текстов определенных жанров, в том числе заговорных текстов, загадок, погребальных и строительных ритуалов и т.д., в соотнесении с данными сравнительно-исторических и археологических исследований.
Компьютерная лингвистика: методы, ресурсы, приложения
Введение
Термин компьютерная лингвистика (КЛ) в последние годы все чаще встречается в связи с разработкой различных прикладных программных систем, в том числе – коммерческих программных продуктов. Связано это бурным ростом в обществе текстовой информации, в том числе в сети Интернет, и необходимостью автоматической обработки текстов на естественном языке (ЕЯ). Указанное обстоятельство стимулирует развитие компьютерной лингвистики как области науки и разработку новых информационных и лингвистических технологий.
В рамках компьютерной лингвистики, существующей уже более 50 лет (и известной также под названиями машинная лингвистика , автоматическая обработка текстов на ЕЯ ) предложено много перспективных методов и идей, но далеко не все они еще нашли свое выражение в программных продуктах, используемых на практике. Наша цель – охарактеризовать специфику этой области исследований, сформулировать ее основные задачи, указать ее связи с другими науками, дать краткий обзор основных подходов и используемых ресурсов, а также кратко охарактеризовать существующие приложения КЛ. Для более подробного ознакомления с этими вопросам можно рекомендовать книги .
1. Задачи компьютерной лингвистики
Компьютерная лингвистика возникла на стыке таких наук, как лингвистика, математика, информатика (Computer Science) и искусственный интеллект. Истоки КЛ восходят к исследованиям известного американского ученого Н. Хомского в области формализации структуры естественного языка ; ее развитие опирается на результаты в области общей лингвистики (языкознания) . Языкознание изучает общие законы естественного языка – его структуру и функционирование, и включает такие области:
Ø Фонология – изучает звуки речи и правила их соединения при формировании речи;
Ø Морфология – занимается внутренней структурой и внешней формой слов речи, включая части речи и их категории;
Ø Синтаксис – изучает структуру предложений, правила сочетаемости и порядка следования слов в предложении, а также общие его свойства как единицы языка.
Ø Семантика и прагматика – тесно связанные области: семантика занимается смыслом слов, предложений и других единиц речи, а прагматика – особенностями выражения этого смысла в связи с конкретными целями общения;
Ø Лексикография описывает лексикон конкретного ЕЯ – его отдельные слова и их грамматические свойства, а также методы создания словарей.
Результаты Н. Хомского, полученные на стыке лингвистики и математики, заложили основу для теории формальных языков и грамматик (часто называемых генеративными , или порождающими грамматиками). Эта теория относится ныне к математической лингвистике и применяется для обработки не столько ЕЯ, но искусственных языков, в первую очередь – языков программирования. По своему характеру это вполне математическая дисциплина.
К математической лингвистике относят также и квантитативную лингвистику , изучающую частотные характеристики языка – слов, их комбинаций, синтаксических конструкций и т. п., При этом используется математические методы статистики, так что можно назвать этот раздел науки статистической лингвистикой .
КЛ тесно связана и с такой междисциплинарной научной областью, как искусственный интеллект (ИИ) , в рамках которого разрабатываются компьютерные модели отдельных интеллектуальных функций. Одна из первых работающих программ в области ИИ и КЛ – это известная программа Т. Винограда, которая понимала простейшие приказы человека по изменению мира кубиков, сформулированные на ограниченном подмножестве ЕЯ . Отметим, что несмотря на очевидное пересечение исследований в области КЛ и ИИ (поскольку владение языком относится к интеллектуальным функциям), ИИ не поглощает всю КЛ, поскольку она имеет свой теоретический базис и методологию. Общим для указанных наук является компьютерное моделирование как основной метод и итоговая цель исследований.
Таким образом, задача КЛ может быть сформулирована как разработка компьютерных программ для автоматической обработки текстов на ЕЯ. И хотя при этом обработка понимается достаточно широко, далеко не все виды обработки могут быть названы лингвистическими, а соответствующие процессоры – лингвистическими. Лингвистический процессор должен использовать ту или иную формальную модель языка (пусть даже очень простую), а значит, быть так или иначе языково-зависимым (т. е. зависеть от конкретного ЕЯ). Так, например, текстовый редактор Mycrosoft Word может быть назван лингвистическим (хотя бы потому, что использует словари), а редактор NotePad – нет.
Сложность задач КЛ связана с тем, что ЕЯ – сложная многоуровневая система знаков, возникшая для обмена информацией между людьми, выработанная в процессе практической деятельности человека, и постоянно изменяющаяся в связи с этой деятельностью . Другая сложность разработки методов КЛ (и сложность изучения ЕЯ в рамках языкознания) связана с многообразием естественных языков, существенными отличиями их лексики, морфологии , синтаксиса, разные языки предоставляют разные способы выражения одного и того же смысла.
2. Особенности системы ЕЯ: уровни и связи
Объектом лингвистических процессоров являются тексты ЕЯ. Под текстами понимаются любые образцы речи – устной и письменной, любого жанра, но в основном КЛ рассматривает письменные тексты. Текст имеет одномерную, линейную структуру, а также несет определенный смысл, язык же выступает как средство преобразования передаваемого смысла в тексты (синтез речи) и наоборот (анализ речи). Текст составлен из более мелких единиц, и возможно несколько способов разбиения (членения) текста на единицы, относящихся к разным уровням.
Общепризнано существование следующих уровней :
· уровень предложений (высказываний) – синтаксический уровень ;
· Лексико-морфологическая омонимия (наиболее частый вид) возникает при совпадении словоформ двух разных лексем, например, стих – глагол в единственном числе мужского рода и существительное в единственном числе, именительном падеже),
· Синтаксическая омонимия означает неоднозначность синтаксической структуры, что приводит к нескольким интерпретациям: Студенты из Львова поехали в Киев, Flying planes can be dangerous (известный пример Хомского) и др.
3. Моделирование в компьютерной лингвистике
Разработка лингвистического процессора (ЛП) предполагает описание лингвистических свойств обрабатываемого текста ЕЯ, и это описание организуется как модель языка . Как и при моделировании в математике и программировании, под моделью понимается некоторая система, отображающая ряд существенных свойств моделируемого явления (т. е. ЕЯ) и обладающая поэтому структурным или функциональным подобием.
Используемые в КЛ модели языка обычно строятся на основе теорий, создаваемых лингвистами путем изучения различных текстов и на основе своей лингвистической интуиции (интроспекции). В чем же специфика именно моделей КЛ? Можно выделить следующие их особенности :
· Формальность и, в конечном счете, алгоритмизируемость;
· Функциональность (цель моделирования – воспроизведение функций языка как «черного ящика», без построения точной модели синтеза и анализа речи человеком);
· Общность модели, т. е. учет ею довольно большого множества текстов;
· Экспериментальная обоснованность, предполагающая тестирование модели на разных текстах;
· Опора на словари как обязательную составляющую модели.
Сложность ЕЯ, его описания и обработки ведет к разбиению этого процесса на отдельные этапы, соответствующие уровням языка, Большинство современных ЛП относятся к модульному типу, при котором каждому уровню лингвистического анализа или синтеза соответствует отдельный модуль процессора. В частности, в случае анализа текста отдельные модули ЛП выполняют:
Ø Графематический анализ, т. е. выделение в тексте словоформ (переход от символов к словам);
Ø Морфологический анализ – переход от словоформ к их леммам (словарным формам лексем) или основам (ядерным частям слова, за вычетом словоизменительных морфем);
Ø Синтаксический анализ, т. е. выявление грамматической структуры предложений текста;
Ø Семантический и прагматический анализ, при котором определяется смысл фраз и соответствующая реакция системы, в рамках которой работает ЛП.
Возможны разные схемы взаимодействия указанных модулей (последовательная работа или параллельный перемежающийся анализ), однако отдельные уровни – морфология, синтаксис и семантика все же обрабатываются разными механизмами.
Таким образом, ЛП можно рассматривать как многоэтапный преобразователь, переводящий в случае анализа текста каждое его предложение во внутреннее представление его смысла и наоборот в случае синтеза. Соответствующая модель языка может называться структурной .
Хотя полные модели КЛ требуют учета всех основных уровней языка и наличия соответствующих модулей, при решении некоторых прикладных задач можно обойтись без представления в ЛП отдельных уровней. К примеру, в ранних экспериментальных программах КЛ, обрабатываемые тексты относились к очень узким проблемным областям (с ограниченным набором слов и строгим их порядком), так что для распознавания слов можно было использовать их начальные буквы, опуская этапы морфологического и синтаксического анализа.
Еще одним примером редуцированной модели, ныне достаточно часто используемой, является языковая модель частотности символов и их сочетаний (биграмм, триграмм и пр.) в текстах конкретного ЕЯ . Такая статистическая модель отображает лингвистическую информацию на уровне символов (букв) текста, и ее достаточно, например, для выявления опечаток в тексте или для распознавания его языковой принадлежности. Аналогичная модель на базе статистики отдельных слов и их совместной встречаемости в текстах (биграмм, триграмм слов) применяется, например, для разрешения лексической неоднозначности или определения части речи слова (в языках типа английского).
Отметим, что возможны структурно-статистические модели , в которых при представлении отдельных уровней ЕЯ учитывается та или иная статистика – слов, синтаксических конструкций и т. п.
В ЛП модульного типа на каждом этапе анализа или синтеза текста используется соответствующая модель (морфологии, синтасиса и т. п.).
Существующие в КЛ морфологические модели анализа словоформ различаются в основном по следующим параметрам:
· результату работы – лемма или основа с набором морфологических характеристик (род, число, падеж, вид, лицо и т. п.) заданной словоформы;
· методу анализа – с опорой на словарь словоформ языка или на словарь основ, либо же бессловарный метод;
· возможности обработки словоформы лексемы, не включенной в словарь.
При морфологическом синтезе исходными данными являются лексема и конкретные морфологические характеристики запрашиваемой словоформы данной лексемы, возможен и запрос на синтез всех форм заданной лексемы. Результат как морфологического анализа, так и синтеза в общем случае неоднозначен.
Для моделирования синтаксиса в рамках КЛ предложено большое число разных идей и методов, отличающихся способом описания синтаксиса языка, способом использования этой информации при анализе или синтезе предложения ЕЯ, а также способом представления синтаксической структуры предложения . Весьма условно можно выделить три основных подхода к созданию моделей: генеративный подход, восходящий к идеям Хомского , подход, восходящий к идеям И. Мельчука и представленный моделью «СмыслÛТекст» , а также подход, в рамках которого делаются те или иные попытки преодолеть ограничения первых двух подходов, в частности, теория синтаксических групп .
В рамках генеративного подхода синтаксический анализ производится, как правило, на основе формальной контекстно-свободной грамматики, описывающей фразовую структуру предложения, или же на основе некоторого расширения контекстно-свободной грамматики. Эти грамматики исходят из последовательного линейного членения предложения на фразы (синтаксические конструкции, например, именные группы) и отражают поэтому одновременно как его синтаксическую, так и линейную структуры. Полученная в результате анализа иерархическая синтаксическая структура предложения ЕЯ описывается деревом составляющих , в листьях которого находятся слова предложения, поддеревья соответствуют входящим в предложение синтаксическим конструкциям (фразам), а дуги выражают отношения вложения конструкций.
К рассматриваемому подходу могут быть отнесены сетевые грамматики, представляющие собой одновременно аппарат для описания системы языка и для задания процедуры анализа предложений на основе понятия конечного автомата, например, расширенная сеть переходов ATN .
В рамках второго подхода для представления синтаксической структуры предложения используется более наглядный и распространенный способ – деревья зависимостей . В узлах дерева расположены слова предложения (в корне обычно глагол-сказуемое), а каждая дуга дерева, связывающая пару узлов, интерпретируется как синтаксическая подчинительная связь между ними, причем направление связи соответствует направлению данной дуги. Поскольку при этом синтаксические связи слов и порядок слов в предложении отделены, то на основе деревьев подчинения могут быть описаны разорванные и непроективные конструкции , достаточно часто возникающие в языках со свободным порядком слов.
Деревья составляющих больше подходят для описания языков в жестким порядком слов, представление с их помощью разорванных и непроективных конструкций требует расширения используемого грамматического форма лизма. Зато в рамках этого подхода более естественно описываются конструкции с неподчинительными отношениями. В то же время общая трудность для обоих подходов – представление однородных членов предложения.
Синтаксические модели во всех подходах пытаются учесть ограничения, накладываемые на соединение языковых единиц в речи, при этом так или иначе используется понятие валентности . Валентность – это способность слова или другой единицы языка присоединять другие единицы определенным синтаксическим способом; актант – это слово или синтаксическая конструкция, заполняющая эту валентность. Например, русский глагол передать имеет три основные валентности, которые можно выразить следующими вопросительными словами: кто? кому? что? В рамках генеративного подхода валентности слов (прежде всего, глаголов) описываются преимущественно в виде специальных фреймов (subcategorization frames ) , а в рамках подхода, основанного на деревьях зависимостей – как модели управления .
Модели семантики языка наименее проработаны в рамках КЛ. Для семантического анализа предложений были предложены так называемые падежные грамматики и семантические падежи (валентности), на базе которых семантика предложения описывается как через связи главного слова (глагола) с его семантическими актантами, т. е. через семантические падежи . Например, глагол передать описывается семантическими падежами дающего (агенса), адресата и объекта передачи .
Для представления семантики всего текста обычно используются два логически эквивалентных формализма (оба они детально описаны в рамках ИИ ):
· Формулы исчисления предикатов, выражающих свойства, состояния, процессы, действия и отношения;
· Семантические сети – размеченные графы, в которых вершины соответствуют понятиям, а вершины – отношениям между ними.
Что касается моделей прагматики и дискурса, позволяющих обрабатывать не только отдельные предложения, но и текст в целом, то в основном для их построения используются идеи Ван Дейка . Одна из редких и удачных моделей – модель дискурсивного синтеза связных текстов . В подобных моделях должны учитываться анафорические ссылки и другие явления уровня дискурса.
Завершая характеристику моделей языка в рамках КЛ, остановимся чуть подробнее на теории лингвистических моделей «СмыслÛТекст» , и в рамках которой появилось много плодотворных идей, опередивших свое время и актуальных до сих пор.
В соответствии с этой теорией ЕЯ рассматривается как особого рода преобразователь, выполняющий переработку заданных смыслов в соответствующие им тексты и заданных текстов в соответствующие им смыслы. Под смыслом понимается инвариант всех синонимичных преобразований текста. Содержание связного фрагмента речи без расчленения на фразы и словоформы отображается в виде специального семантического представления, состоящего из двух компонент: семантического графа и сведений о коммуникативной организации смысла .
Как отличительные особенности теории следует указать:
o ориентацию на синтез текстов (способность порождать правильные тексты рассматривается как основной критерий языковой компетенции);
o многоуровневый, модульный характер модели, причем основные уровни языка разделяются на поверхностный и глубинный уровень: различаются, к примеру, глубинный (семантизированный) и поверхностный («чистый») синтаксис, а также поверхностно-морфологический и глубинно-морфологический уровни;
o интегральный характер модели языка; сохранение информации, представленной на каждом уровне, соответствующим модулем, выполняющими переход с этого уровня на следующий;
o специальные средства описания синтактики (правил соединения единиц) на каждом из уровней; для описания лексической сочетаемости был предложен набор лексических функций , при помощи которых сформулированы правила синтаксического перифразирования;
o упор на словарь, а не на грамматику; в словаре хранится информация, относящаяся к разным уровням языка; в частности, для синтаксического анализа используются модели управления слов, описывающие их синтаксические и семантические валентности.
Эта теория и модель языка нашли свое воплощение в системе машинного перевода ЭТАП .
4. Лингвистические ресурсы
Разработка лингвистических процессоров требует соответствующего представления лингвистической информации об обрабатываемом ЕЯ. Эта информация отображается в разнообразных компьютерных словарях и грамматиках.
Словари являются наиболее традиционной формой представления лексической информации; они различаются своими единицами (обычно слова или словосочетания), структурой, охватом лексики (словари терминов конкретной проблемной области, словари общей лексики и т. п.). Единица словаря называется словарной статьей , в ней представляется информация о лексеме. Лексические омонимы обычно представляются в разных словарных статьях.
Наиболее распространены в КЛ морфологические словари, используемые для морфологического анализа, в их словарной статье представлена морфологическая информация о соответствующем слове – часть речи , словоизменительный класс (для флективных языков), перечень значений слова и т. п. В зависимости от организации лингвистического процессора в словарь может быть добавлена и грамматическая информация, например, модели управления слова.
Существуют словари, в которых представлена и более широкая информация о словах. Например, лингвистическая модель «СмыслÛТекст» существенно опирается на толково-комбинаторный словарь , в словарной статье которого помимо морфологической, синтаксической и семантической информации (синтаксические и семантические валентности) представлены сведения о лексической сочетаемости этого слова.
В ряде лингвистических процессоров используются словари синонимов . Сравнительно новый вид словарей – словари паронимов , т. е. внешне схожих слов, различающихся по смыслу, например, чужой и чуждый , правка и справка .
Еще один вид лексических ресурсов – базы словосочетаний , в которые отбираются наиболее типичные словосочетания конкретного языка. Такая база словосочетаний русского языка (около миллиона единиц) составляет ядро системы КроссЛексика .
Более сложными видами лексических ресурсов являются тезаурусы и онтологии . Тезаурус – это семантический словарь, т. е. словарь, в котором представлены смысловые связи слов – синонимические, отношения род-вид (иногда называемые отношением выше-ниже), часть-целое, ассоциации. Распространение тезаурусов связано с решением задач информационного поиска .
С понятием тезауруса тесно связано понятие онтологии . Онтология – набор понятий, сущностей определенной области знаний, ориентированный на многократное использование для различных задач. Онтологии могут создаваться на базе существующей в языке лексики – в этом случае они называются лингвистическим и.
Подобной лингвистической онтологией считается система WordNet – большой лексический ресурс, в котором собраны слова английского языка : существительные, прилагательные, глаголы и наречия, и представлены их смысловые связи нескольких типов. Для каждой из указанных частей речи слова сгруппированы в группы синонимов (синсеты ), между которыми установлены отношения антонимии , гипонимии (отношение род-вид), меронимии (отношение часть-целое). Ресурс содержит примерно 25 тыс. слов, число уровней иерархии для отношения род-вид в среднем равно 6-7, достигая порою 15. Верхний уровень иерархии формирует общую онтологию – систему основных понятий о мире.
По схеме английского WordNet были построены аналогичные лексические ресурсы для других европейских языков, объединенные под общим названием EuroWordNet.
Совершенно другой вид лингвистических ресурсов – это грамматики ЕЯ , тип которых зависит от используемой в процессоре модели синтаксиса. В первом приближении грамматика представляет собой набор правил, выражающих общие синтаксические свойства слов и групп слов. Общее число правил грамматики также зависит от модели синтаксиса, изменяясь от нескольких десятков до нескольких сотен. По существу, здесь проявляется такая проблема, как соотношение в модели языка грамматики и лексики: чем больше информации представлено в словаре, тем короче может быть грамматика и наоборот.
Отметим, что построение компьютерных словарей, тезаурусов и грамматик – объемная и трудоемкая работа, иногда даже более трудоемкая, чем разработка лингвистической модели и соответствующего процессора. Поэтому одной из подчиненных задач КЛ является автоматизация построения лингвистических ресурсов .
Компьютерные словари часто формируются конвертацией обычных текстовых словарей, однако нередко для их построения требуется гораздо более сложная и кропотливая работа. Обычно это бывает при построении словарей и тезаурусов для быстро развивающися научных областей – молекулярной биологии , информатики и др. Исходным материалом для извлечения необходимой лингвистической информации могут быть коллекции и корпуса текстов .
Корпус текстов – это коллекция текстов, собранная по определенному принципу представительности (по жанру, авторской принадлежности и т. п.), в которой все тексты размечены, т. е. снабжены некоторой лингвистической разметкой (аннотациями) – морфологической, акцентной, синтаксической и т. п. .В настоящее время существует не менее сотни различных корпусов – для разных ЕЯ и с различной разметкой, в России наиболее известным является Национальный корпус русского языка .
Размеченные корпуса создаются лингвистами и используются как для лингвистических исследований, так и для настройки (обучения) используемых в КЛ моделей и процессоров с помощью известных математических методов машинного обучения. Так, машинное обучение применяется для настройки методов разрешения лексической неоднозначности, распознавания части речи, разрешения анафорических ссылок.
Поскольку корпуса и коллекции текстов всегда ограничены по представленным в них языковым явлениям (а корпуса, ко всему прочему, создаются довольно долго), в последнее время все чаще в качестве более полного лингвистического ресурса рассматриваются тексты сети Интернет . Безусловно, Интернет является самым представительным источником образцов современной речи, однако его использование как корпуса требует разработки специальных технологий.
5. Приложения компьютерной лингвистики
Область приложений компьютерной лингвистики постоянно расширяется, так что охарактеризуем здесь наиболее известные прикладные задачи, решаемые ее инструментами.
Машинный перевод – самое раннее приложение КЛ, вместе с которым возникла и развивалась сама эта область. Первые программы перевода были построены более 50 лет назад и были основаны на простейшей стратегии пословного перевода. Однако довольно быстро было осознано, что машинный перевод требует полной лингвистической модели, учитывающей все уровни языка, вплоть до семантики и прагматики, что неоднократно тормозило развитие этого направления. Достаточно полная модель использована в отечественной системе ЭТАП , выполняющей перевод научных текстов с французского на русский язык.
Заметим, однако, что в случае перевода на родственный язык, например, при переводе с испанского на португальский или же с русского на украинский (у которых много общего в синтаксисе и морфологии), процессор может быть реализован на основе упрощенной модели, например, на основе все той же стратегией пословного перевода.
В настоящее время существует целый спектр компьютерных систем перевода (разного качества), от больших интернациональных исследовательских проектов до коммерческих автоматических переводчиков. Существенный интерес представляют проекты многоязыкового перевода, с использованием промежуточного языка, на котором кодируется смысл переводимых фраз. Другое современное направление – статистическая трансляция , опирающаяся на статистику перевода слов и словосочетаний (эти идеи, к примеру, реализованы в переводчике поисковика Google).
Но несмотря на многие десятилетия развития всего этого направления, в целом задача машинного перевода еще весьма далека до полного решения.
Еще одно довольно старое приложение компьютерной лингвистики – это информационный поиск и связанные с ним задачи индексирования, реферирования, классификации и рубрикации документов .
Полнотекстовый поиск документов в больших базах документов (в первую очередь – научно-технических, деловых), проводится обычно на основе их поисковых образов , под которыми понимается набор ключевых слов – слов, отражающих основную тему документа. Сначала в качестве ключевых слов рассматривались только отдельные слова ЕЯ, а поиск производился без учета их словоизменения , что некритично для слабофлективных языков типа английском. Для флективных языков, например, для русского потребовалось использование морфологической модели, учитывающей словоизменение.
Запрос на поиск также представлялся в виде набора слов, подходящие (релевантные) документы определялись на основе похожести запроса и поискового образа документа. Создание поискового образа документа предполагает индексирование его текста, т. е. выделение в нем ключевых слов . Поскольку очень часто гораздо точнее тему и содержание документа отображают не отдельные слова, а словосочетания, в качестве ключевых слов стали рассматриваться словосочетания. Это существенно усложнило процедуру индексирования документов, поскольку для отбора значимых словосочетаний текста потребовалось использовать различные комбинации статистических и лингвистических критериев.
По сути, в информационном поиске в основном используется векторная модель текста (называемая иногда bag of words – мешок слов), при которой документ представляется вектором (набором) своих ключевых слов. Современные интернет-поисковики также используют эту модель, выполняя индексирование текстов по употребляемым в них словам (в то же время для выдачи релевантных документов они используют весьма изощренные процедуры ранжирования).
Указанная модель текста (с некоторыми усложнениями) применяется и в рассматриваемых ниже смежных задачах информационного поиска.
Реферирование текста – сокращение его объема и получение его краткого изложения – реферата (свернутого содержания), что делает более быстрым поиск в коллекциях документов. Общий реферат может составляться также для нескольких близких по теме документов.
Основным методом автоматического реферирования до сих пор является отбор наиболее значимых предложений реферируемого текста, для чего обычно сначала вычисляются ключевые слова текста и рассчитывается коэффициент значимости предложений текста. Выбор значимых предложений осложняется анафорическими связями предложений, разрыв которых нежелателен – для решения этой проблемы разрабатываются определенные стратегии отбора предложений.
Близкая к реферированию задача – аннотирование текста документа, т. е. составление его аннотации. В простейшей форме аннотация представляет собой перечень основных тем текста, для выделения которых могут использоваться процедуры индексирования.
При создании больших коллекций документов актуальны задачи классификации и кластеризации текстов с целью создания классов близких по теме документов . Классификация означает отнесение каждого документа к определенному классу с заранее известными параметрами, а кластеризация – разбиение множества документов на кластеры, т. е. подмножества тематически близких документов. Для решения этих задач применяются методы машинного обучения, в связи с чем эти прикладные задачи называют Text Mining и относят к научному направлению, известному как Data Mining, или интеллектуальный анализ данных .
Очень близка к классификации задача рубрицирования текста – его отнесение к одной из заранее известных тематических рубрик (обычно рубрики образуют иерархическое дерево тематик).
Задача классификации получает все большее распространение, она решается, например, при распознавании спама, а сравнительно новое приложение – классификация SMS-сообщений в мобильных устройствах. Новое и актуальное направление исследований для общей задачи информационного поиска – многоязыковой поиск по документам.
Еще одна относительно новая задача, связанная с информационным поиском – формирование ответов на вопросы (Question Answering) . Эта задача решается путем определения типа вопроса, поиском текстов, потенциально содержащих ответ на этот вопрос, и извлечением ответа из этих текстов.
Совершенно иное прикладное направление, которое развивается хотя и медленно, но устойчиво – это автоматизация подготовки и редактирования текстов на ЕЯ. Одним из первых приложений в этом направлении были программы автоматической определения переносов слов и программы орфографической проверки текста (спеллеры, или автокорректоры). Несмотря на кажущуюся простоту задачи переносов, ее корректное решение для многих ЕЯ (например, английского) требует знания морфемной структуры слов соответствующего языка, а значит, соответствующего словаря.
Проверка орфографии уже давно реализована в коммерческих системах и опирается на соответствующий словарь и модель морфологии. Используется также неполная модель синтаксиса, на основе которой выявляются достаточно частотные все синтаксические ошибки (например, ошибки согласования слов). В то же время в автокорректорах не реализовано пока выявление более сложных ошибок, к примеру, неправильное употребление предлогов. Не обнаруживаются и многие лексические ошибки, в частности, ошибки, возникающие в результате опечаток или неверного использования схожих слов (например, весовой вместо весомый). В современных исследованиях КЛ предлагаются методы автоматизированного выявления и исправления подобных ошибок, а также некоторых других видов стилистических ошибок . В этих методах используется статистика встречаемости слов и словосочетаний.
Близкой к поддержке подготовки текстов прикладной задачей является обучение естественному языку , в рамках этого направления часто разрабатываются компьютерные системы обучения языку – английскому, русскому и др. (подобные системы можно найти в Интернете). Обычно эти системы поддерживают изучение отдельных аспектов языка (морфологии, лексики, синтаксиса) и опираются на соответствующие модели, например, модель морфологии.
Что касается изучения лексики, то для этого также используются электронные аналоги текстовых словарей (в которых по сути нет языковых моделей). Однако разрабатываются также многофукциональные компьютерные словари, не имеющие текстовых аналогов и ориентированные на широкий круг пользователей – например, словарь русских словосочетаний Кросслексика . Эта система охватывает широкий круг лексики – слов и допустимых их словосочетаний, а также предоставляет справки по моделям управления слов, синонимам, антонимам и другим смысловым коррелятам слов, что явно полезно не только для тех, кто изучает русский язык, но и носителям языка.
Следующее прикладное направление, которое стоит упомянуть – это автоматическая генерация текстов на ЕЯ . В принципе, эту задачу можно считать подзадачей уже рассмотренной выше задачи машинного перевода, однако в рамках направления есть ряд специфических задач. Такой задачей является многоязыковая генерация, т. е. автоматическое построение на нескольких языках специальных документов – патентных формул, инструкций по эксплуатации технических изделий или программных систем, исходя из их спецификации на формальном языке. Для решения этой задачи применяются довольно подробные модели языка.
Все более актуальная прикладная задача, часто относимая к направлению Text Mining – это извлечение информации из текстов, или Information Extraction , что требуется при решении задач экономической и производственной аналитики. Для этого осуществляется выделение в тесте ЕЯ определенных объектов – именованных сущностей (имен, персоналий, географических названий), их отношений и связанных с ними событий. Как правило, это реализуется на основе частичного синтаксического анализа текста, позволяющего выполнять обработку потоков новостей от информационных агентств. Поскольку задача достаточно сложна не только теоретически, но и технологически, создание значимых систем извлечения информации из текстов осуществимо в рамках коммерческих компаний .
К направлению Text Mining относятся и две другие близкие задачи – выделение мнений (Opinion Mining) и оценка тональности текстов (Sentiment Analysis), привлекающие внимание все большего числа исследователей. В первой задаче происходит поиск (в блогах, форумах, интернет-магазинах и пр.) мнений пользователей о товарах и других объектах, а также производится анализ этих мнений. Вторая задача близка к классической задаче контент-анализа текстов массовой коммуникации, в ней оценивается общая тональность высказываний.
Еще одно приложение, которое стоит упомянуть – поддержка диалога с пользователем на ЕЯ в рамках какой-либо информационной программной системы. Наиболее часто эта задача решалась для специализированных баз данных – в этом случае язык запросов достаточно ограничен (лексически и грамматически), что позволяет использовать упрощенные модели языка. Запросы к базе, сформулированные на ЕЯ, переводятся на формальный язык, после чего выполняется поиск нужной информации и строится соответствующая фраза ответа.
В качестве последнего в нашем перечне приложений КЛ (но не по важности) укажем распознавание и синтез звучащей речи . Неизбежно возникающие в этих задачах ошибки распознавания исправляются автоматическими методами на основе словарей и лингвистических знаний о морфологии. В этой области также применятся машинное обучение.
Заключение
Компьютерная лингвистика демонстрирует вполне осязаемые результаты в различных приложениях по автоматической обработке текстов на ЕЯ. Дальнейшее ее развитие зависит как от появления новых приложений, так и независимой разработки различных моделей языка, в которых пока не решены многие проблемы. Наиболее проработанными являются модели морфологического анализа и синтеза. Модели синтаксиса еще не доведены до уровня устойчиво и эффективно работающих модулей, несмотря на большое число предложенных формализмов и методов. Еще менее изучены и формализованы модели уровня семантики и прагматики, хотя автоматическая обработка дискурса уже требуется в ряде приложений. Отметим, что уже существующие инструменты самой компьютерной лингвистики, использование машинного обучения и корпусов текстов, может существенно продвинуть решение этих проблем.
Литература
1. Baeza-Yates, R. and Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.
2. Bateman, J., Zock M. Natural Language Generation. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р.304.
3. Biber, D., Conrad S., and Reppen D. Corpus Linguistics. Investigating Language Structure and Use. Cambridge University Press, Cambridge, 1998.
4. Bolshakov, I. A., Gelbukh putational Linguistics. Models, Resources, Applications. Mexico, IPN, 2004.
5. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical Machine Translation. // Computational Linguistics, Vol. 19(2): 263-3
6. Carroll J R. Parsing. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 233-248.
7. Chomsky, N. Syntactic Structures. The Hague: Mouton, 1957.
8. Grishman R. Information extraction. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 545-559.
9. Harabagiu, S., Moldovan D. Question Answering. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 560-582.
10. Hearst, M. A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, p.131-151.
11. Hirst, G. Ontology and the Lexicon. In.: Handbook on Ontologies in Niformation Systems. Berlin, Springer, 2003.
12. Jacquemin C., Bourigault D. Term extraction and automatic indexing // Mitkov R. (ed.): Handbook of Computational Linguistics. Oxford University Press, 2003. р. 599-615.
13. Kilgarriff, A., G. Grefenstette. Introduction to the Special Issue on the Web as putational linguistics, V. 29, No. 3, 2003, p. 333-347.
14. Manning, Ch. D., H. Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.
15. Matsumoto Y. Lexical Knowledge Acquisition. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 395-413.
16. The Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.
17. Oakes, M., Paice C. D. Term extraction for automatic abstracting. Recent Advances in Computational Terminology. D. Bourigault, C. Jacquemin and M. L"Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.
18. Pedersen, T. A decision tree of bigrams is an accurate predictor of word senses. Proc. 2nd Annual Meeting of NAC ACL, Pittsburgh, PA, 2001, p. 79-86.
19. Samuelsson C. Statistical Methods. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 358-375.
20. Salton, G. Automatic Text Processing: the Transformation, Analysis, and Retrieval of Information by Computer. Reading, MA: Addison-Wesley, 1988.
21. Somers, H. Machine Translation: Latest Developments. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 512-528.
22. Strzalkowski, T. (ed.) Natural Language Information Retrieval. Kluwer,19p.
23. Woods W. A. Transition Network Grammers forNatural language Analysis/ Communications of the ACM, V. 13, 1970, N 10, p. 591-606.
24. Word Net: an Electronic Lexical Database. / Christiane Fellbaum. Cambridge, MIT Press, 1998.
25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic Collocation Suggestion in Academic Writing // Proceedings of the ACL 2010 Conference Short Papers, 2010.
26. и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.
27. и др. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP – 2-e изд. – СПб.: БХВ-Петербург, 2008.
28. Большаков, Лексика – большой электронный словарь сочетаний и смысловых связей русских слов. // Комп. лингвистика и интеллект. технологии: Труды межд. Конф. «Диалог 2009». ВыпМ.: РГГУ, 2009, с.. 45-50.
29. Большакова Е. И., Большаков обнаружение и автоматизированное исправление русских малапропизмов // НТИ. Сер. 2, № 5, 2007, с.27-40.
30. Ван, Кинч В. Стратегия понимания связного текста.// Новое в зарубежной лингвистике. Вып. XXIII– М., Прогресс, 1988, с. 153-211.
31. Васильев В. Г., Кривенко М. П. Методы автоматизированной обработки текстов. – М.: ИПИ РАН, 2008.
32. Виноград Т. Программа, понимающая естественный язык – М., мир, 1976.
33. Гладкий структуры естественного языка в автоматизированных системах общения. – М., Наука, 1985.
34. Гусев, В. Д., Саломатина словарь паронимов: версия 2. // НТИ, Сер. 2, № 7, 2001, с. 26-33.
35. Захаров -пространство как языковой корпус// Компьютерная лингвистика и интеллектуальные технологии: Труды Межд. конференции Диалог ‘2005 / Под ред. , – М.: Наука, 2005, с. 166-171.
36. Касевич общей лингвистики. - М., Наука, 1977.
37. Леонтьева понимание текстов: Системы, модели, ресурсы: Учебное пособие – М.: Академия, 2006.
38. Лингвистический энциклопедический словарь /Под ред. В. Н. Ярцевой, М.: Советская энциклопедия, 1990, 685 с.
39. , Салий для автоматического индексирования и рубрицирования: разработка, структура, ведение. // НТИ, Сер. 2, №1, 1996.
40. Люгер Дж. Искусственный интеллект: стратегии и методы решения сложных проблем. М., 2005.
41. Маккьюин К. Дискурсивные стратегии для синтеза текста на естественном языке // Новое в зарубежной лингвистике. Вып. XXIV. М.: Прогресс, 1989, с.311-356.
42. Мельчук теории лингвистических моделей «СМЫСЛ « ТЕКСТ». - М., Наука, 1974.
43. Национальный Корпус Русского Языка. http://*****
44. Хорошевский В. Ф. OntosMiner: семейство систем извлечения информации из мультиязычных коллекций документов // Девятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2004. Т. 2. – М.: Физматлит, 2004, с.573-581.