16.09.2017 г. Перспективы и проблемы вычислительной лингвистики.

 
Перспективы вычислительной лингвистики
 
Вычислительные лингвисты изучают естественные языки, такие как русский, английский и японский, а не компьютерные языки, такие как Fortran, Snobol, C ++ или Java. Область вычислительной лингвистики преследует две цели:
· технологическую - чтобы позволить компьютерам использоваться в качестве вспомогательных средств для анализа и обработки естественного языка.
· психологическую – чтобы понимать, по аналогии с компьютерами, как люди обрабатывают естественный язык.
 
С технической точки зрения, в широком смысле существует три применения для естественного языка в компьютерных приложениях:
· Интерфейсы естественного языка для программного обеспечения. Например, были построены демонстрационные системы, которые позволяют пользователю с микрофоном запрашивать информацию о коммерческих рейсах авиакомпаний - своего рода автоматизированного турагента.
· Извлечение документов и извлечение информации из письменного текста. Например, компьютерная система может сканировать газетные статьи или какой-либо другой класс текстов, искать информацию о событиях определенного типа.
· Машинный перевод. Сегодня компьютерные системы могут производить грубые переводы текстов с одного языка, например, японского, на другой язык, например на русский.
 
Вычислительные лингвисты, принимающие психологическую перспективу, выдвигают гипотезу о том, что на некотором абстрактном уровне мозг является своего рода биологическим компьютером и что адекватный ответ на то, как люди понимают и генерируют язык, должен быть в терминах формальных и достаточно точных, чтобы имитировать компьютер.
 
Проблемы в вычислительной лингвистике
 
Когда вычислительный лингвист попытается разработать набор правил и процедур, например, распознать синтаксическую структуру предложений или разрешить ссылки местоимений, он может столкнуться с определенными проблемами.
Одной из наиболее важных проблем в обработке естественного языка является проблема двусмысленности. В примере «Рядом с вашим автомобилем есть куча легковоспламеняющегося мусора. Вам придется избавиться от него» - интерпретируете ли вы слово «оно» как «куча мусора» или «автомобиль», понимание этого, высказывание может привести к резким различиям в действии, которое вы совершаете. Неоднозначность, распространена в произносимых высказываниях и письменных текстах. Большинство двусмысленностей нашим мозгом воспринимается правильно, так как наши знания о мире достаточно велики и многое мозг воспринимает из контекста. Но компьютерные системы не имеют большого знания о мире и не очень хорошо используют контекст.
 
Подходы к неоднозначности
 
Усилия по решению проблемы двусмысленности сосредоточились на двух потенциальных решениях: основанных на знаниях и статистике.
В рамках подхода, основанного на знаниях, разработчики системы должны кодировать много знаний о мире и разрабатывать процедуры для его использования при определении смысла текстов. Для примера (указанного выше) они должны были кодировать факты об относительной ценности мусора и автомобилей, о тесной связи между понятиями «мусор» и «избавление от» и так далее. Преимущество такого подхода заключается в том, что он похож на процедуру обрабатывания языка людьми и, следовательно, более вероятно, будет успешным в долгосрочной перспективе. Недостатки в том, что усилия, необходимые для кодирования необходимых мировых знаний, огромны, и что известные процедуры использования знаний очень неэффективны.
 
В статистическом подходе требуется большой объем аннотированных данных. Затем разработчики системы пишут процедуры, которые вычисляют наиболее вероятные разрешения двусмысленностей, учитывая слова или классы слов и другие, легко определяемые условия. Преимущества этого подхода заключаются в том, что после того, как имеется аннотированный корпус, он будет работать автоматически, и он достаточно эффективен. Недостатки заключаются в том, что требуемые аннотированные корпуса часто очень дороги для создания и что методы приведут к неправильному анализу, где правильная интерпретация требует осознания тонких контекстуальных факторов.