16.09.2017 г. Перспективи і проблеми обчислювальної лінгвістики.

 
Перспективи обчислювальної лінгвістики
 
Обчислювальні лінгвісти вивчають природні мови, такі як російська, англійська та японська, а не комп'ютерні мови, такі як Fortran, Snobol, C ++ або Java. Область обчислювальної лінгвістики переслідує дві мети:
• технологічну - щоб дозволити комп'ютерам використовуватися в якості допоміжних засобів для аналізу і обробки природної мови.
• психологічну - щоб розуміти, за аналогією з комп'ютерами, як люди обробляють природну мову.
 
З технічної точки зору, в широкому сенсі існує три застосування для природної мови в комп'ютерних додатках:
• Інтерфейси природної мови для програмного забезпечення. Наприклад, були побудовані демонстраційні системи, які дозволяють користувачеві з мікрофоном запитувати інформацію про комерційні рейси авіакомпаній - свого роду автоматизованого турагента.
• Витяг документів і вилучення інформації з письмового тексту. Наприклад, комп'ютерна система може сканувати газетні статті або будь-який інший клас текстів, шукати інформацію про події певного типу.
• Машинний переклад. Сьогодні комп'ютерні системи можуть виконувати грубі переклади текстів з однієї мови, наприклад, японської, на іншу мову, наприклад на російську.
Обчислювальні лінгвісти, які розглядають психологічну перспективу, висувають гіпотезу про те, що на деякому абстрактному рівні мозок є свого роду біологічним комп'ютером і що адекватна відповідь на те, як люди розуміють і генерують мову, повинна бути в термінах формальних і досить точних, щоб імітувати комп'ютер.
 
Проблеми в обчислювальної лінгвістиці
 
Коли обчислювальний лінгвіст спробує розробити набір правил і процедур, наприклад, розпізнати синтаксичну структуру речень або дозволити посилання займенників, він може зіткнутися з певними проблемами.
Однією з найбільш важливих проблем в обробці природної мови є проблема двозначності. У прикладі «Поруч з вашим автомобілем є купа легкозаймистого сміття. Вам доведеться позбутися від нього» - сприймете ви слово «воно» як «купа сміття» або «автомобіль», розуміння цього висловлювання може привести до різких відмінностей в діях, які ви робите. Неоднозначність, поширена в усних висловлюваннях і в письмових текстах. Більшість двозначностей нашим мозком сприймається правильно, так як наші знання про світ досить великі і багато мозок сприймає з контексту. Але комп'ютерні системи не мають великого знання про світ і не дуже добре використовують контекст.
 
Підходи до неоднозначності
 
Зусилля щодо вирішення проблеми двозначності зосередилися на двох потенційних рішеннях: заснованих на знаннях і статистиці.
В рамках підходу, заснованого на знаннях, розробники системи повинні кодувати багато знань про світ і розробляти процедури для його використання при визначенні змісту текстів. Для прикладу (зазначеного вище) вони повинні були кодувати факти про відносні цінності сміття і автомобілів, про тісний зв'язок між поняттями «сміття» і «позбавлення від» і так далі. Перевага такого підходу полягає в тому, що він схожий на процедуру оброблення мови людьми і, отже, більш імовірно, буде успішним в довгостроковій перспективі. Недоліки в тому, що зусилля, необхідні для кодування необхідних світових знань, величезні, і що відомі процедури використання знань дуже неефективні.
 
У статистичному підході потрібен великий обсяг анотованих даних. Потім розробники системи пишуть процедури, які обчислюють найбільш ймовірний дозвіл двозначностей, враховуючи слова або класи слів і інші, легко розпізнавальні умови. Переваги: після того, як є анотований корпус, він буде працювати автоматично, і він досить ефективний. Недоліки полягають в тому, що необхідні анотовані корпуси часто дуже дорогі для створення і що методи приведуть до неправильного аналізу, де правильна інтерпретація вимагає усвідомлення тонких контекстуальних чинників.