мови

Товариство мертвих мов

Більшість мов, які колись існували, сьогодні вже не розмовляють людьми. Серед зниклих, мертвих мов ми можемо знайти в основному ті, які ми вважаємо загубленими або «нерозшифрованими», ми недостатньо знаємо їх граматику, словниковий запас, синтаксис, щоб зрозуміти їх тексти.


Дослідники з Массачусетського технологічного університету вивчали угорську мову, пов’язану з івритом, яку лінгвісти раніше розшифрували, щоб створити систему, придатну для розшифровки втрачених мов. (Фото: SRK Branavan)

Дослідження загублених мов необхідне, бо без нього знання всієї етнічної групи, яка колись жила, будуть втрачені для людства. На жаль, ми знаємо про більшість з них так мало, що вчені навіть не можуть їх розшифрувати, використовуючи розширені алгоритми машинного навчання, такі як Google Translate. Деякі з них навіть не мають добре дослідженого спільнокореневого порівняння, і їм часто не вистачає традиційних роздільників, таких як пробіли та пунктуація.

Система досліджень Лабораторії комп'ютерних наук та штучного інтелекту MIT (CSAIL) здатна автоматично розшифровувати мертву мову, щоб було відомо про її зв'язок з іншими мовами. Виключивши зв’язок між піренейською та баскською мовами, було також продемонстровано, що нова система здатна самостійно визначати зв’язки між мовами.

Мета дослідників полягає в тому, щоб їхня система могла розшифрувати будь-яку мертву мову, використовуючи кілька тисяч слів, які витримують зусилля лінгвістів протягом десятиліть.


Лінійне письмо Б, склад, що використовується мікенською грецькою цивілізацією, тобто З 1450р. (зображення: Вікіпедія)

Диявол у подробицях

"Система спирається на ряд принципів, заснованих на уявленнях з історичної лінгвістики, наприклад, що мови, як правило, можуть еволюціонувати лише певним передбачуваним чином. Наприклад, хоча певна мова рідко додає або видаляє цілий звук, певні звукозаміни "Слово" p "може змінитися на" b "у рідній мові, але зміна на" k "менш вірогідна через значний розрив у вимові", - сказала Регіна Барзілай, професор MIT на чолі з дослідницька група.

Включаючи інші мовні обмеження, подібні до цього, Барзілай та Джамінг Ло, докторант MIT, розробили алгоритм розшифровки, який може впоратися з величезним морем можливих перетворень та недоліків принципу організації вхідних даних. Алгоритм вчиться вставляти звуки мови в багатовимірний простір, де відмінності у вимові відображаються на відстані між відповідними векторами. Ця структурна конструкція дозволяє фіксувати відповідні закономірності зміни мови та виражати їх як обчислювальну специфікацію.

Отримана модель здатна відокремити кожне слово у стародавній мові та нанести його на карту, практично перекладаючи його в еквіваленти спорідненої мови.

Сам проект ґрунтується на минулорічному дослідженні Барзілая та Лоо, в якому угар та лінійні В мертві мови були розшифровані як тест. Розшифровка останнього зайняла у людей десятки років. Однак у цих мовах команда знала, що вони пов’язані з ранніми формами івриту та грецької відповідно.

Досліджує програмне забезпечення

Під час роботи нової системи взаємозв'язок між мовами визначається лише алгоритмом. До речі, ця особливість є однією з найбільших проблем у вирішенні подібних головоломок. Наприклад, для лінійного В потрібні були десятиліття, щоб правильно визначити мову-нащадок. Що стосується іберійської мови, то серед вчених досі немає загальноприйнятого консенсусу щодо мови, пов’язаної з нею: одні стверджують, що баскська мова, інші кажуть, що іберійська мова не пов’язана з жодною відомою мовою.

Новий алгоритм здатний оцінити реальну близькість двох людських мов. Бігаючи знайомими мовами, перевіряючи свої здібності, він зміг точно визначити мовні сім'ї, що беруть участь.


Більшість збережених творів «Лінійних Б» походять з Кноссу (острів Крит) та Пілоса (півострів Пелопонес). Мікени текстів, що збереглися, написані грецькою мовою, що є ранньою версією сучасної грецької мови. (Зображення: Вікіпедія)

Говорячи про майбутні завдання, дослідники сподіваються, що зможуть розширити роботу за межі прив'язки текстів до споріднених слів відомою мовою, яку називають "рішенням на основі відносних відносин". Ця парадигма базується на існуванні такої відомої мови, але приклад піренейської мови показав, що це може бути не завжди. Тому дослідники також пропонують новий підхід, який передбачає визначення семантичного значення слів, навіть якщо вони не знають, як їх читати.

"Наприклад, ми можемо визначити посилання на всіх людей або місцезнаходження в документі, які потім можна буде додатково вивчити у світлі відомих історичних свідчень. Ці суттєві методи сьогодні часто використовуються в різних програмах обробки текстів і є дуже точними, але найважливіше дослідницьке питання полягає в тому, що завдання можливо, якщо без навчальних даних не буде введено алгоритм давньої мови », - Барзілай окреслив труднощі справи. Проект був частково підтриманий Інтелектуальною діяльністю з дослідницьких проектів (IARPA).