Розділи статей
Інтерв’ю з Сандером Лестрейдом про його розв’язання багатовікової таємниці закону Ципфа
Інтерв’ю з Сандером Лестрейдом про його вирішення столітньої лінгвістичної проблеми
Інтерв’ю з Сандером Лестрейдом про його вирішення столітньої лінгвістичної проблеми
Закон Зіпфа відомий давно. Він майже століття протистояв пояснень і став найбільшою загадкою в обчислювальній лінгвістиці. Нещодавно ЗМІ повідомили, що Сандер Лестрейд з Неймегенського університету Радбуда знайшов рішення. У короткому інтерв'ю він пояснює своє рішення Закону Зіпфа.
1. Не могли б ви коротко описати закон Zipf нашим читачам?
Сандер Лестрейд: Закон Зіпфа говорить, що частота слова в тексті може бути описана з точки зору його частотного рангу таким чином, що другий найбільш часто вживаний елемент є вдвічі рідшим за перший (частота перший пункт/2), третє слово має третину частоти частоти першого елемента (частота перша/3) тощо. Аж до найменш вживаного слова, яке з’являється лише один раз!
2. Чи кожна мова відповідає закону Зіпфа? Якщо ні, то які мови не відповідають закону Зіпфа?
Сандер Лестрейд: Хоча я сам цього не перевіряв, лінгвісти кажуть, що закон дійсно діє для кожної мови. (Однак я б передбачив, що це не стосується мов піджин, однак, оскільки вони не мають належної граматики.)
3. Не могли б ви пояснити нам своє відкриття? Посилання з оголошення: "Якщо ви помножите різницю у значенні в межах класів слів, з необхідністю кожного класу слів, ви знайдете чудовий розподіл за Zipfian". Не могли б ви пояснити це дещо ближче, яка різниця у значенні, як ви це вимірюєте кількісно? Можливо, допоможе приклад.
Цю семантичну ймовірність слід помножити (дослівно) з необхідністю слова цієї категорії. Мови мають правила, які говорять, як слід поєднувати слова. Дієслово вимагає однієї або двох іменних фраз (або займенників), іменна фраза, як правило, постачається зі статтею тощо Це зводиться до ряду класів слів (таких як дієслова, іменники, займенники, прийменники), які всі мають очікувану частоту використання в мові. Приблизно класи використовуються однаково часто, але вони надзвичайно різняться між собою: англійською мовою є лише три статті, але десятки тисяч іменників. Як результат, стаття буде використовуватися в середньому набагато частіше, ніж іменник.
Враховуючи те, що щойно було сказано про значення, слова не використовуються однаково часто у своєму класі. Це залежить від специфікації їх значення.
4. Чи дає вам ваше пояснення теорія деяке розуміння, чому мови будуються таким чином? Чому вони мають дистрибуцію Zipfian, а не якусь іншу?
Сандер Лестрейд: Враховуючи класи слів, які відрізняються за розміром класу за порядком чи величиною, можна було очікувати дуже жорсткого степенного закону, такого як розподіл. Тоді виникає питання, чому мови мають невеликі граматичні та величезні лексичні класи. Лексичні класи легко пояснити: нам потрібно багато слів, щоб поговорити про те, що нас цікавить. Чому розвиваються граматичні класи, менш зрозуміло. На мою думку, це випадкові побічні продукти використання мови, які лише розвиваються з часом, а не невід’ємна частина мови. Але не всі погодились би з цим;)