Петер Темпфлі, запрошений автор одного з авторів блогу «Комп’ютерна лінгвістика»
Яндекс - восьмий за величиною пошуковий механізм у світі, хоча Росії може бути краще говорити про «російськомовний Інтернет» (РУНЕТ), оскільки він використовується в усьому російськомовному світі. Той факт, що він перемагає Google на вітчизняній - російськомовній доріжці, говорить багато про що: Яндекс володіє 64 відсотками ринку, тоді як американська компанія має понад 21 відсоток.
Що знає Яндекс?
Практично все, що ви очікуєте від пошукової системи. Ми можемо вводити складні пошукові терміни так само, як це робимо в Google. Лапки, знаки плюс і мінус можна використовувати аналогічно; Ви також можете вказати символ * (будь-яке слово), встановити, скільки слів зустрічається між двома словами, і вказати оператор “або”. Оскільки російська мова є дуже сполучною, форми слів відіграють важливу роль. За замовчуванням здійснюється пошук усіх перекладених версій слів, тобто неважливо, вкажете ви "чай" чи "з чаєм" російською мовою. Однак, якщо словоформа важлива, ми можемо прописати знак оклику, і він поводитиметься так, ніби знаходиться між часовими знаками. А якщо ви хочете знайти форму словника спряженої форми, ви можете проінструктувати програму двома знаками оклику. До речі, Google також знає, як шукати складені форми, але Яндекс, спеціально заточений російською мовою, набагато гнучкіший при введенні пошукових термінів.
Чим менше, тим більше?
Інші хитрощі Google також відомі російській пошуковій системі: зображення, відео, карти, переклади, а також останні звернення, терміни автозаповнення пошуку. Яндекс робить ще кілька заявок і, на мою суб'єктивну оцінку, трохи точніший у тому сенсі, що пропозиції здаються "більш російськими". До речі, результати пошуку Яндексу також здаються часом кращими, краще відображають російськомовний Інтернет. Наприклад, Google шукає “соціальна сеть” (соціальна мережа) фактично лише для інформації про фільм, а Яндекс спочатку надає найбільший російський сайт соціальних мереж (Vkontakte.ru), потім ми отримуємо статтю у Вікіпедії, деяку інформацію про фільм, та інші російські сайти соціальних мереж також опиняться у топ-10 результатів. Це може пояснюватися тим, що місцеві сайти повинні конкурувати з даними з усього світу в базі даних Google, тоді як на "домашньому рівні" сайти, які не є настільки актуальними у всьому світі, також можуть отримати високі рейтинги. За їх словами, рідше, може, навіть більше? (Слід також додати, що кількість російських сторінок, проіндексованих Яндексом, є конкурентом російськомовній базі даних Google)
Шукати статисти
Це гарна ідея, і послуга, яка також існує в Google, включати різні "додаткові послуги" в пошук, якщо це доречно, наприклад. карта, словник одержимість курси валют. Фондовий ринок, погода, географічний та подібні "зрозумілі" речі, які знає Яндекс, крім того, що демонструє іноді симпатичні, а іноді корисні інші трюки. Наприклад, він з хорошою точністю розпізнає, якщо вірші ми шукаємо і даємо відразу весь текст. Якщо ми відчуваємо спрагу і прагнемо якогось алкогольного напою, негайно рецепти коктейлівнам треба поспішати на допомогу. Якщо ми введемо “мій айпі”, тобто “мій ай-пім”, ми отримаємо інформацію про нашу IP-адресу та швидкість нашого зв’язку, якщо це поточний літній час у нашому місті. закупорювання водою ми хочемо щось знати, отримаємо відповідь відразу (останнє - дуже поширена російська реальність!).
Маяковський: Вірш про радянський паспорт
Коктейль “Штопор”. Праворуч за компасом ви також можете замовити більш складний та/або міцніший напій.
Можливо, розробники трохи подумали про себе, коли включили більший у пошукову систему опис основних функцій мов програмування - перший результат терміна “відсортований пітон” одразу дає синтаксис та базові знання цього терміна. Список мов вражає: Perl, PHP, PostgreSQL, Python, C/C ++/STL, Win32, Java, HTML/CSS/JavaScript, MySQL.
Послуга надання інформації про хімічні елементи може бути не дуже цікавою, не кажучи вже про час. Це не надто дивно, що ви даєте місцевому часу ввести слово “час”, трохи цікавіше мати можливість задати питання кількома способами: скільки годин? Котра година? Термін “Разница во времени между Москвой и Будапештом” - “Різниця між московським та будапештським часом” також може бути інтерпретований машиною, в якій найцікавіше те, що ви повинні розпізнавати спряжені форми назв міст.
Подорож до глибини Матриці (нетто)
Яндекс має філію в Каліфорнії під назвою Яндекс-Лабораторії, яка проводить дослідження технологій пошуку та суміжних областей (обробка мови, машинне навчання). Тут також розробляється алгоритм Matrixnet, що працює глибоко в Яндексі, який відповідає за ранжування хітів. Ця процедура базується не на простій формулі, а на динамічному ранжуванні різних факторів та статистичному навчанні на основі успіху попередніх результатів пошуку. Головне цікаве, що сам алгоритм змінюється з кожним пошуком, так що він адаптується як до терміну пошуку, так і до характеру результатів.
Це приблизно слід розуміти як таке, що машина враховує, скажімо, пошук за назвою міста або функцією мови програмування, а також переглядає зміст результатів, отриманих перед створенням остаточного рейтингу. Наприклад, для деяких пошуків кількість посилань підраховує більше, ніж релевантність пошуку, тоді як для інших типів пошуку думки інших користувачів щодо цього документа є більш важливими. Крім того, в систему вбудовано контрольоване машинне навчання, що означає, що людські ресурси використовуються для створення зразків "хороших" хітів, а алгоритм уточнює результати на основі них.
Отже, вищезазначена техніка відрізняється, наприклад, з пошуку Google, щоб персоналізувати не тільки результати, а й саму початкову формулу (це алгоритм PageRank для Google). Звичайно, формула, очевидно, однакова з Яндексом, але це, за їх власним твердженням, надзвичайно довге і складне, з великою кількістю параметрів, які змінюють його, щоб створити практично незалежний алгоритм для кожного пошуку.
Нарешті, з Яндекса також відомо, що завдяки величезному обсягу даних пошук здійснюється паралельно в різних частинах індексу, а результати об’єднуються на одному останньому кроці. Яндекс, як і інші пошукові системи, не має центрального сервера або штаб-квартири, але розміщує машини в декількох центрах обробки даних. Для багатьох також не дивно, що більшість співробітників Яндексу не уявляють, де розташовані машини.
- Все, що ви можете знати про умови підтримки Baby Waiting, доступні з 1 липня 2019 року!
- Все, що ви можете знати про котячі вуха
- Все, що ви хотіли знати про м’язову дисморфію, психолог Finder
- Порода Регдолл Опис Все, що вам потрібно знати про журнал Zooplus Cat
- Все, що потрібно знати про висипання! Аптеки BENU