поки не пізно

природних

Що таке обробка природної мови?

Обробка природної мови (NLP) - це тематика, яка зосереджується на розумінні через комп’ютер людської мови. Він охоплює частину науки про дані, штучного інтелекту (машинного навчання) та лінгвістики.

У НЛП комп’ютери аналізують людську мову, інтерпретують її та надають їй значення, щоб її можна було використовувати на практиці. За допомогою НЛП ми можемо виконувати такі завдання, як автоматичне узагальнення тексту, переклад мови, вилучення стосунків, аналіз настроїв, розпізнавання мови та класифікація статей за темою.

Великий виклик

НЛП вважається однією з найбільших проблем штучного інтелекту, оскільки це одне з найскладніших і найскладніших завдань: як зрозуміти Дійсно значення тексту? Як інтуїтивно зрозуміти неологізми, іронію, жарти чи поезію? Якщо стратегія/алгоритм, який ми використовуємо, не подолає цих труднощів, отримані результати нам не будуть корисні.

Моделі, масштабні моделі та світ

У НЛП недостатньо просто зрозуміти слова, повинен розуміти Набір слів що складають речення, а на набір ліній що містять абзац. Надання глобального значення аналізу тексту/дискурсу з метою зробити хороші висновки.

Наша мова повна двозначностей, слів із різним значенням, поворотами та різними значеннями залежно від контексту. Це робить НЛП одним із найскладніших завдань для освоєння.

Для чого потрібен НЛП? Програми

Ми збираємося прокоментувати деякі найпоширеніші способи використання:

  • Зміст тексту: Алгоритм повинен знаходити головну ідею статті та ігнорувати те, що не має значення.
  • Чат-боти: вони повинні вміти підтримувати плавну розмову з користувачем і автоматично відповідати на їх запитання.
  • Автоматичне створення ключових слів Y генерація тексту дотримуючись певного стилю
  • Визнання юридичних осіб: знайти людей, комерційні чи урядові організації або країни, міста, бренди ...
  • Аналіз настрою: ви повинні розуміти, чи є твіт, відгук чи коментар позитивним чи негативним і в якій величині (або нейтральній). Широко використовується в соціальних мережах, у політиці, думках щодо продуктів та в механізмах рекомендацій.
  • Автоматичний переклад мовою
  • Автоматична класифікація тексту у вже існуючих категоріях або з повних текстів виявляйте повторювані теми та створюйте категорії.

Як комп’ютер здатний розуміти мову?

Ну, нам доведеться складати різні моделі з мовою, створювати структури і разом з ними подавати алгоритми машинного навчання:

Ми можемо почати, наприклад, взявши довгий текст. Ми використовуватимемо регулярні вирази, щоб розділити текст на слова. Ми можемо порахувати слова, їх частоту. Якщо існує шаблон, наприклад, якщо завжди після слова X, завжди приходить слово Y. Ми можемо проаналізувати, як закінчуються слова, наприклад “дієслова, що закінчуються на“ ar, er, go ”і виявити корінь слова. Ми могли б групувати слова з подібними значеннями на відміну від їхніх антонімів.

Коротше кажучи, ми можемо обробляти мову, її компоненти різними способами: граматикою, синтаксисом і намагатися створити допоміжні структури, які слугуватимуть вхідними даними для застосування Лінійної Регресії, Логістичної Регресії, Наївного Байєса, Дерева рішень або Нейронних Мереж, залежно від результату, який ми отримуємо шукають.

Поширені методики, що застосовуються в НЛП

(Спойлер: є інструменти для виконання цих технік, і не потрібно програмувати все вручну)

Інструменти, що використовуються в Python для NLP

У наступних статтях ми побачимо більш докладно приклади NLP з python, але ось короткий огляд інструментів, що використовуються в Python:

  • NLTK: Це бібліотека, з якої всі починають, вона дуже корисна для попередньої обробки, створення токенів, стемінгу, позначення POS тощо.
  • TextBlob - Він побудований на вершині NLYK і простий у використанні. Включає деякі додаткові функції, такі як аналіз настроїв та перевірка орфографії.
  • Gensim: створений спеціально для моделювання тем та включає в себе безліч методів (LDA та LSI). Він також обчислює схожість документів.
  • SpaCy: Він може зробити багато речей у стилі NLTK, але це набагато швидше.
  • WebScraping: отримуйте тексти з різних веб-сторінок

Висновки

Ми живемо у світі, в якому люди напевно відрізняються від інших видів, маючи ефективно розроблені інструменти, такі як мова. Ми спілкуємось постійно, говорячи, словами, жестами. Нас оточують символи, знаки, позначення, одиниці та нулі. НЛП - це фундаментальний інструмент, який ми повинні навчитися та засвоїти, щоб навчити наші машини та зробити їх набагато універсальнішими при взаємодії з навколишнім середовищем, даючи можливість краще розуміти та пояснювати себе: спілкуватися.

Ми повинні вміти розуміти різні інструменти та техніки, що використовуються в НЛП, і знати, як використовувати їх для вирішення відповідної проблеми. НЛП охоплює багато-багато спектру і є подорожжю, яка починається, але ніколи не закінчується ... нові документи та нові інструменти дії продовжують з'являтися. Поєднуючи ці «традиційні» методи НЛП із глибоким навчанням, поєднання нових можливостей є експоненціальним.!

Підписка на блог

Отримуйте нові статті про машинне навчання, нейронні мережі, NLP та код Python раз на місяць. ЯКЩО є удача 2 рази 😉

Майбутній НЛП та ресурси

Поки я залишаю вам список цікавих статей також із вправами NLP на Python: