навчання

Кожного разу, коли ми робимо фотографії за допомогою смартфона, робимо пошук в Інтернеті, розміщуємо публікації в соціальних мережах або використовуємо GPS стільникового телефону, ми залишаємо свої відбитки пальців у всьому світі. Ми генеруємо величезні обсяги даних щохвилини, і цифри будуть зростати лише протягом найближчих кількох років - ласкаво просимо у вік масштабних даних та гіперінформації.

Для підприємств цей сценарій викликає тривожну проблему: як швидко та ефективно обробити тонни неструктурованої інформації?

В останні роки машинне навчання стало стратегічним напрямком цифрових інновацій у бізнесі і трансформує спосіб їх роботи, автоматизуючи процеси та дозволяючи отримувати аналітичні дані в реальному часі. Почнемо спочатку:

Що таке машинне навчання?

Машинне навчання - це підгалузь у галузі штучного інтелекту (ШІ), здатна створювати алгоритми, що дозволяють комп’ютерам навчитися виконувати завдання з даних, замість того, щоб бути явно запрограмованим. Ці "моделі" здатні ідентифікувати закономірності на основі навчальних даних (приклади) і здатні прогнозувати майбутні події з певним рівнем впевненості та приймати рішення без втручання людини. Це особливо цінно для обробки великих баз даних та автоматизації процесів.

Для Spotify використання машинного навчання є центральним елементом у їхній стратегії: воно дозволяє їм пропонувати персоналізований музичний досвід своїм користувачам та рекомендувати нові пісні на основі їхніх смаків та інтересів.

Google, зі свого боку, використовує його для блокування спам-повідомлень з вхідних скриньок своїх користувачів у Gmail. Завдяки алгоритму, навченому машинному навчанню, він аналізує мільйони повідомлень і здатний виявляти потенційно небажані шаблони електронної пошти.

У свою чергу, ця технологія має тісні зв’язки з іншою галуззю досліджень, похідною від ШІ: обробка природної мови (НЛП). НЛП прагне, на що здатні комп'ютери розуміти людську мову: не лише з точки зору того, що говорить текст чи доповідач, але - особливо - того, що це означає: намір, почуття, тема. Для аналізу цих письмових чи усних повідомлень НЛП інтегрує поняття машинного навчання, лінгвістики та інформатики.

Поєднання НЛП та машинного навчання дозволяє будувати моделі, здатні навчитися тлумачити людську мову. Однією з найцікавіших сфер, пов'язаних з цим, є аналіз тексту: аналізувати текст автоматично.

Як використовується машинне навчання для аналізу тексту?

Загалом, автоматичний аналіз тексту використовує два специфічні прийоми: класифікація та вилучення.

Моделі класифікації тексту працюють шляхом присвоєння категорій даним відповідно до їх змісту. Це дозволяє виконувати такі завдання, як Аналіз настрою (виявити відчуття тексту), Аналіз теми (визначити його тему чи тему), Визначення мови (виявити мову, якою він написаний) та Визначення намірів (визначити намір, висловлений автором текст). текст). Наприклад, ми могли б використовувати текстовий класифікатор, щоб проаналізувати вміст тисяч твітів про бренд і класифікувати настрої кожного повідомлення як "позитивні", "негативні" або "нейтральні".

Моделі вилучення тексту, навпаки, засновані на виявленні та отриманні певної частини інформації, що присутня в тексті. Він використовується в таких завданнях, як вилучення ключових слів (визначення найрелевантніших ключових слів у тексті), розпізнавання суб’єктів (ідентифікація імен людей чи компаній) та вилучення підсумків (створення підсумків тексту) Якщо ми мали на меті вилучити назви компаній, технічні характеристики продукції чи інші дані, що містяться в тексті, ми повинні використовувати моделі вилучення.

Які програми він має у галузі?

У MonkeyLearn * у нас є клієнти з різних областей та галузей, які використовують машинне навчання для автоматизації процесів, економії годин ручної праці, отримання цінної інформації в результаті аналізу даних та використання її для прийняття кращих бізнес-рішень.

Поки що сферами, в яких ми найбільше працювали, є підтримка клієнтів та відгуки клієнтів.

Підтримка клієнтів

Завдяки машинному навчанню та NLP команди підтримки клієнтів можуть автоматизувати деякі свої щоденні процеси та отримувати цінну інформацію в результаті аналізу бесід зі своїми клієнтами.

Завдяки використанню моделей, що дозволяють ідентифікувати теми або теми, класифікувати їх відповідно до настрою чи наміру клієнта, виявляти, якою мовою вони знайдені, і - щось дуже важливе в цій галузі - визначати рівень актуальності повідомлення, служба підтримки клієнтів може:

  • Автоматично позначайте квитки підтримки запитами або скаргами (те, що робиться вручну),
  • Автоматично отримуйте квитки до найбільш підходящих команд, які з ними мають справу (наприклад, якщо надходить технічний запит, технічна команда автоматично передається),
  • Визначте терміновість квитка та своєчасно визначте його пріоритети (наприклад, якщо клієнт веб-сайту електронної комерції скаржиться на те, що товар доставлений зламаним).

Відгуки клієнтів

MonkeyLearn також дуже корисний для обробки всіх видів відгуків клієнтів, будь то відповіді на опитування задоволеності, відгуки про товари та коментарі в соціальних мережах, серед іншого.

Проста і швидка наша платформа дозволяє створювати моделі машинного навчання, щоб автоматично розуміти та структурувати цей зворотний зв’язок і, таким чином, мати змогу отримати цінну інформацію для прийняття рішень. Це дозволяє уникнути завдання читати кожен текст вручну, тим самим заощаджуючи час та ресурси для компаній.

Опитування NPS (Net Promoter Score), наприклад, є одним з найпопулярніших показників зворотного зв'язку із клієнтами. Вони дозволяють виміряти лояльність користувачів до товару чи послуги та класифікувати їх як промоутерів або недоброзичливців. На додаток до числового рейтингу, ці опитування включають наступне запитання у стилі "чому ви дали нам цей бал?". Ці відкриті відповіді часто важче обробити і можуть мати невідповідність.

Уявімо, що користувач присвоює компанії оцінку 6, а потім коментує: «Товар чудовий, я люблю його UX, і він справді простий у використанні. Погана його ціна: вона занадто дорога ». Для обробки цього коментаря потрібно призначити йому категорії чи теги, наприклад, таким чином:

  • "Товар чудовий, мені подобається його UX, і він справді простий у використанні":
    • Аспекти: UX, простота використання
    • Почуття: позитивне.
  • "Погана його ціна: вона занадто дорога":
    • Аспекти: Ціна.
    • Відчуття: негативне.

А тепер уявіть, як вручну обробляти 5000 таких відповідей. це дорого, трудомістко і нудно для компаній.

Використання машинного навчання для аналізу відкритих відповідей дозволяє додати новий вимір до ваших даних. Це не тільки дає змогу автоматично інтерпретувати настрої користувачів (аналіз настрою), але й про те, про які аспекти чи теми вони говорять (виявлення тем) і які конкретні терміни часто трапляються стосовно цих тем (вилучення ключових слів). За результатами цих аналізів отримують уявлення, які суттєво покращують процес прийняття рішень і дозволяють компаніям зосередитись на вдосконаленні досвіду в ключових моментах для клієнтів.

Як застосовувати його в компаніях?

У MonkeyLearn ми пропонуємо різні варіанти моделей із машинним навчанням. Вибір найбільш зручного буде залежати від конкретних потреб кожної компанії чи району.

Для тих, хто хоче розпочати негайно, у нас є попередньо навчені моделі для автоматичного аналізу текстів англійською мовою. Наприклад, ця попередньо підготовлена ​​модель аналізу настроїв забезпечує досягнення результатів, близьких до рівня техніки.

З іншого боку, ми вважаємо, що кожна проблема є унікальною, і що багато разів для досягнення більшої точності прогнозів необхідно створити власну модель машинного навчання. Для цього ми розробили графічний інтерфейс у MonkeyLearn, який дозволяє користувачам без програмування чи знань про машинне навчання легко створити модель класифікації або вилучення, імпортуючи свої дані, створюючи власні теги та використовуючи власні критерії для навчання алгоритму. Наразі моделі можна навчити аналізувати тексти більш ніж на 20 мовах, включаючи іспанську, англійську, португальську, німецьку, італійську, французьку, китайську, японську та ін.

Загалом, наші клієнти починають із попередньо підготовленої моделі, а потім переходять до навчання спеціальних моделей для більшої точності та деталізації.

Поради щодо перших кроків

Основною рекомендацією для тих, хто починає машинне навчання, є прогресувати поступово. Почніть з підготовки лише однієї чи двох моделей для конкретних завдань, спостерігайте, яку цінність вона додає компанії, і лише потім придумуйте нові моделі для спрощення інших процесів.

Легко піддатися спокусі хотіти автоматизувати багато процесів одночасно. Але це просто пригнічує і засмучує, витрачаючи час і цінність для бізнесу. Незважаючи на те, що машинне навчання доступне як ніколи, необхідно враховувати, що воно має криву навчання і що воно, як правило, вимагає внесення змін до певних внутрішніх процесів компаній, перш ніж вони готові стартувати.

Наша друга порада при навчанні першої моделі за допомогою машинного навчання - це зосередити увагу на якості даних. Це правда, що чим більше прикладів буде використано для навчання моделі, тим точнішими будуть її прогнози. Але врешті-решт якість даних має більшу вагу.

Бажано використовувати 1000 прикладів навчання, але переконайтесь, що вони добре марковані та відповідають ситуаціям, яким ви хочете навчити модель, ніж використовувати втричі більше прикладів, але з помилками маркування (тег, який було призначено до прикладу) або які не надто відповідають модельованій проблемі.

Використання машинного навчання для аналізу текстів автоматично відкриває двері для безмежних можливостей для вдосконалення та конкурентних переваг для компаній. Справжня цінність даних полягає не лише в тому, що вони є, але в тому, щоб вони говорили та могли використовувати їх як керівництво для прийняття кращих рішень: передбачити кризу, вдосконалити продукт, відрізнити себе від конкурентів.

Початок роботи з машинним навчанням може бути дуже простим. Якщо вам цікаво і ви хочете вивчити можливості, які це може запропонувати для вашого проекту або бізнесу, ми запрошуємо вас зареєструватися на MonkeyLearn і спробувати платформу.

* MonkeyLearn - це платформа, яка народилася в Уругваї і пропонує компаніям рішення для автоматичного аналізу текстів за допомогою машинного навчання.