Давайте подивимось, чи звучить це для вас знайомим: "Я не знаю, як аналізувати дані ... і я боюся, що це тому, що я не знаю статистичних даних і тим більше як їх застосовувати"

Ви коли-небудь чули про статистику? Або ви навіть вивчали предмет в університеті. Настав час застосувати його ... і ви навіть не знаєте, з чого почати.

Звичайно, зараз у вас є питання, яке вас турбує:

¿Який статистичний метод я застосовую? аналізувати дані мого проекту?

Іншими словами

¿Як я можу проаналізувати свої дані ефективно?

Дуже нормально мати цю стурбованість. Прикладна статистика - це живий інструмент що вимагає практики та зосередження.

Сьогодні я хочу вам показати глобальне та практичне бачення процесу аналізу даних і як знайти фокус, необхідний для аналізу даних як професіонал.

Зміст

# Який метод є найбільш підходящим для аналізу даних мого проекту?

Як я тобі казав. Невідомість того, який метод застосовувати чи як застосовувати застосовану статистику, є дуже постійним занепокоєнням.

Прикладна статистика є дисципліною с безліч прийомів та концепцій. І я можу уявити собі безлад, який зараз у вас у голові.

У цьому дописі я безпосередньо атакую ​​цю стурбованість, яка вас турбує.

Для його вирішення необхідно розглянути 4 дуже важливі аспекти.

¿Які етапи повного процесу аналізу даних?

¿Що таке таблиця даних і як вона впорядковується? ( Змінні)

¿Як я можу інтерпретувати дані? ( Розвідка)

¿Який статистичний прийом я застосовую в кожному випадку? ( Аналіз)

¿Яке програмне забезпечення я використовую і як навчитися користуватися ним??

Зараз я покажу вам ці важливі аспекти:

Які етапи процесу аналізу даних?

Важливо, щоб у вас була загальна фотографія процесу аналізу даних. Ви можете загубитися в кількості статистичних методів та стратегій, які є у вашому розпорядженні.

Зосередженість - це ключ до вашого успіху. Далі я представляю вам 6 етапів, які складають повний процес аналізу даних:

  1. Проблема . Все народжується з проблеми, з реальної потреби. На цьому етапі ви визначите фокус і мету проекту. "Як проаналізувати дані" залежить від цієї відправної точки. Найбільш важливим.
  2. Спогад . Це розробка методу отримання ДАНИХ. Більш технічно це процес експериментів. Це може бути опитування, тести в лабораторіях, з пацієнтами, харчуватися маркетинговими даними в соціальних мережах тощо ... Для отримання хороших вихідних даних важливо попередньо визначити таблицю даних.
  3. Прибирання Гомогенізуйте дані за форматом, скасуйте спостереження, які вас не цікавлять, і зберігайте найкорисніші. Побудуйте нові змінні з існуючих. Вступаю в інші дії.
  4. Розвідка . Використовуючи описову статистику, ви можете перевести ДАНІ в графіку та характеристики, які можна інтерпретувати. Цей етап дослідження є синонімом відкриття. Щоб "поговорити" з даними.
  5. Аналіз . За допомогою статистики висновків ви знайдете висновки з великої сукупності (сукупності) з інформацією з невеликої частини цієї сукупності (вибірки). Іноді у вас можуть бути дані для всієї сукупності. Перевірка гіпотез - найвідоміший інструмент умовиводу. Але є й інші неймовірні та потужні методи: кореляція, статистично-наслідкові моделі, алгоритми регресії та класифікація. І такі методи, як кластеризація, зменшення розмірів або правила асоціації. Серед іншого.
  6. Висновок Ви інтерпретуєте результати аналізу та перелічите висновки. Ви будете набагато ближче до мети, яку ви поставили на початку. І вирішення початкової проблеми.

Наприкінці цього допису я збираюся розкрити секрет, який я хотів вам розповісти. І це пов’язано з останніми трьома етапами, які ви зараз бачили 🙂

Я розповім вам, як аналізувати дані, як тільки таблиця даних буде готова до роботи.

Що таке таблиця даних і як вона впорядковується?

Зараз я зупиняюся. На 4 стадії розвідки. У ньому ви починаєте працювати з даними, які вже є чистими та упорядкованими. Ви почнете моделювати таблицю даних.

Щоб ви мене зрозуміли, таблиця даних - це масив зі своїми клітинками. Щось схоже:

використання

  • рядки є спостереження. Спостереження - це час, який ви вимірюєте. Спостереженнями можуть бути: пацієнти, рослини, тварини, особини, події, дні тощо.
  • колонки є змінні. Змінні - це характеристики, які ви збираєтесь виміряти. І є два чудові типи. Я розповім вам нижче.
  • заголовок є імена змінних. Зазвичай ім'я подається в першому рядку.

Це здається дурним дуже важливо. Розуміння того, що ваша таблиця даних - це стовпці з цифрами чи літерами, є надзвичайно важливим.

Так само класифікація змінних. змінні - це характеристики, які ви збираєтесь виміряти. І на практиці ви збираєтеся зустріти двох чудових хлопців.

  • Кількісний . Є числа і вони мають од. Вони мають відчуття масштабу. Вони можуть бути дискретними (без десяткових знаків) і неперервними (з десятковими). Наприклад, вага в кг.
  • Якісний Є етикетки або Імена речей. Країна походження, сімейний стан, стать тощо ... Вони можуть бути іменними або порядковими.
  • Порядковий (якісний) . Вони є особливий вид якісний з a мають a відчуття масштабу. Наприклад: якість послуги може бути справедливою, нормальною, доброю, дуже хорошою.

Я даю вам найважливіші основи, щоб знати, як аналізувати дані. А зараз я вам покажу розвідка. Або також називається, опис. Це принципова частина. 🙂

Як я можу інтерпретувати дані?

Отримавши таблицю даних, очистіть. Зрозумійте, які у вас змінні та що вони означають. Життєво важливо, що ви можете переглянути інформацію, приховану в цій таблиці.

Що це означає? Знати інтерпретувати цю таблицю даних і мати можливість спілкуватися з вашими даними. Відкрийте для себе дуже цікаву інформацію за допомогою графіки.

Описова статистика Це допоможе вам побачити інформацію, яку ви не можете побачити неозброєним оком. Ви збираєтеся використовувати графіки а також числові характеристики простий.

У цій публікації ви побачите список з найбільш типові діаграми пояснюються по черзі 🙂

Який статистичний прийом я застосовую в кожному випадку?

Або по-іншому, який статистичний тест я застосовую?. Відчуття того, що не контролюєш усі статистичні прийоми, трохи вражає. Але не хвилюйтеся! Я спробую скасувати це почуття.

Найголовніше - зрозуміти типові проблеми. А сьогодні я вам покажу 6 найпоширеніших проблем:

  1. Порівняння засобів. Розрізнити, якщо одна група відрізняється від іншої . Наприклад, "подивіться, чи вище артеріальний тиск у групи пацієнтів із ожирінням, а у тих, які цього не роблять". З одного боку, у вас є числова змінна (артеріальний тиск), а з інших груп пацієнтів (із ожирінням або без нього)
  2. Порівняння пропорцій. Розрізнити, якщо пропорції відрізняються від однієї групи до іншої . Наприклад: "Чи різниться частка нещасних випадків на мотоциклах для вікових діапазонів 15-20, 20-25, 25-30 та 30-35?" У нас є 4 пропорції, які ми хочемо порівняти.
  3. Асоціація. Подивіться, чи пов’язані групи, у таблиці непередбачених ситуацій . Наприклад, "Чи існує взаємозв'язок з точки зору точності (хорошої, справедливої, поганої) аналога та оптичного вимірювального пристрою?" В основному це стосується якісних змінних.
  4. Співвідношення. Проаналізуйте, чи існує зв'язок між числовими змінними . Зв'язок між кількісними змінними. Наприклад «Ви маєте дані від 200 сімей про заробіток та витрати. Чи правда, що чим більше маєш, тим більше витрачаєш? "
  5. Причинно-статистичні моделі. Обчисліть математичну модель, яка дозволяє передбачити змінну на основі інших . Наприклад "Модель, яка дозволяє розрахувати максимальний пульс на основі таких даних, як вік, низький і високий кров'яний тиск, стать, зріст і вага"
  6. Передові методи розпізнавання зразків або машинне навчання. Прогнозні моделі та алгоритми, щоб мати можливість надати відповіді на ваші дані та вирішити реальні проблеми за допомогою персоналізованих програм для вашої справи. Наприклад: "Оцініть ймовірність діабету пацієнта лише з такими характеристиками, як вік, вага, зріст та аналіз крові"

Ці проблеми є частиною Карти загальної чіткості, якою я поділюсь з вами під час безкоштовного навчання. Ви набагато краще зрозумієте ці випадки на прикладах знати, яку техніку застосовувати в різних випадках. І я також покажу вам, як успішно аналізувати дані, на прикладах:

Безкоштовна статистика навчання

"Як успішно аналізувати дані проекту, не витрачаючи тисячі годин на читання книг зі статистикою". 👇

Яке програмне забезпечення я використовую і як навчитися користуватися ним?

Одним з найважливіших моментів є знати, як застосовувати статистичні концепції та методи з реальними даними. Це магія прикладної статистики. Існує багато програмного забезпечення. Деякі рекламні ролики інші ні. І рішення може здатися важким, але це не так.

Для мене програмне забезпечення, яке принесло мені найбільші переваги в середньостроковій перспективі, було R з RStudio. Чому? З цих причин:

  1. По-перше, тому що безкоштовно.
  2. По-друге, тому що це a консолідоване програмне забезпечення з величезною спільнотою. З великою вагою як в межах науково-дослідні центри як у Бізнес.
  3. І по-третє, адже як тільки ви пройдете початкову криву навчання,Ви можете продовжувати рости в режимі "зроби сам". І не буде кого зупинити!

І ви можете подумати, що це лише для програмістів, оскільки він використовує код. Але це не зовсім так. Якщо у вас є стандартні шаблони коду, ви можете виконати дуже швидкий та ефективний статистичний аналіз без детального вивчення структури програмування.

Але я не збираюся вас обдурювати, якщо ви хочете використовувати цю програму на просунутому рівні, вам потрібно буде використовувати програмування, щоб скористатися всіма можливостями програмного забезпечення.

Ось стаття це допоможе вам розпочати роботу з R та зрозуміти потенціал цього інструменту.

# Як аналізувати дані як професіонал? Перевірена методологія поетапно

І це таємниця, яку я хотів сьогодні вам відкрити! І щоб зрозуміти цю таємницю, я хотів би обов’язково включити основні аспекти роботи проекту аналізу даних. З цієї причини я пояснив моменти початку 😉

Схід секрет - це поетапний метод. Методологія застосування.

Є 4 кроки які, з мого досвіду, повторюються в будь-який процес аналізу даних. І сьогодні я розкрию їх вам:

# КРОК 1. Визначте ОДНУ мету для свого проекту (і лише одну)

На цьому кроці ви збираєтесь визначити ціль вашого проекту та ТІЛЬКИ одну. Людина, як правило, ускладнюється (я перший), дуже важливо зосередити зусилля на одній цілі. Визначте його, дотримуючись наступних пунктів:

  1. Яку проблему я хочу вирішити за допомогою цих даних?
  2. Що означають змінні?
  3. Які у вас змінні?
  4. Визначте 1 ціль і лише 1, яка допомагає вирішити проблему, яку ви визначили в пункті 1

# КРОК 2. Дослідіть дані а-ля Шерлок Холмс

Мені подобається Холмс. Тому що це здатне сортувати всю інформацію різних сцен та підозрюваних, щоб розчистити початковий безлад.

До того, як Шерлок Холмс знає, хто вбивця, Холмс досліджує різні сцени: пошук предметів, допит підозрюваних та присутніх тощо. "Досліджуйте" за допомогою лупи навряд чи місця. Отримати список об'єктів та відповідних фактів. Потім проаналізуйте їх щоб з’єднати крапки і знайти винного.

І ми будемо робити те саме. Перш за все ми дослідимо, а потім проаналізуємо.

Етап опису (або розвідки) Він складається з таких пунктів:

  1. Створіть діаграми більш доречним
  2. Інтерпретувати діаграми
  3. Знайдіть свої перші підказки. Ваші перші попередні висновки
  4. Перелічіть ознаки в порядку важливості що графіка відкрила вам

Цей крок є фундаментальним і дуже важливим.

Ви зможете зібрати дуже корисну інформацію зі своєї таблиці даних, і перелічите її в порядку важливості.

Знання графічних інструментів описової статистики є дуже важливим. Якщо ви отримаєте доступ до безкоштовного тренінгу, ви можете завантажити PDF-файл, який включає, серед іншого, список графіки, яку ви можете застосувати сьогодні:

Безкоштовна статистика навчання

"Як успішно аналізувати дані проекту, не витрачаючи тисячі годин на читання книг зі статистикою". 👇