Оскільки я регулярно отримую запитання та коментарі щодо статистичних даних, таких як напр. середній вік, середній дохід, очікуваний вік тощо. і багато разів виявляється, що є помилка в їх інтерпретації або правильному використанні, я думав, що дам короткий огляд, щоб інтерпретувати основні статистичні дані та розрахунки.

Сподіваюсь, ви не цуралися вступу, бо я буду писати про речі, які справді пахнуть життям. Я не гарантую, що ви все зрозумієте, прочитавши цю публікацію, але це хороша відправна точка, і її варто час від часу перевіряти, тому що я буду постійно оновлювати/розширювати текст.

статистичні

Майже в кожному письмі про вихід на пенсію є коментарі на кшталт "я все одно не буду того вартий", в яких говориться про те, наскільки низький середній вік. Але також оманливим є той факт, що ОГС щоквартально публікує середній дохід, збільшення якого багато хто не відчуває на власній шкірі. Статистика також стосується того, скільки народжених та померлих за певний місяць/рік, які висновки з цього можна зробити (улюблені умови маніпуляцій політиків), і навіть середній розмір кредиту, ВВП на душу населення або рівень самогубств - це все статистика. Але ми також можемо використовувати статистику для технічного аналізу окремих валютних курсів, таких як. напр. ковзні середні для різних періодів часу. На жаль, багато хто розуміє усереднення до певної міри, хоча в цьому є набагато більше, і статистика є майже приємним полем.

Давайте подивимось на основні основи по черзі

Середнє арифметичне

Найпростіший і, можливо, тому найбільш широко використовуваний показник. Наприклад, він використовується для визначення зазначеного середнього віку.

Формула: середнє = сума окремих значень/кількість окремих значень

Наприклад, Ződség Bt. Пропонує 4 види помідорів для овочів: 200, 350, 400 та 700 HUF. Яка середня ціна помідорів у Ződség Bt? (200 + 350 + 400 + 700)/4 = 412,5 Ft

АЛЕ! Вищезгаданий пенсійний песимізм не ґрунтується на середньому віці, оскільки він представляє середній вік людей, які зараз живуть, і НЕ дорівнює тривалості життя. Тож живуть кілька місяців, але також старше 90 років. Якщо додати вік кожного і поділити його на “кількість людей” усіх людей, ми отримаємо середнє значення. Отже, якщо в Угорщині мешкає 10 мільйонів людей, а сума їхньої кількості років (ще раз 1 на 1 рік, 100 на 100) становить 450 мільйонів, то середній вік становить 450/10 = 45 років. В даний час це приблизно середній вік жінок у Будапешті. Але, як бачите, це саме по собі нічого не означає, напр. у дослідженні пенсійної проблеми, але корисна відправна точка для виявлення старіння суспільства.

Середньозважене арифметичне

Це має сенс при роботі з великою кількістю даних та визначенні діапазонів, таким чином групуючи дані. Наприклад, середній вік обчислюється шляхом визначення 0-10, 11-20, 21-30…. вікові смуги. Потім ми обчислюємо середнім шляхом множення середини кожної смуги (5, 15, 25, ...) на кількість людей у ​​смугах і ділимо це на загальну кількість частин.

Приклад: 1М для 0-10 років, 800e для 11-20 років, 1.2M для 21-30 років, 2M для 31-40 років, 1M для 41-50 років, 2M для 51-60 років, 1,5M для 61-70 років 0,5M. Загалом 10 мільйонів людей. Кожен центр смуги множиться на кількість частин, тому 5 * 1M + 15 * 0,8M + 25 * 1,2M + 35 * 2M + 45 * 1M + 55 * 2M + 65 * 1,5M + 75 * 0,5M = 407M, потім ділиться на 10М. Таким чином, в результаті виходить 40,7 року. Очевидно, не настільки точним, як середнє значення, але якщо ми маємо багато унікальних даних, ми можемо отримати хорошу апроксимацію. До речі, саме такий середній вік чоловіків у Будапешті.

А тоді давайте подивимось, як ви можете зробити цей фокус? Врешті-решт, ми на Mo. J Запис треків пропонує чудові можливості. Давайте розглянемо приклад визначення середнього доходу. припустимо, нас цікавить середній дохід людини з доходом 5 млн:

  1. Діапазони доходів визначаються таким чином: 0-150 тис. Форинтів: 2 млн. Чоловік; 150-250: 2M основний, 250-: 1M

Середні діапазони: 100, 200, 300 тис. Форинтів. Загальне середнє: (2 млн. * 100 + 2 млн. * 200 + 1 млн. * 300)/5 млн. = 180 тис. Форинтів.

  1. Але ми також можемо визначити смуги для тієї самої сукупності наступним чином: 0-100 тисяч: 1,5 мільйона, 100-200: 2 мільйони, 200-300: 1 мільйон, 300-: 0,5 мільйона

Тоді смуга означає: 50, 150, 250, 350. Загальне середнє: (1,5M * 50 + 2M * 150 + 1M * 250 + 0,5M * 350) = 160e HUF.

Тож середній дохід того самого населення, що працює з іншими групами, відрізняється на 20 тис. Форинтів.

Очікуване значення

Це конкретна величина, яка визначає майбутні значення з минулих статистичних даних та їх тенденції. Або, у випадку випадкових подій, зверніться до інструментів імовірності. Потім вони можуть бути скориговані на сезонні (наприклад, влітку очікується вичерпання більшої кількості мінеральної води) або циклічні ефекти (наприклад, відома циклічна природа ферми) і навіть окремі наслідки (наприклад, очікується, що діти Ратко стрибнуть до 20- 25) тощо, але давайте дотримуватимемося основ зараз.

Отже, залишаючись на нашому прикладі, тривалість життя при народженні суттєво відрізняється від середнього віку, який визначається ОГС щороку. Цей показник означає, як довго очікується проживання немовлят, народжених у даному році. Тривалість життя в кожному віці різна. Це пов’язано з тим, що зі статистичних даних виключається смерть молодих людей. Таким чином, можливо, що тривалість життя при народженні становить лише 74 роки, але у віці 65 років - коли ми досягнемо пенсійного віку - ми проживемо ще 16-18 років. Щоб зробити це ще більш реалістичним: якщо ви переживете вразливий вік 45–55 років, швидше за все, ви проживете довго.

З вищевикладеного випливає, що тривалість життя, визначена в даному році, поширюється на всіх, і хоча середня тривалість життя чоловіків у віці 17 років у Будапешті сьогодні становить 69,28 року, серед народжених минулого року - 74,27 року. А однорічним дівчаткам понад 80 років.

Тож у мене є “погана” новина: ми досягнемо пенсійного віку.

Медіана

Це коротке середнє значення. Отже, якби ми вибудували всіх людей, які живуть в Угорщині, відповідно до їх віку, то, вибравши того, хто посередині, він був би медіаною. Звичайно, це може збігатися із середнім показником, але якщо т. Зв. розподіл не є симетричним, тоді можна отримати медіану, абсолютно відмінну від середньої. Це, мабуть, зрозуміліше, ніж обчислення доходів. Хоча середнє значення кількох сотень непогашених доходів підвищує середнє, медіана ще не зростає. Однак стандартне відхилення - так (про це далі).

Режим

Найпоширеніша цінність. Це значення, яке найчастіше зустрічається у статистичній сукупності, тобто найпоширенішим є вік, дохід тощо. Якщо ми визначимо діапазони доходу, діапазон, до якого належить більшість людей (наприклад, ті, хто має дохід 150-200e HUF), може бути режимом. Очевидно, це набагато корисніше для статистики доходів з соціальної точки зору, ніж середній дохід.

Розсіювання

Якщо говорити дуже просто, то стандартне відхилення - це число, на яке кожне значення в середньому відхиляється від середнього. Знову дивлячись на доходи, він показує відхилення від середнього доходу, більш популярно розмір отвору ножиць для доходів, який надає інформацію про фінансовий стан тих, хто має доходи вище і нижче середнього. Очевидно, що чим меншим є стандартне відхилення, тим більше сенсу говорити про середній дохід.

Під час обчислення ми спочатку дивимося на середнє, потім на середньоквадратичне відхилення - вибачте, але це так називається, коли різниця між середнім та заданим точним значенням виводиться в квадрат і підсумовується, тому ми позбавляємось від знаків одночасно час - і тоді беремо весь корінь.

Давайте дотримуватимемось попереднього прикладу середнього доходу при обчисленні середньозваженого.

  1. Отже, середнє значення - 180. Середні смуги - 100, 200 та 300. Кількість штук - 2, 2, відповідно. 1 млн. Осіб.

Середнє квадратичне відхилення: (2M * (180-100) ^ 2 + 2M * (200-180) ^ 2 + 1M * (300-180) ^ 2)/5M = (2M * 6400 + 2M * 400 + 1M * 14400 )/5M = (12800 + 800 + 14400)/5 = 28000/5 = 5600, з яких стандартне відхилення = 74,83. Отже, це в середньому на скільки відрізняється дохід від середнього показника в 180 000.

Потім розраховується відносне стандартне відхилення, яке визначається відношенням середнього та стандартного відхилення (це може бути число від 0 до 1), отже, 74,83/180 = 0,41 (41%, що є досить високим). А потім інтерпретація: для відносного середньоквадратичного відхилення вище 30% ми говоримо, що воно настільки велике, що середнє значення не підходить для характеристики сукупності. Отже, зрозуміло, чому знаки запитання можуть постати перед нашими духовними очима лише при інтерпретації середнього доходу ...

Яка користь від усього цього? Головне, вміти інтерпретувати статистичний аналіз, новини на базовому рівні, не піддаватися грубому дослідженню, озиратися позаду і намагатися правильно інтерпретувати.

Це також моя мета допомогти мені зрозуміти мої роботи в цьому блозі. Якщо у вас виникли запитання, не соромтеся писати або коментувати нижче!