Після отримання та перевірки анкет, кодування та запис даних є наступним кроком у обробці.

Дані анкет записуються в таблицю, рядки якої відповідають анкетам, а колонки містять код кожної відповіді. Перший рядок таблиці використовується для ідентифікації стовпців, тут ми пишемо імена змінних (ідентифікатори). При виборі посвідчень слід дотримуватися (але не обов’язково) таких правил:

Почніть з ідентифікаційної літери і містити лише букву або цифру. Немає пробілів або спеціальних символів (%, a, #, =,…).

Ідентифікатор повинен містити до восьми символів.

Ідентифікатор повинен коротко посилатися на питання, яке ми використовуємо для кодування.

Ідентифікатор може зустрічатися лише один раз у таблиці.

У разі порушення вищезазначених правил ми, швидше за все, не зможемо правильно передати наші записані дані до іншого програмного забезпечення, наприклад статистичні програмні пакети.

Далі ми розглянемо кодування відповідей для кожного типу запитання. Кодування, звичайно, можна вирішити різними способами, тут ми представляємо можливу, просту версію.

5.2.1 Кодування закритих питань

Іменна змінна, прийнятна лише одна відповідь

На рисунку 11 для останнього типу запитання інструкція кодування повинна вказувати, як використовується номер послідовності відповіді для кодування: зверху вниз або зліва направо. Особливо це стосується випадків, коли запис даних виконують декілька осіб, оскільки із записаного файлу не ясно, яку систему використовував реєстратор даних без порівняння з анкетами. Якщо на етапі розробки анкети ми вважаємо, що серійні номери, написані в анкеті, не впливають на респондента, найпростіше ввести серійний номер у питанні. Це особливо важливо, якщо кількість можливих відповідей велика: 6-8 і більше. У цьому випадку це суттєво уповільнило б запис даних, якби завжди потрібно було підрахувати, скільки відповідей позначив респондент (приблизно до 5 можливих відповідей, це можна вирішити з першого погляду).

Рисунок 11 - Іменне (категоричне) питання - можна прийняти лише одну відповідь

маркетингове

Ці типи запитань можна кодувати, вказуючи порядковий номер позначеної ("позначеної") відповіді.

Можливий ідентифікатор першого питання - MELYHUT, код відповіді - 2.

Можливий ідентифікатор другого питання - KOSTOL, код відповіді - 1.

Можливий ідентифікатор третього питання - TICKET, код відповіді - 3.

Можливий ідентифікатор четвертого питання - IZESITES, код відповіді - 5.

Рисунок 12 - Простіша нумерована версія із серійними номерами (номінальне запитання)

Слід зазначити, що фірми, що займаються дослідженням ринку, часто готують опитувальник із кодовим значенням усіх питань, попередньо надрукованих на опитувальнику, згідно з наведеним вище прикладом. Ця практика, безсумнівно, полегшує запис даних, але суттєво погіршує читабельність та чіткість анкет. При роботі з інтерв'юерами це не є проблемою для респондентів, але у випадку самостійного заповнення анкети цим інструментом слід користуватися дуже обережно (складна анкета, заповнена людьми, погіршує готовність відповісти).

Зверніть увагу, що запитання так/ні та так/ні зазвичай кодуються таким чином:

1 = так, так 0 = ні, ні.

Це також правильне і природне рішення, але слід подбати, щоб не заважати практиці запису даних на одній роботі.

Іменна змінна, припустимі кілька відповідей

Рисунок 13 - Номінальне (категоричне) запитання - допустимі декілька відповідей

Кодування запитань цього типу можна здійснити, додавши стільки змінних (у таблиці Excel: стовпець), скільки можливих відповідей, та вказуючи двома різними кодами, чи відповідав респондент заданий варіант відповіді. Звичайна процедура - кодування 0/1, тому 0 записується, якщо відповідь не позначена; 1 - це записані дані, якщо відповідь перевірена.

Бажано, щоб ідентифікатор змінної вказував, що це цілісна група відповідей. Це можна вирішити першими двома-трьома символами ідентифікатора, що посилаються на питання, і наступними символами, що посилаються на варіант відповіді. Отже, початкові символи ідентифікаторів однакові, що також добре, так що відповіді організовані разом у перелік змінних (статистичні пакети або залишають змінні у порядку файлу, або сортують їх: залежно від того, яка опція включена, ми дивіться відповідні відповіді поруч).

Ідентифікатори та кодування першого питання у прикладі:

Ідентифікатори та кодування другого питання:

Змінна, виміряна за порядковою, інтервальною та співвідносною шкалою

Ці типи запитань слід розглядати разом з точки зору кодування та запису даних. У наступних ілюстративних прикладах введену відповідь респондента позначено курсивом:

Кодування виконується природним чином: ми беремо стільки змінних, скільки можливих відповідей, і записуємо введені цифри як відповідь, яку ви просили.

Рисунок 14 - Різні типи запитань

Ідентифікатори та кодування першого питання:

Ідентифікатори та кодування другого питання:

Ідентифікатор та кодування третього питання:

5.2.2. Кодування відкритих питань

Використання відкритих питань є виправданим у багатьох випадках і має важливі переваги. Питання відкритого типу полегшує роботу респондента, оскільки він може висловити те, що він повинен сказати своїми словами. («Яка ваша думка щодо роботи регіонального представника?») Існує дві основні версії впізнаваності бренду: відкрита («Перелічіть бренди мюслі, які ви знаєте!» - це спонтанне знання бренду чи іншим чином не підтримується) або закрита (« Позначте, які з перелічених тут брендів мюслі ви знаєте! "- це підтверджене знання бренду). Очевидно, що бренди, що перераховуються спонтанно, вказують на сильніше проникнення, тому може бути доцільним запитати.

Таким чином, перевага відкритих питань полягає в простоті поставлення запитань та упередженості відповідей. Однак через неоднорідний характер відповідей їх обробка в основному ускладнюється і може спричинити багато помилок.

Відповіді на такі запитання не можуть бути зведені в первісному вигляді, тому ми повинні спробувати класифікувати відповіді на типові категорії відповідей. Категорії відповідей можна визначити трьома способами: перед записом, під час запису та в кінці запису.

Визначення категорій відповідей перед записом даних. З повного набору анкет 15–20% вибірки відбирають випадковим чином. На вибраних анкетах ми переглядаємо відповіді на відкриті питання та формуємо на основі них агреговані варіанти відповідей (категорії). За допомогою цього методу ми перетворили відкрите запитання на практично селективне питання та закодували його згідно з правилами категоріальної змінної. Під час запису даних відповідь, яка не входить до жодної із заздалегідь визначених категорій, поміщається в спеціальну групу, категорію іншої відповіді. Якщо частка інших відповідей стає занадто високою після обробки повного набору анкет, попередня категоризація була неправильною, а інші відповіді потрібно додатково розбити.

Визначення категорій відповідей під час збору даних. Список категорій постійно розширюється під час запису даних. Відкрита відповідь першої анкети кодується 1, а код та стисле значення коду записуються в окремий кодовий список. Відповідь на другу анкету або приймається як ідентичну першій (тоді код 1 записується), або вважається новою, а код 2 потім записується. Одночасно ми додаємо код 2 до списку кодів, а також значення коду. Перевага цієї процедури полягає в тому, що нам не потрібно заздалегідь встановлювати об’єднану категорію, ми можемо вирішити об’єднати категорії згодом в обґрунтованих випадках. Також немає ризику заростання іншої категорії відповіді. Однак недоліком є ​​те, що це дуже уповільнює запис даних і ускладнює управління окремим списком кодів. Наприклад, через довгий список кодів, ми можемо повторно додати існуючу відповідь новим кодом. Ймовірність цієї помилки можна зменшити, обробляючи дві таблиці Excel під час введення даних: власне файл анкети та список кодів. Таким чином ми можемо час від часу сортувати список кодів за алфавітом і роздруковувати його. Впорядкований список кодів набагато простіше орієнтуватися.

Визначення категорій відповідей в кінці запису даних. У цьому рішенні ми припускаємо, що визначення категорій є найбільш точним, якщо ми можемо обробляти всі відкриті відповіді одночасно. Таким чином, під час збору даних відкриті відповіді записуються практично в цілому в стовпці Excel, паралельно з кодуванням інших даних. Повертаємося до кодування відкритих питань у кінці запису даних. Ми перелічуємо, сортуємо, аналізуємо відповіді. Функція пошуку часто допомагає в аналізі: електронна таблиця дозволяє легко з’ясувати, чи певний термін зустрічається у відповідях більше одного разу. Тож ми визначаємося з категоріями відповідей та їх кодом згодом, складаємо їх список, а потім роздруковуємо по порядку. Далі, у файл анкети, ми додаємо стовпець коду поруч із текстовим стовпчиком відкритого запитання і вводимо сюди код відповідей. Повний текст відповідей бажано зберігати в окремому файлі, але він зазвичай видаляється з файлу анкети після введення кодів. Перевага цього методу полягає в тому, що він дозволяє ретельно розглянути питання визначення категорій. Недоліком є ​​те, що це дуже трудомістко.

Важко дати загальне правило вибору між трьома варіантами. Зрозуміло, що попередній огляд, згаданий у першій версії, повинен проводитися для 15-20% анкет для кожної обробки. Якщо ви виявите, що відповіді можна типізувати добре, сміливо приймайте рішення про попереднє кодування! Підводячи підсумок, можна сказати, що три варіанти (у вищезазначеному порядку) означають збільшення дійсності кодування, але водночас потреба у часі зростає.

При виборі варіанту також може бути враховано, що, проводячи опитування на організаційних ринках (де обсяг вибірки порівняно невеликий), клієнти часто вимагають, щоб вони отримували всі відповіді на важливі відкриті питання (принаймні, у додатку до звіт про дослідження ринку). Це на користь вибору третьої версії.

5.2.3. Перевірка після запису даних

Важливо перевірити систему записаних даних з двох причин. З одного боку, під час запису даних може статися помилка, а з іншого - доцільно виконати певні перевірки вмісту після запису.

Помилка, допущена під час введення даних, означає, що дані, що не в анкеті, з’являться у файлі даних. Це може бути пов’язано з неуважністю та втомою особи, яка записує дані. Цього типу помилок часто можна уникнути за допомогою засобів програмування. У питаннях вибору відповідей, напр. записані дані повинні знаходитись в інтервалі (1,2 ... кількість можливих відповідей), і, отже, може бути запрограмована автоматична перевірка, яка не дозволяє записувати неможливі дані. У кожному випадку слід розглянути, яке завдання менше: встановити процедуру перевірки або ретельно перевірити записані дані. Перевірка виконується шляхом складання таблиці частот записаних даних, тому для кожного питання ми перераховуємо, який код зустрічається у файлі даних та скільки разів. Ми порівнюємо перелік питань за запитаннями з анкетою та перевіряємо, чи записані коди вказують на можливі дані. Якщо виявлено неможливі дані, опитувальник отримується на основі його серійного номера і дані виправляються. Бажано негайно створити нову таблицю частот для виправленого запитання, оскільки це також перевірить виправлення, і результати таблиці частот нам точно знадобляться під час подальшої обробки.

Аналіз таблиць частот також надає можливість виявити помилки вмісту, які не були спричинені неуважністю реєстратора даних, тому файл містить точно такі самі дані, що є в анкеті. Видатні, екстремальні дані в цьому відношенні завжди “підозрілі”, і ці анкети неодмінно слід отримати. Необхідний ремонт повинен вирішуватися в кожному конкретному випадку; у невизначеній ситуації краще залишити дані, ніж загрожувати коректності обробки (окремі дані, що відхиляються, дуже «перетягують» середнє і значно збільшують стандартне відхилення).

Дуже складно виявити помилку реєстратора даних, яка виникає, коли записані дані є можливим і неперевершеним значенням (наприклад, ми запитуємо кількість дітей у родині, в анкеті є 2 відповіді, але реєстратор випадково потрапляє три, що на клавіатурі - 2). розташований поруч з). Ідеальним рішенням буде подвійний запис і порівняння файлів, але це буде дуже дорого. Натомість доцільно провести детальну перевірку 1–3% записаних анкет (звичайно окремо для кожного реєстратора даних).