Дослідники з Університету Чилі та Джонса Хопкінса (США) демонструють, що можна передбачити поширеність ожиріння, застосовуючи методи машинного навчання до даних про закупівлю їжі кожної країни
Чи можу я передбачити поширеність ожиріння, виходячи виключно з продажу їжі? "Це питання задало собі групу дослідників з Університету Чилі та Джона Хопкінса (США) перед початком свого останнього дослідження." Відповідь так " І не тільки це можливо: крім того, метод, розроблений Данстаном та його командою, також адаптується до довгого списку країн.
Ці пророцтва - не малий подвиг. З одного боку, вони допомагають встановити прямий зв’язок між продуктами харчування, які найбільше руйнують, потрапляючи в кошик для покупок. З іншого боку, вони дають можливість визначити поширеність ожиріння в періоди часу, які відокремлюють одне обстеження стану здоров’я від наступного, і дозволяють робити прогнози, не чекаючи завершення цих самих обстежень. І все це на планеті, яка пережила шлях від 857 мільйонів жителів із надмірною вагою в 1980 році до 2,1 мільярда лише за три десятиліття пізніше.
Як цей кришталевий кулька працює? З даними про покупки для 48 категорій продуктів харчування та напоїв для 79 країн та трохи машинного навчання. "Ми здійснили тестування різних алгоритмів у цій вправі, намагаючись передбачити частку населення, що страждає ожирінням. І ми виявили, що в 47 із цих країн це можна було зробити з похибкою менше 10%".
У закупівлях продуктів харчування, які вивчав «Данстан», взяті з «Євромонітора», вкладається все: шоколад, йогурт, яйця, м’ясо, сік, кава, крупи. Але ми не говоримо про море даних, до яких часи звикли. "Це не така велика база даних. Це зовсім не великі дані. Вона невелика. Але все-таки її можна стиснути", - говорить дослідник.
- Мінімалістичні алгоритми
Насправді, один із алгоритмів, навчених для цього прогнозу, також пропонував перелік найбільш вирішальних змінних щодо поширеності ожиріння. Згідно з цим невеликим рейтингом, випічка, борошно, сир та газовані напої є найважливішими картами таро із надмірною вагою. Коли алгоритм застосовується до даних про придбання цих трьох, можна навіть трохи зменшити похибку.
Виявляється, у машинному навчанні менше - це також більше. "Це називається зменшенням розмірності або зменшенням змінних. Ідея полягає в тому," з огляду на все це, які змінні найкраще пояснюють мінливість моїх даних ". Мова йде про зменшення", - пояснює Данстан. Корисність цієї синтезної вправи виходить за рамки того, щоб врятувати нас від того, щоб закінчити вбивати мух гарматними пострілами: якщо ми знаємо, які питання в опитуванні є найбільш вирішальними, ми можемо скоротити анкети та пом'якшити переважний відштовхувальний ефект від ста питань, складених разом.
Крім того, у цьому списку основних змінних представлені дієти країн. "Ви бачите, що між Німеччиною та Нідерландами багато спільного. Всі країни Східної Європи схожі на велику хмару, Іспанія дуже близька до Португалії. Можна помітити історичний та географічний вплив країн", - говорить Данстан.
- Передові практики
Намагання забезпечити відтворювані та легко повторно використані результати є постійними протягом усієї методології дослідження Данстана та його колег. З одного боку, три використовувані алгоритми гарантують, що отримані результати не є міражем. З іншого боку, публікується весь код, розроблений для проведення тренінгу та прогнозів. "Було бажання залучити більше машинного навчання до сфери охорони здоров'я, де воно не настільки поширене, а також надати ці інструменти всім дослідникам, які хотіли почати його використовувати", - пояснює Данстан.
Випадок з цим дослідженням ілюструє зміни, які зазнає наукове виробництво в публікаціях повного розквіту, пов’язаних з машинним навчанням та штучним інтелектом, і, як наслідок, стурбованість труднощами перевірки результатів цих досліджень. "Це стає все більш регульованим. Коли я покинув Сполучені Штати, пам'ятаю, що група опублікувала статтю, де вони використовували метод, алгоритм. Робота була менш суворою".
Зараз завдання публікації у відомих заголовках вимагає продемонструвати, що проводиться найкраще можливе дослідження. "Коли ми надіслали цей журнал до журналу, вони почали просити у нас більше речей", - пояснює Данстан. "Це вже стає все важче публікувати, якщо ви не дотримуєтесь певних правил належної практики в машинному навчанні".
Досвід своєї діяльності в якості дослідника, яку вона зараз розповсюджує серед факультету техніки та медицини Університету Чилі, Дунстан виявляє певну нерівність у цьому питанні. "У таких галузях, як інженерія, математика, фізика, вони працюють так вже давно. Але в інших, таких як соціальні науки або медицина, це трохи новіше. Я думаю, що ми йдемо цим шляхом. Кожного разу, коли ми повинні робити краще ".
- Вивчайте англійську, як місто Амстердам бореться з ожирінням серед дітей - BBC News World
- Дієта Чотири продукти, які ви їсте погано, такі як рис і авокадо
- 12 листопада, Всесвітній день ожиріння, чому він відзначається саме в цю дату
- Веганське харчування - яку їжу їсти і як вегетаріанська культура
- Ось як ці продукти допоможуть вашій фертильності (і як додати їх у свій раціон)