Вступ у Data Science
Ігор Мірошниченко
КНЕУ::ІІТЕ
ihor.miroshnychenko@kneu.ua
Як і будь-яка нова сфера, вона ще чітко невизначена, але включає елементи:
Розвідувальний аналіз та візуалізація даних
Машинне навчання та статистика
Високопродуктивні обчислювальні технології
Нові технології дозволяють збирати величезні обсяги даних.
Обчислення дозволяють аналізувати дані у постійно зростаючих масштабах.
Багато прикладів успіху (Google, Facebook, Netfiks, гедж-фонди, Moneyball, …), що зарекомендували себе, як потужний напрямок сучасної аналітики даних.
Що можна дізнатися з даного набору даних?
Що хочете знати про дані Ви?
Що це буде означати для Вас, коли ви досягнете мети?
Як оцінюється майстерність, цінність та ефективність гравців?
Формування ціни на гравців?
Ефективність трансферів?
Ефективність гравців з плином часу та віку?
Кореляція позиції з ефективністю?
Правші живуть довше ніж лівші?
Як часто люди повертаються жити в місце, де вони народилися?
Як змінилася зріст та вага населення в цілому?
Заробітна платня відображає минулу, сучасну та майбутню результативність?
Які актори приймали участь у найбільшій кількості фільмів?
Заробляли більше грошей?
Приймали участь фільмах з низьким рейтингом?
Мали найдовшу кар’єру?
Який фільм має найвищій рейтинг за визначений рік?
Які фільми втратили найбільшу кількість грошей?
Чи корелює касовий збір з рейтингом глядачів?
Порівняння Голівуду та Болівуду у розрізі рейтингів, бюджету, касового збору
Розподіл акторів по віку у фільмах? Наскільки частіше молоді акторки грають дружину, ніж актори чоловіків? З часом цей показник зменшується чи збільшується?
Кінозірки живуть довше звичайних акторів або загальної публіки?
Щорічні часові ряди кожного популярного слова або словосполучення від 1 до 5 слів, що зустрічається у відсканованих книгах
«Популярне» означає, що зустрічається і більш ніж 40 книгах
Охоплює приблизно 15-20% усіх виданих книг
Як змінилося вживання певних слів з часом?
Як часто нові слова стають популярними?
Як вплинули нові стандарти перевірки орфографічних помилок в еру автоматизованої перевірки правопису?
Дані про водія/власника, місце посадки/висадки та вартість проїздки.
Дані отримані в Нью-Йорку на запит згідно Закону про свободу інформації
Заробіток водіїв вночі? Як далеко вони їздять?
На скільки повільніший рух у часи пік?
Куди їдуть люди у різні часи доби?
Які водії отримують більше чайових? Від чого це залежить?
Штучний інтелект (Artificial Intelligence) - область, присвячена створенню інтелектуальних систем, що працюють і діють як люди. Її виникнення пов’язане з появою машин Алана Тьюринга в 1936 році. Незважаючи на довгу історію розвитку, штучний інтелект поки що не здатний повністю замінити людину в більшості областей. Але є приклади, що демонструють позитивну тенденцію розвитку цього напрямку.
Машинне навчання (Machine learning) - інструмент для отримання знань з даних. Моделі ML навчаються на даних самостійно або поетапно: навчання з учителем на підготовлених людиною даних і без вчителя - робота зі стихійними, зашумленими даними.
Класичне навчання
Ансамблеві моделі
Навчання з підкріпленням
Нейромережі та глибоке навчання
1. Класифікація. Намагання поставити мітку на елемент з дискретного набору можливостей: передбачення переможця спортивного змагання (команда А або команда Б) або вибір жанру деякого фільму (комедія, драма, бойовик тощо).
Ціна акції завтра буде вищою чи нижчою за сьогоднішню?
Чи є має сенс продавати страховий поліс даному клієнту?
Яка група клієнтів зреагує на рекламну пропозицію?
2. Регресія. Задача передбачення деякого числового значення. Прогноз ваги людини, кількість клієнтів на добу тощо.
Що буде з ціною акції завтра?
Як довго людина буде жити?
Як часто клієнт користується послугою?
Глибоке навчання (Deep learning)- створення багатошарових нейронних мереж в областях, де потрібно більш просунутий або швидкий аналіз, і традиційне машинне навчання не справляється. «Глибина» забезпечується деякою кількістю прихованих шарів нейронів в мережі, які проводять математичні обчислення.
Великі дані (Big Data) - робота з великим об’ємом часто неструктурованих даних. Специфіка сфери - це інструменти і системи, здатні витримувати високі навантаження.
Проблеми з BIG DATA:
Ріст об’єму даних уповільнює їх аналіз
Великі набори даних складніше візуалізовувати
Прості моделі не потребують великих даних
Twitter: 600+ млн. твітів на день
Facebook: 600+ ТБ даних на день
Google: 3,5+ млрд. пошукових запитів на день
Instagram: 55+ млн. фото на день
Apple: 130 млрд. завантажень додатків
Netflix: 125 млн. годин шоу та фільмів щодня
E-mail: 205+ млрд. повідомлень на день.
Розглянемо задачу виміру соціального ставлення до публікацій у соціальній мережі або на онлайн-сайті:
Для того щоб масив інформації отримав приставку «BIG», він повинен мати наступні властивості:
Об’єм (volume)
Різноманітність (variety)
Цінність (value)
Швидкість (velocity)
Достовірність (veracity)
Інтернет – соціальні мережі, блоги, сайти, ЗМІ, форуми тощо
Корпоративна інформація – архіви, транзакції, бази даних, CRM-системи
Показники вимірювальних пристроїв – метеорологічні прилади, датчики мобільного зв’язку тощо
Ми потопаємо у даних!
Howe and Greg Wilson
https://github.com/rstudio/conf20-future-dse
IBM Marketing Cloud, «10 Key Marketing Trends»
Довіра до науки занепадає
Amgen 2012: 6 з 53 значних результатів можна відтворити
Дані стали ще одним засобом брехні
ihor.miroshnychenko@kneu.ua