Скачать презентацию Прогнозирование ухода пользователей User churn Алимов Нурислам Ермолов Скачать презентацию Прогнозирование ухода пользователей User churn Алимов Нурислам Ермолов

sna_hackathon_se_hse.pptx

  • Количество слайдов: 13

Прогнозирование ухода пользователей (User churn) Алимов Нурислам Ермолов Александр Зборовский Роман Карнаухов Михаил Рукин Прогнозирование ухода пользователей (User churn) Алимов Нурислам Ермолов Александр Зборовский Роман Карнаухов Михаил Рукин Филипп

Обоснование проекта • Удержать/вернуть пользователя дешевле, чем привлечь нового пользователя • Новые пользователи приносят Обоснование проекта • Удержать/вернуть пользователя дешевле, чем привлечь нового пользователя • Новые пользователи приносят меньше прибыли, чем существующие пользователи 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 2

Задачи • Минимум: – Модель, предсказывающая уйдет ли пользователь в ближайший месяц; – Кластеризация Задачи • Минимум: – Модель, предсказывающая уйдет ли пользователь в ближайший месяц; – Кластеризация уходящий пользователей и интерпретация результатов; • Максимум: – Предложения по возврату пользователей; 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 3

Используемые средства 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 4 Используемые средства 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 4

 «Real» big data Обучение и тестирование на всех данных! Логины: ~320 000 (12 «Real» big data Обучение и тестирование на всех данных! Логины: ~320 000 (12 GB) Пользователи: ~9 000 (39 GB) Hadoop jobs: ~200 Обучающая выборка: ~800 000 пользователей Тестовая выборка: ~200 000 пользователей 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 5

Выбор атрибутов § § § § граф связей посты пользователей классы пользователей «классные» посты Выбор атрибутов § § § § граф связей посты пользователей классы пользователей «классные» посты в группах история логинов жалобы на спам демография 2/10/2018 § § § § SNA Hackathon, 2014. Санкт-Петербург. login_count avg_gap max_gap login_days_since_last_login_week-1 login_week-2 login_week-3 friends_count age is_male is_female likes_count likes_per_login is_using_mobile login_per_mobile 6

Отбор значимых регрессоров (iterative t-test) § § § § 2/10/2018 login_count avg_gap max_gap login_days_since_last_login_week-1 Отбор значимых регрессоров (iterative t-test) § § § § 2/10/2018 login_count avg_gap max_gap login_days_since_last_login_week-1 login_week-2 login_week-3 friends_count age is_male is_female likes_count likes_per_login is_using_mobile login_per_mobile SNA Hackathon, 2014. Санкт-Петербург. • • • login_count is_returning avg_gap max_gap login_days_since_last_login_week-1 login_week-2 login_week-3 age is_male Is_female 7

Методы классификации Method F 1 -score Extra. Tree. Classifier 92. 3 68. 71 Logistic Методы классификации Method F 1 -score Extra. Tree. Classifier 92. 3 68. 71 Logistic Regression 91. 8 69. 02 Neural Net (Multilayer Perceptron) 93. 12 71. 61 Linear Regression 90. 3 51. 82 Random Forest 2/10/2018 Accuracy 92. 5 69. 3 SNA Hackathon, 2014. Санкт-Петербург. 8

Кластерный анализ 1. Кластеризация всех пользователей: login_count avg_gap is_female is_male likes lw-1 lw-2 lw-3 Кластерный анализ 1. Кластеризация всех пользователей: login_count avg_gap is_female is_male likes lw-1 lw-2 lw-3 age 215. 41 0. 67 1. 00 0. 00 344. 81 10. 64 10. 40 32. 51 20. 34 18. 79 0. 24 0. 23 21. 34 2. 48 1. 43 0. 92 13. 77 142. 27 1. 40 0. 02 0. 65 140. 59 6. 93 6. 95 7. 03 19. 93 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 9

Кластерный анализ 2. Кластеризация уходящих пользователей а) Lurkers (? ) – мало логинов, быстро Кластерный анализ 2. Кластеризация уходящих пользователей а) Lurkers (? ) – мало логинов, быстро уходят в) Фейки (? ) – много друзей, низкая активность б) Пользователи, активность которых длилась неделю и затем угасала в) Пользователи, которые заходили каждый день, активно посещали группы, но неожиданно прекратили использовать сервис. 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 10

Возврат пользователей Интересны пользователи, которые восстановили свою активность. Что послужило причиной? Инсайт: чаще всего Возврат пользователей Интересны пользователи, которые восстановили свою активность. Что послужило причиной? Инсайт: чаще всего возвращаются (>25 дней off) мужчины из Ташкента 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 11

Дальнейшее развитие 1) 2) 3) 4) Масштабируемость Получить большее количество атрибутов Исследование в рамках Дальнейшее развитие 1) 2) 3) 4) Масштабируемость Получить большее количество атрибутов Исследование в рамках социального графа Иерархическая кластеризация по уходящим пользователям 5) Исследование причин возвращения пользователя. 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 12

Спасибо за внимание! Q&A 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 13 Спасибо за внимание! Q&A 2/10/2018 SNA Hackathon, 2014. Санкт-Петербург. 13