Как используют машинное обучение в ритейле

Ответ дает Денис Струков, генеральный директор компании «Центр пространственных исследований»

Дата: Май 26, 2018

В геомаркетинге часто используют гравитационную модель Хаффа для предсказания потенциального количества чеков в магазине или для определения потенциальной зоны обслуживания. Правда, у такой модели есть своя специфика: модель строится на предпосылке, что весь рынок города делят между собой конкурирующие магазины. Привлекательность отдельного магазина зависит от его размера и удаленности от потребителя. Модель определяет относительные пропорции, в которых потребители распределяются между зонами обслуживания магазинов.

На выходе модель позволяет оценить объем посетителей и получить наиболее вероятные зоны посещения магазина, однако более полно задачу по прогнозу посещаемости решают методы машинного обучения.

Что может машинное обучение?

С помощью методов машинного обучения можно решать разные задачи.

1. Прогнозировать товарооборот. Допустим, у нас есть исторические данные о продажах за год, и мы хотим знать, сколько продадим в следующем году.
2. Оценивать посещаемость торгового объекта. На основе разных пространственных данных (численность населения, точки интереса, доходы населения), данных о конкурентах и данных торговой сети (если они есть) строится математическая модель, которая показывает, сколько в торговой точке будет посетителей или чеков в день/месяц и тд.
3. Логистические задачи можно тоже решать, используя машинное обучение. Чтобы оптимизировать процессы доставки товаров, строят так называемые логистические кусты — объединяют склады и/или магазины в кластеры по пространственному признаку.
4. Иногда аналитику важно определить класс или статус объекта, понять, закроется магазин или нет. Такие задачи тоже решаются с помощью машинного обучения.
5. Оценивать и прогнозировать доходы населения, если мы хотим знать, какой доход у людей в конкретной локации, то мы собираем данные по стоимости аренды жилья, данные о покупках людей в этом месте или другие показатели, связанные с доходами, ищем зависимости и делаем выводы о том, какой средний доход у людей, проживающих в конкретном квартале.

Какой процент ошибки нормальный для прогноза?

Для стандартной предсказательной модели аналитики используют пространственные факторы и внутренние факторы торговой сети: сезонные тренды, срок выхода на стабильный уровень выручки, формат магазина, режим работы, количество касс, тип населенного пункта. Все это будет влиять на итоговый результат — прогнозируемый показатель.

В прогнозе товарооборота нормальной считается ошибка 10-15%, хотя все зависит от исходных данных. Для одной сети показатель ошибки 25% будет хорошим, а для другой — плохим результатом, если внутренние данные сети полностью оцифрованы и хорошего качества, то погрешности могут быть менее 10%.

Однажды мы строили предсказательную модель для города с населением менее 1 млн человек — это означало дефицит данных. При этом ошибка прогноза достигла 21%, и с учетом исходных параметров такая ошибка — отличный результат. В другой же сети с количеством магазинов выше 300 в одном городе, средняя погрешность получилась 10-15% для разных прогнозируемых показателей, и это тоже хороший результат.

Ошибки зависят от формата торговой сети, количества точек и исходных данных, если у торговой сети несколько форматов магазинов, их труднее объединить в группы, и ошибка увеличивается, если торговая сеть собирает данные по магазинам нерегулярно, или статистики за период мало, это тоже скажется на ошибке. Чем больше у сети магазинов, чем больше данных по ним, и чем однороднее объекты, тем меньше скорее всего будет ошибка.

машинное обучение