Применение деревьев классификации к решению маркетинговых задач



Опубликовано в журнале "Маркетинг в России и за рубежом" №4 год - 2009


ведущий аналитик «КОМКОН – Санкт-Петербург»

Несмотря на достаточно большой объем отечественной литературы по стати- стическому анализу в социальных науках, до сих пор крайне мало русскоязычных ма- териалов, касающихся методов анализа маркетинговых данных. Вместе с тем в настоящее время наблюдается растущий интерес со стороны фирм к применению статистических технологий в решении маркетинговых задач. Одним из наиболее полезных аналитических инструментов являются деревья классификации (classification trees), описанию важных для маркетингового анализа возможностей которых посвя- щена данная статья.

Введение

Цель построения деревьев классификации со статистической точки зрения – предсказать наиболее вероятное значение зависимой переменной от соответству ющих значений одной или нескольких переменных-предикторов. Таким образом, они являются альтернативой дискриминантному анализу и ряду регрессионных методов [2].

Деревья классификации и другие алгоритмы поиска скрытых закономерно стей часто используются компаниями, которые занимаются сбором информации о клиентах и отслеживанием их реакции на те или иные предложения. К примеру, оператору мобильной связи нежелательно проводить массовую рассылку одинако вых сообщений всем своим абонентам: во-первых, это может вызвать негативное отношение к оператору у абонентов, не заинтересованных в данном предложе нии; во-вторых, увеличение масштаба рассылки сопряжено с дополнительными затратами на ее осуществление. Таким образом, если у фирмы есть несколько предложений (о посещении сайта, подключении услуги, покупке какой-либо продукции), идеальной рассылкой предложений будет та, после которой будет достигнут максимальный отклик на каждое предложение [1].

Ниже мы сформулируем некоторые важные задачи, которые часто стоят перед специалистами по маркетингу, и покажем, как может выглядеть их решение с помо щью деревьев классификации. В данной статье идея работы деревьев классификации описана на примере алгоритма CHAID, реализованного в ряде специальных стати стических пакетов (Statistica, SPSS и некоторых других). CHAID (Chi-square automatic interaction detection – автоматическое обнаружение взаимосвязей на основе критерия «хи-квадрат») на основе одной или более независимых переменных любого типа последовательно разбивает выборку на непересекающиеся сегменты таким образом, чтобы вариация зависимой переменной минимизировалась внутри сегментов и максимизировалась между сегментами. Результаты анализа представляются наглядным

деревом классификации, с помощью которого аналитик может отследить процесс разбиения и увидеть характеристики каждого из полученных сегментов.

Маркетинговые задачи, решаемые с помощью деревьев классификации

1. Выявление групп потребителей по возрасту, доходу или иной интервальной или порядковой переменной таким образом, чтобы между ними наблюдались статисти чески значимые различия в оценках концепции, доле потребляющих тот или иной продукт или доле желающих его приобрести.

Если разбиение людей по полу является однозначным, то выделение возра стных групп, групп по уровню дохода при подготовке таблиц остается на усмотрение маркетолога. В итоге существует вероятность сделать ложный вывод об отсутствии зависимости потребительского поведения от возраста, дохода или иной переменной, принимающей множество значений.

Далее для удобства мы рассмотрим случай формирования возрастных групп, но отметим, что аналогичным образом можно поступать при наличии любой дру гой порядковой, интервальной или относительной переменной. Таблицы 1 и 2 основаны на одних и тех же опросных данных. Тем не менее из табл. 1 следует, что гипотеза о равенстве доли намеревающихся купить в разных возрастных группах не может быть отвергнута, тогда как из табл. 2 следует, что целевой аудиторией нового продукта являются в первую очередь люди 20–26 лет, среди которых 70% намерены попробовать рассмотренный продукт. Со статистической точки зрения в табл. 2 представлено разбиение возраста на три группы, максимизирующее значение статистики хи-квадрат, рассчитанного по таблице сопряженности между перемен ными «намерение купить» и «возрастные группы» (в алгоритме CHAID намерение купить было зависимой переменной, а возраст – независимой). Это гарантирует, что такое разбиение потребителей по возрасту максимизировало различия между возрастными группами по намерению купить продукт.

Таблица 1

Доли намеревающихся купить товар внутри возрастных групп, выделенных исходя из экспертного мнения

Таблица 2

Доли намеревающихся купить товар внутри возрастных групп,выделенных с помощью алгоритма CHAID

Особенно высока вероятность допустить ошибку при произвольном формиро вании возрастных групп в случае немонотонной или не прямо пропорциональной зависимости между возрастом и долей намеревающихся приобрести продукт. С по мощью деревьев классификации максимально различающиеся возрастные группы могут быть получены автоматически, в то время как каким-либо иным способом столь же точно выявить целевые группы крайне сложно. Также деревья классифи кации позволят избежать ошибок, связанных с принятием решения о количестве возрастных групп, включаемых в интерпретацию.

2. Выделение целевых групп на основе нескольких переменных. Выше мы рассмотрели пример, где были выявлены возрастные группы потребителей, в которых наиболее высока вероятность принятия предложения о покупке това ра. Тем не менее маркетологи хотели бы выделить целевую группу на основании большего числа переменных, описывающих ее.

Деревья классификации очень хорошо подходят для решения задач сегментации, основанных на анализе больших выборок потребителей или покупателей. В ходе ре ализации процедуры CHAID автоматически выбирается независимая (объясня ющая) переменная, которая наиболее сильно взаимосвязана с зависимой переменной в со ответствии с критерием «хи-квадрат». Наиболее сильно связанной переменной всегда оказывается та, которая способна разделить все объекты на макси мально различа ющиеся группы по значению зависимой переменной (в нашем примере – намере ние купить). Такой переменной может быть пол, если среди представителей одного из полов существенно больше намеревающихся купить товар. Далее в каждой из по лученных групп (например, выделенных по полу) процесс повторяется заново: вновь перебираются все предикторы и находится оптимальное решение для второго уровня. В каждой из подгрупп процесс происходит независимо, то есть, например, в одной группе, выделенной по доходу, следующим по важности критерием может стать возраст, а в другой – число детей в семье. В итоге получается дерево, позволяющее выявить наиболее привлекательные сегмен ты потребителей, поскольку намерение купить новый продукт максимально отличается от сегмента к сегменту.

Рис. 1. Пример дерева классификации

В соответствии с деревом классификации 40% всех опрошенных сказали, что скорее всего или точно воспользуются новой услугой. Фактором, который разбива ет выборку на две наиболее сильно различающиеся группы, является пол. 50% женщин и только 30% мужчин, узнав об услуге, скорее всего, воспользуются ей. Наиболее высока вероятность использования новой услуги среди женщин 20–32 лет – 60% представительниц этой половозрастной группы, скорее всего, во спользуются услугой. Наименьший отклик на предложения воспользоваться новой услугой сле дует ожидать среди мужчин 38–50 лет. Соответственно, если охватить рекламой 20–32-летних женщин, можно ожидать наиболее высокую отдачу от вложенных в рекламу средств.

Аналогичным образом могут быть выделены целевые группы и на основе интенсивности спроса в денежном выражении, предъявляемого клиентами мага зина, абонентами сотовой связи или иными лицами, для которых у компании есть соответствующая информация. К примеру, может оказаться, что определенные социально-демографические группы клиентов генерируют в среднем более высо кий доход для компании, чем другие, и тогда они становятся наиболее привлека тельными клиентами для фирмы.

Заключение

Основные выводы, касающиеся применения деревьев классификации в мар кетинге и маркетинговых исследованиях:

Анализ с помощью деревьев классификации – это вид анализа, позволя ющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких независимых пере менных.

Деревья классификации позволяют автоматически выявить группы потре бителей по возрасту, доходу или иной интервальной или порядковой пере менной таким образом, чтобы между ними наблюдались статистически значимые различия в значениях интересующей аналитика переменной. Деревья классификации позволяют выделить целевые группы потребителей. Иными словами, выявляются такие группы, выделенные по социально демографическим или иным характеристикам потребителей, вероятность положительного отклика на предложение о товаре или услуге в которых максимальна по сравнению с другими группами. Выделение таких групп важно при использовании многих маркетинговых инструментов, особенно директ-маркетинговых (почтовых рассылок, раздачи листовок и т. п.). Таким образом, по сравнению с сегментацией на основе интуиции или три виальных кросстабуляций деревья классификации позволяют быстро выделять наиболее перспективные группы клиентов, прогнозировать отклики и находить скрытые закономерности в данных.

Литература

  1. Berry Michael J.A., Linoff Gordon S. Data Mining Techniques. For Marketing, Sales, and Customer Relationship Management. – 2nd ed. – John Wiley & Sons, 2004.
  2.  StatSoft Inc.: Электронный учебник по статистике. – Режим доступа: http:// www.statsoft.ru/home/textbook/default.htm.  

Также по этой теме: