Блог

Как разделить умных и красивых

Кластерный анализ в HR-аналитике
Евгений Кириёк
Евгений Кириёк
HR BP, HR-аналитик,
автор канала «Аналитика в HR»
Представьте себе, что вам нужно определить факторы, которые влияют на мотивацию работы сотрудников вашей компании. Вы проводите открытый опрос, то есть опрос с открытой формой для ответа, куда каждый из респондентов пишет тот фактор (или факторы), который лично его мотивирует работать в компании.

На выходе вы получите очень разнородные комментарии: «Меня мотивируют деньги», «Команда, вот что для меня важно», «Мне важно работать рядом с домом», «Я влюблён в Лиду из бухгалтерии» и так далее.
Как определить, что является доминирующим фактором мотивации для большинства сотрудников: Лида из бухгалтерии, зарплата или что-то ещё? Для этого нам необходимо разделить сотрудников на группы по их доминирующей мотивации.
Рекомендации от экспертов topcareer на открытых уроках. Регистрируйтесь бесплатно →
Кластерный анализ (cluster analysis в англоязычной литературе) — это метод классификационного анализа, основное назначение которого в разбиении множества исследуемых объектов на однородные группы или кластеры, объединённые по какому-то признаку или характеристике.
Другими словами, этот метод позволяет сгруппировать наши объекты таким образом, чтобы каждый отдельный элемент в группе имел идентичную характеристику или свойство, присущее всем остальным объектам в этой группе.
Кластеры
Большое преимущество кластерного анализа в том, что он даёт возможность производить разбиение объектов не по одному признаку, а по ряду признаков, если это необходимо исследователю.

Кроме того, кластерный анализ, в отличие от большинства математически-статистических методов, не накладывает никаких ограничений на вид изучаемых объектов и позволяет исследовать множество исходных данных практически произвольной природы, то есть это могут быть и числовые значения, и текстовые данные, что делает этот метод анализа и группировки достаточно функциональным и широко используемым в том числе и в сфере HR-аналитики.
Существует довольно много методов кластеризации: k-средних, k-медиан, дискриминантный анализ, иерархический кластерный анализ и прочие. Мы рассмотрим один из них — иерархический кластерный анализ.

Представим себе многомерное пространство (сотрудников одной компании) в виде таблицы. Каждая строка этой таблицы — сотрудник (объект). А каждый столбец в ней — его уникальная характеристика. Наша задача — попытаться сгруппировать это множество сотрудников по определённым характеристикам. В нашем случае это стаж работы и оценка удовлетворённости.
Когда данные готовы к дальнейшей обработке, то есть содержат ряд объектов (сотрудников) и характеристик (их ещё называют векторы), мы можем переходить к дальнейшей работе.
Каждый объект в этом пространстве можно представить в виде точки. Группа точек со схожими характеристиками будет находиться рядом и формировать тот самый кластер. Несколько кластеров со схожими объектами внутри формируют группу кластеров. Группы со схожими характеристиками будут находиться рядом друг с другом, а группы с разными характеристиками будут находиться в некотором удалении друг от друга. Чем больше эти различия, тем дальше друг от друга будут находиться кластеры. Таким образом, нам остаётся только определить расстояния между точками.
Хотите усилить компетенции в управлении талантами? Забирайте в помощь памятку «Инструменты оценки потенциала сотрудников»
Для определения расстояния между точками используется несколько способов. Мы рассмотрим один из них — через определение Евклидового расстояния.
Евклидово расстояние (d (x, y)) — это геометрическое расстояние в многомерном пространстве между несколькими объектами (точками в пространстве).
Евклидово расстояние
Вернёмся к нашей таблице и на её основе сделаем матрицу, где рассчитаем Евклидово расстояние попарно для каждой точки (сотрудника). В Excel эта формула примет вид:
=КОРЕНЬ ((первая характеристика объекта x — первая характеристика объекта y)2 + (вторая характеристика объекта x — вторая характеристика объекта y)2)
Рассчитав расстояние между каждым объектом, получим следующую матрицу:
Первая матрица
Теперь проанализируем полученную матрицу и найдём объекты (сотрудников), которые имеют наименьшее расстояние в пространстве между собой. Очевидно, это сотрудники 6 и 1 (расстояние между ними равняется 1,00, и оно самое маленькое в матрице).

Вернёмся к таблице и рассмотрим эти объекты:
Действительно, они кажутся похожими. Стаж работы обоих 4 года, и при этом оценка удовлетворённости от них различается всего на 1 балл. Очевидно, эти объекты сформируют наш первый кластер.

Сделаем ещё одну итерацию с учётом образовавшегося кластера, при этом в новую матрицу возьмём наименьшие значения характеристик с предыдущей итерации.
Вторая матрица
На второй итерации мы видим, что наиболее близкой к нашему сформировавшемуся кластеру оказалась точка 5 (пятый сотрудник). Следовательно, мы включаем его в наш сформированный кластер, так что он примет вид — 1, 6, 5.

Посмотрим на этих сотрудников ещё раз, чтобы убедиться, что связь между ними реально присутствует:
Действительно, они по-прежнему похожи, хотя различий между объектами стало немного больше. У всех примерно одна оценка удовлетворённости и схожий стаж работы.

Сделаем ещё одну итерацию.
Третья матрица
Других близких точек мы не наблюдаем, но мы можем увидеть иную закономерность. Несколько точек максимально удалены от нашего кластера 1,5,6. Это точка 2,3 и 4. Давайте посмотрим на них более внимательно:
Визуально объекты 3 и 4 схожи по своим характеристикам и сформируют новый кластер. Объект 2 будет находиться от них на некотором удалении, но кажется гораздо ближе к новому кластеру, чем к первому кластеру из объектов 1,5,6. Впрочем, мы можем отнести объект 2 к третьему кластеру, но, так как в нашем случае такой объект всего один, оставим его с кластером 3,4.

Таким образом, мы сформировали два кластера из объектов, расстояние между которыми близко к 7.

  • Первый кластер с объектами: 1,5,6
  • Второй кластер с объектами: 2,3,4 (впрочем, объект № 2 также возможно выделить в отдельный кластер).

Что это дает нам на практике? Понимание того, что всех наших сотрудников можно разделить на две однородные группы. Причём у каждой группы будут схожие результаты по стажу и оценке, а дальше мы можем точечно работать с каждой из этих групп и вырабатывать для них HR-решения, которые будут релевантны их условиям.
Итог
Кластерный анализ — это инструмент, позволяющий объединять объекты в группы на основе их характеристик. Для HR-аналитика это возможность работать с однородными группами сотрудников при формулировке и проверке гипотез, а также определения объектов для новых решений.
Дочитали статью до конца?
Оцените полезность рекомендаций
Уважаемые читатели: полное или частичное копирование материалов сайта возможно только при указании ссылки на источник.
Просим уважительно относится к труду наших авторов.
Error get alias