Блог

Влияет ли знак зодиака на зарплату

Корреляционный анализ для HR–аналитика

Евгений Кириёк
Корреляционный анализ (correlation analysis, анг.) — это статистический метод изучения взаимосвязи между двумя и более величинами.

Другими словами, такой анализ позволяет установить наличие связи между, на первый взгляд, не связанными факторами: ростом и уровнем зарплаты, стажем работы и оценкой эффективности сотрудника и прочее. И если такая связь существует, то сопровождается ли изменение одного фактора возрастанием или уменьшением другого, связанного с ним.

Это сравнительно простой для расчёта и надёжный инструмент используется как в бизнесе, так и в научных исследованиях для установления взаимосвязи между различными факторами. Основное преимущество этого метода — доступность.

Использовать его можно с помощью обычного MS Excel.

Немного теории

Представим себе компанию, где каждый год сотруднику увеличивают зарплату на 1 000 рублей. Это происходит каждый год вне зависимости от результатов работы сотрудника, экономического положения компании и прочих факторов.

Теперь перенесём это на график, где ось X — это стаж работы сотрудника, а ось Y — его зарплата.

Получим график, который будет являться примером положительной корреляции (то есть взаимосвязи) двух факторов с коэффициентом 1.

Другими словами, стаж здесь положительно связан с заработной платой.

Больше стаж — выше зарплата.
HR-аналитика Положительная корреляция
В другой компании решили перевести своих сотрудников на окладно-премиальную систему.

По этому плану каждый год работы в компании сотрудникам снижают окладную часть на 1 000 рублей и увеличивают % от продаж. Если мы перенесём это на график с аналогичными данными, то получим уже пример отрицательной корреляции двух факторов с коэффициентом (-1).

Больше стаж — меньше оклад.
HR-аналитика Отрицательная корреляция
Это основа корреляционного анализа.

В статистике корреляция считается устойчивой, если ее коэффициент выше 0,6; если он превышает 0,9, то корреляция считается сильной и положительной.

То же самое и с отрицательными значениями, с той лишь разницей, что при корреляции (-0,9) взаимосвязь между факторами сильная и отрицательная.

При корреляции меньше 0,3 (или -0,3) взаимосвязь между факторами слабая или отсутствует вовсе.

Однако для того, чтобы делать выводы о связях между факторами, нужен определённый объём выборки (рассматриваемых событий): чем больше выборка, тем достовернее величина полученного коэффициента корреляции.

Использование

Для того, чтобы использовать корреляционный анализ, не обязательно владеть специальными статистическими программными продуктами или языками программирования типа R и Python (хотя инструментарий этих языков в части анализа данных и построения предиктивных моделей поистине безграничен).

Все эти закономерности можно выявить с помощью двух инструментов в Excel: парной корреляции и матрицы корреляций.

Парная корреляция

Парная корреляция позволяет оценить взаимосвязь между двумя факторами.

В Excel для этого существует простая функция =КОРРЕЛ (массив данных 1; массив данных 2), где массивы данных 1,2 — это наша выборка наблюдений, о которой мы говорили выше.

Рассмотрим на примере. Мы подготовили две выборки: опыт работы (лет) и заработная плата сотрудника (руб.) и разместили их попарно в таблице.

Выборка состоит из 30 наблюдений (для реального кейса этого, конечно, мало). Применив функцию КОРРЕЛ и указав ссылки на массивы, мы получим индекс корреляции 0,87.

Это можно интерпретировать как устойчивую и сильную корреляцию (не забываем: коэф>0,6 — устойчивая связь; коэф<0,3 — связь слабая или отсутствует), то есть мы можем сделать вывод, что опыт работы действительно имеет устойчивую связь с заработной платой и рост одного фактора чаще всего сопровождается ростом другого.

HR-аналитика Парная корреляция
Чтобы убедиться в своих выводах, построим точечную диаграмму, где отобразим всю совокупность наблюдений (ось Х — опыт работы; ось Y — заработная плата) и сделаем дополнительную линию тренда, чтобы точнее увидеть закономерность.

Как видно на графике ниже, линия тренда соответствует графику положительной корреляции, наши выводы корректны.
Управления затратами и численностью

Матрица корреляций

Другой инструмент, матрица корреляций, используется для проверки гипотез и определения взаимосвязи между группой факторов.

В Excel для этого существует инструмент «Анализ данных» на вкладке «Данные».

По умолчанию такой инструмент не установлен в Excel, но его можно легко подключить.

Для этого зайдите во вкладку Файл>> Параметры>> вкладка Надстройки>> в самом низу «Перейти в надстройки Excel» и в новом диалоговом окне поставьте галочку напротив пункта «Пакет данных».

Рассмотрим на примере: в компании был проведён опрос удовлетворённости через открытые репрезентативные группы и составлена таблица с данными по участникам опроса.

После знакомства с данными была предложена гипотеза, что на уровень удовлетворённости работой влияют факторы: грейд сотрудника, уровень стресса и стаж его работы в компании. Соответствующие данные были представлены в табличном виде.

На вкладке Данные выбираем инструмент «Анализ данных», затем из предложенного списка — Корреляция.

Входной интервал — это совокупность факторов, по которым мы будем выявлять взаимосвязь. Можно выделить прямо с названиями колонок и поставить галочку на пункте «Метки в первой строке».

Параметры выхода — это область, где будут расположены итоговые данные. Устанавливаем новый рабочий лист и нажимаем ОК.
HR-аналитика Матрица корреляций

а выходе, после минимальной обработки данных, мы получаем матрицу корреляции, где на пересечении двух факторов и будет отображаться коэффициент их корреляции.

Посмотрим, какие коэффициенты корреляции с удовлетворённостью работой получили мы:

  • Уровень стресса (-0,84)

  • Стаж работы (0,41)

  • Грейд сотрудника (0,20)

Сразу можно сказать, что грейд сотрудника никак не влияет на удовлетворённость.

Стаж работы имеет влияние, но эта связь не очень сильная, и ей можно пренебречь. А вот уровень стресса имеет сильную отрицательную корреляцию с удовлетворённостью (т.е. чем выше уровень стресса сотрудника, тем меньше его удовлетворённость).

В итоге, мы можем сделать вывод, что предлагаемая гипотеза верна только частично.

Из предложенных факторов на уровень удовлетворённости работой влияет только уровень стресса. Влияние это сильное, поэтому для увеличения уровня удовлетворённости работой в первую очередь следует снижать уровень стресса.

* Пример compa-ratio matrix

Кодирование факторов

Довольно часто информация, с которой вам придётся работать, будет представлена не числовыми значениями. Примеров здесь может быть масса: пол, подразделение, варианты согласия или не согласия с каким-то утверждением и прочее.

Анализировать такую информацию посредством корреляционного анализа невозможно, но её можно «кодировать» в числовой вид.

Например, если респондентам были предложены варианты согласиться или не согласиться с каким-то утверждением (сильно не согласен; не согласен; нет мнения; согласен; сильно согласен), можно присвоить коды -2; -1; 0 и эквивалентные с точки зрения корреляции значения 2; 1. И включать уже коды в качестве наблюдений для проведения корреляционного анализа.

Главное, не забудьте записать, какой код у вас что обозначает ☺
Уважаемые читатели: полное или частичное копирование материалов сайта возможно только при указании ссылки на источник.
Просим уважительно относится к труду наших авторов.
Error get alias