2 minute read

데이터 사이언스에는 예측(Prediction) 말고도 인과추론(Causal inference), 수학적 최적화 (Mathematical optimization), 네트워크 분석(Network analysis) 등 다양한 영역이 있지만 아직 대부분 예측에 초점을 맞추고 있는거 같습니다.

예측은 데이터를 활용해 할 수 있은 일에 일부분이며, 의사결정을 해야하는 관점에서는 예측만으론 풀 수 있는 문제의 한계가 있습니다. 그렇기에 인과추론, 최적화란 분야도 알아야 한다고 생각합니다. 물론, 방법론적으로 ML알고리즘에 수학적 최적화가 들어가고(e.g. Ridge regression), 인과추론 문제를 예측문제로 바꾸어 풀어내기도 합니다만(e.g. Causal forest), 여기서 제가 말하고자 하는 부분은 비즈니스 문제를 어떻게 풀것이냐 하는 관점 입니다.

예측으로 풀 수 있는 문제는 다음 아래 예시와 같습니다.

  • 내일 유입할 고객 수는?
  • 곧 이탈(어떻게 정의하냐에 따라 다르지만) 할꺼 같은 고객은?

예측으로 풀 수 없는 문제는 다음 아래 예시와 같습니다.

  • 유입 고객 수를 늘리기 위해 지금 진행하는 광고가 적절한가?
  • 이탈방지를 위해 기획한 로열티 프로그램이 타당한가?

즉, 예측으로 풀 수 없는 문제는 ‘X를 변경해 Y를 얼마나 늘릴 수 있는가’ 에 해당하는 문제입니다. 이 유형의 문제가 경영진 입장에서 중요하게 생각 하는 문제 중 하나라고 생각합니다. 매출을 늘리고, 비용을 절감하며, 더 많은 고객에게 만족감을 줄 수 있는지 그 방법을 알고 싶어 한다고 생각합니다.

만약 데이터 사이언티스트가 매출을 늘리는 방법 대신 예측하는 방법에 대한 답을 내놓는다면 이는 다른 문제를 푼 것이기에 실제 활용이 안 될 수 있습니다. 이런 문제를 해결하려면 인과추론 이라는 도구를 갖춰야 합니다.

예를 들어 할인쿠폰 가격과 수익성 관계를 생각해봅시다. 인과추론 (또는 경제학) 관점에서의 관심은 할인이 한단위 변할 때 고객경험/수익성은 어떻게 달라질까? 라는 인과관계 추론에 기반한 질문이며 이를 통해 최적의 쿠폰 전략을 알아내 의사결정에 반영하는 것 입니다. 반면 예측 관점에서는, 할인쿠폰 및 고객의 정보가 주어졌을때 고객의 예상 구매 금액을 예측하는 것, 또는 할인쿠폰 자체를 고려하지 않고 예상 구매금액이 높은 고객을 예측하는것 이라 볼 수 있겠습니다.

그렇다고 예측 안중요하다는 말은 절대 아닙니다. 머신러닝을 이용해 직접적으로 인과 관계를 밝히기 보다는 기존 방법론을 머신 러닝을 통해 개선하는 시도들이 있기 때문입니다. 기존 계량경제학에선 $\hat\beta$ 이라 표현 할 수 있는 모수추정 (parameter estimation)을 중요시하는 반면, 머신러닝 에서는 $\hat y$ 으로 표현할 수 있는 예측을 중요시 하기 때문에 인과추론 시 $\hat y$ 이 중요한 파트에서 머신 러닝이 많은 기여를 합니다.

할인 쿠폰의 예시로 다시 가자면 각 고객에 대한 할인쿠폰이 주어졌을 때 예상 구매 금액을 예측하여 고객 개인화가 가능하며 인과추론 연구에선 heterogenous treatment effect를 구한다 라고 합니다. 또한, 도구변수(Instrument variable) 추정을 예로 들 수 있습니다. 선형회귀의 경우 도구변수를 z라 표시한다면 1단계 추정은 $x = z \gamma + u$ 로 이루어지고, 2단계 추정 $y = x \beta + \epsilon$ 에서 $x$ 대신 1단계 추정에서 구한 $\hat x$을 이용하게 됩니다. 이 경우 중요한 것은 추정량 $\hat \gamma$ 자체가 아니라 오차항 $\epsilon$과 무관한 $x$의 예측치인 $\hat x$ 입니다. 이렇게 예측에 강점을 보이는 머신 러닝 기법을 이용해서 도구변수 추정의 bias(편의)를 줄일 수 있습니다. 이 외에도 전통적인 방법론인 matching 이나 synthetic control등에 예측을 위한 머신러닝이 사용 됩니다. 이러한 방법론은 Causal Machine Learning, Causal AI 라는 분야로 활발히 연구가 진행되고 있습니다.