[추천시스템] 추천은 왜 하나의 정확도로 평가할 수 없을까

추천 시스템의 평가 지표 시리즈를 들어가며

그래서 이 추천 시스템은 성능이 좋은가요?

추천 시스템을 구축하면서 꼭 받는 질문입니다. 단순한 질문처럼 보이지만, 이 질문에 대해 적절한 답변을 하는 것은 꽤 어려운 일입니다.

분류 문제처럼 정답을 맞췄는지, 틀렸는지만 보면 되는 것도 아니고, 회귀 문제처럼 정답값을 얼마나 가깝게 맞춰는지만 보면 되는 것도 아닙니다.

추천 시스템에서 “좋은 성능” 이라는 것을 정의할 때에는, 다음과 같은 질문들이 필요합니다.

그리고 이러한 질문들에 따라 “좋은 성능”이라는 정의는 완전히 달라지게 됩니다.

추천 결과는, 하나의 지표만으로 그 품질을 설명할 수 없습니다. 하지만 그냥 단순히 생각해보면, “정답을 많이 맞추면 좋은 추천 아닌가요?”라고 생각할 수도 있습니다. 이 질문을 염두에 두고, 아래 두 가지 추천 결과를 비교해보겠습니다.

사용자에게 영화 10개를 추천합니다.
- 추천 A : 정답 1개를 1등에 배치함. 나머지 9개는 사용자가 선호하지 않는 영화임.
- 추천 B : 정답 3개를 5등, 6등, 7등에 배치함.

어느 쪽이 더 좋은 추천일까요? 검색 결과나 컨텐츠 추천은 A가 훨씬 좋을 수도 있고, 쇼핑 추천이라면 B가 더 의미 있는 추천일 수도 있습니다. 즉, 서비스의 목적에 따라 평가 기준이 달라져야 하는 것입니다.

그래서 추천 시스템에서는 단 하나의 지표가 아니라, 서로 다른 관점을 가진 여러 평가 지표를 함께 사용합니다.

이 포스팅 시리즈에서는 추천 시스템에서 사용되는 평가 지표들을 개념, 수식, 코드, 특징, 언제 활용하는지 전반 내용을 정리합니다. 시리즈에서 다룰 평가 지표들은 다음과 같습니다.

평가지표는 추가될 수 있음

추천 품질을 평가할 때, 위 지표들은 서로 상호 보완적으로 여러 개를 섞어서 사용합니다. 서로 대체 관계가 아닌, 보완 관계인 것입니다. 그리고 꼭 염두에 둘 점! 지표들 중 “좋은” 지표는 없습니다. 문제에 따라 적절한 지표가 있을 뿐입니다.

다음 글에서는 가장 기본적이지만, 가장 많이 오해받는 지표인 Precision, 그리고 이어서 Recall을 살펴보겠습니다.