CWN(CHANGE WITH NEWS) - 추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

  • 구름많음인천-0.7℃
  • 구름많음고흥3.9℃
  • 흐림합천1.8℃
  • 흐림고창군0.6℃
  • 맑음밀양-0.1℃
  • 맑음영덕1.0℃
  • 맑음진주-0.5℃
  • 구름많음영천0.8℃
  • 맑음울진0.6℃
  • 맑음남해4.5℃
  • 구름많음청송군-0.6℃
  • 흐림영월-1.4℃
  • 맑음울산2.1℃
  • 흐림부여0.2℃
  • 맑음통영2.4℃
  • 흐림영주-0.1℃
  • 흐림장수0.3℃
  • 구름많음서울-1.0℃
  • 구름많음보성군3.7℃
  • 흐림백령도1.8℃
  • 흐림고산7.4℃
  • 흐림원주-1.4℃
  • 흐림양평0.0℃
  • 흐림충주-0.7℃
  • 구름많음해남3.9℃
  • 맑음북강릉2.0℃
  • 맑음김해시1.3℃
  • 맑음창원2.7℃
  • 맑음완도4.7℃
  • 비울릉도3.6℃
  • 눈대전0.2℃
  • 맑음추풍령-1.0℃
  • 맑음속초1.3℃
  • 흐림제천-1.9℃
  • 구름많음안동0.0℃
  • 맑음동해3.3℃
  • 구름많음장흥3.4℃
  • 흐림대관령-4.6℃
  • 흐림수원-0.4℃
  • 흐림금산0.1℃
  • 눈홍성0.0℃
  • 구름많음강화-0.9℃
  • 흐림순천1.7℃
  • 흐림서산0.0℃
  • 흐림군산0.9℃
  • 흐림전주1.1℃
  • 흐림임실-0.1℃
  • 구름많음파주-1.9℃
  • 흐림거창0.5℃
  • 흐림동두천-1.8℃
  • 구름조금상주-0.3℃
  • 구름조금산청3.1℃
  • 흐림영광군4.8℃
  • 맑음거제3.4℃
  • 맑음의령군-0.4℃
  • 흐림남원0.3℃
  • 흐림홍천-0.8℃
  • 구름많음강진군3.3℃
  • 흐림고창3.6℃
  • 비흑산도5.4℃
  • 눈청주0.2℃
  • 맑음경주시2.1℃
  • 흐림서청주-0.6℃
  • 구름조금여수3.6℃
  • 맑음북부산2.5℃
  • 구름많음대구2.0℃
  • 흐림인제-1.3℃
  • 맑음북창원3.2℃
  • 흐림부안0.9℃
  • 흐림정읍0.5℃
  • 흐림진도군6.1℃
  • 비서귀포7.3℃
  • 흐림함양군2.5℃
  • 흐림이천-0.7℃
  • 흐림세종-0.4℃
  • 흐림철원-1.9℃
  • 눈북춘천-1.3℃
  • 흐림천안-0.2℃
  • 맑음강릉1.8℃
  • 흐림문경0.8℃
  • 구름많음구미1.2℃
  • 흐림춘천-0.3℃
  • 흐림순창군0.6℃
  • 흐림보은-0.7℃
  • 맑음부산3.7℃
  • 흐림정선군-1.0℃
  • 구름많음성산6.5℃
  • 비제주8.5℃
  • 비목포4.4℃
  • 맑음광양시2.2℃
  • 흐림보령1.1℃
  • 구름많음봉화-1.2℃
  • 맑음포항2.2℃
  • 비광주2.1℃
  • 맑음양산시4.1℃
  • 흐림태백-2.9℃
  • 구름많음의성-0.7℃
  • 2025.12.14 (일)

추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

김미경 / 기사승인 : 2021-02-21 22:15:31
  • -
  • +
  • 인쇄

바야흐로 추천 서비스의 시대다. 내가 원하는 콘텐츠를 직접 검색하지 않아도 유튜브에는 추천 동영상이, 쇼핑몰 사이트에는 추천 상품이 끊임없이 펼쳐진다. 나도 잘 모르던 내 취향까지 더 자세히 알고있는 듯한 알고리즘. 추천 콘텐츠는 어떤 기준으로 결정되는 걸까? 추천 알고리즘의 작동 원리를 살펴본다.

사용자가 선호할 만한 아이템을 추측하여 적합한 특정 항목을 제공해 주는 기본적인 알고리즘에는 협업 필터링(Collaborative filtering)과 콘텐츠 기반 필터링(Content-based filtering)이 있다. 협업 필터링은 사용자의 ‘행동 기록’을, 콘텐츠 기반 필터링은 ‘콘텐츠의 특성 자체’를 분석하여 추천한다.

1. 협업 필터링: 사람들의 행동 기록을 분석하다
‘협업 필터링’이란 특정 집단에서 발생하는 ‘유사한 사용행동’을 파악하여, 비슷한 성향의 사람들에게 아이템을 추천하는 기술이다. 협업 필터링은 성향이 비슷하면, 선호하는 것도 비슷할 것이라는 가정을 전제로 한다. 협업 필터링은 사용자 기반 협업 필터링(User-based CF), 아이템 기반 협업 필터링(Item-based CF)으로 구분된다.

사용자 기반 협업 필터링

나와 성향이 비슷한 사람들이 사용한 아이템을 추천해 주는 방식이다. 예를 들어, 사용자 A가 온라인 몰에서 선크림과 튜브, 그리고 수영복 함께 구매하고, 또 다른 사용자 B는 선크림과 튜브를 구매했다고 가정해 보자. 알고리즘은 구매 목록이 겹치는 이 두 사용자가 유사하다고 판단해, 사용자 B에게 수영복을 추천한다.

페이스북이나 링크드인 등의 SNS ‘친구 추천' 서비스 역시 같은 방식을 적용한다. 나와 친구를 비슷한 성향으로 인식하여, 친구의 친구들을 나에게도 추천한다.

아이템 기반 협업 필터링

내가 구매하려는 물품과 함께 구매된 경우가 많은 아이템을 추천해 주는 필터링 방식이다. 예를 들어, 다이어리와 볼펜을 함께 구매하는 소비자가 많다면, 다이어리를 구매한 사용자에게 볼펜을 추천한다.

이때, 두 상품의 특징은 파악하지 않는다. 즉, 다이어리와 만년필이 사무용품인지, 서로 같이 사용되는 관계인지 등은 고려하지 않는다. 다만, 두 제품이 같이 구매된 기록이 많기에 새로운 사용자에게도 추천할 뿐이다.

협업 필터링의 장·단점

많은 사용자에게서 얻은 기호 정보로 새로운 아이템을 추천하는 협업필터링은 직관적으로 이해하기 쉽고, 합리적인 것처럼 보인다. 하지만, 기존의 기록으로 분석하기 때문에 다음의 문제를 야기한다.

첫째, 콜드 스타트(Cold start) 문제이다. 새로운 아이템이나 사용자가 추가되면, 충분한 사용기록이 확보될 때까지는 적절한 추천을 하기 어렵다.

둘째, 롱테일(Long tail)의 문제이다. 인기 편향성의 문제라고도 한다. 사용자가 소수의 아이템만 선호하여, 대다수의 비인기 아이템들은 추천을 위한 충분한 정보가 쌓이지 못한다.

둘째, 사용기록 규모성의 문제이다. 사용기록 데이터가 적으면, 추천의 정확성도 낮아지지만 사용기록이 너무 많을 경우에도 문제가 발생한다. 유사집단을 분류할 때 적용해야 하는 알고리즘이 많고, 처리시간도 길어지기 때문이다.

2. 콘텐츠 기반 필터링: 콘텐츠의 특성 자체를 분석하다
콘텐츠 기반 필터링은 콘텐츠(아이템)의 특성과 사용자의 선호도를 비교해 추천하는 방식이다. 먼저, 콘텐츠를 설명하는 요소를 쪼갠다.

예를 들어, 영화라면 줄거리나 등장인물, 상품이라면 상세 페이지의 설명, 음악은 장르, 가수, 비트 등이 분석 대상이다. 다음으로 사용자가 기존에 좋아한 콘텐츠가 어떤 특징을 가지고 있는지 확인한다. 이렇게 해당 특징을 갖춘 다른 콘텐츠를 추천하는 게 가능해진다.

콘텐츠 기반 필터링은 콘텐츠 자체를 분석하기 때문에 사용자 행동 정보가 많이 필요하다는 협업 필터링의 단점을 해결할 수 있다. 하지만, 다양한 형식의 항목을 추천하기 어렵다는 단점이 있다. 예를 들어, 음악과 사진은 얻을 수 있는 정보가 다르기 때문에, 음악의 데이터를 바탕으로 사진을 추천해주기 어렵다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue