CWN(CHANGE WITH NEWS) - 추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

  • 비울릉도4.6℃
  • 맑음부산4.2℃
  • 구름많음순창군1.7℃
  • 흐림춘천-0.1℃
  • 구름조금임실0.7℃
  • 맑음포항3.7℃
  • 구름조금속초2.4℃
  • 흐림북춘천-0.5℃
  • 맑음대전-0.5℃
  • 흐림영광군2.4℃
  • 맑음의령군-0.3℃
  • 눈서울-0.9℃
  • 흐림인제-0.4℃
  • 맑음울진2.8℃
  • 흐림합천2.4℃
  • 맑음청주-0.2℃
  • 흐림동두천-1.9℃
  • 맑음금산0.2℃
  • 흐림제주8.7℃
  • 맑음북강릉2.0℃
  • 구름많음성산5.4℃
  • 맑음세종-0.2℃
  • 흐림정읍1.6℃
  • 맑음서청주-1.8℃
  • 흐림천안-1.0℃
  • 흐림남원1.4℃
  • 맑음원주-1.4℃
  • 맑음추풍령-0.5℃
  • 구름많음군산1.1℃
  • 흐림철원-2.2℃
  • 맑음목포3.8℃
  • 맑음동해3.7℃
  • 구름많음이천-0.9℃
  • 흐림장흥4.6℃
  • 비흑산도5.9℃
  • 구름많음광양시2.3℃
  • 구름많음고산7.7℃
  • 흐림보령0.6℃
  • 구름조금완도5.5℃
  • 구름많음영월-0.5℃
  • 눈인천-0.4℃
  • 구름많음진도군4.5℃
  • 맑음밀양2.5℃
  • 맑음창원4.3℃
  • 맑음진주0.4℃
  • 흐림수원-1.1℃
  • 구름조금대구2.8℃
  • 맑음통영3.1℃
  • 맑음김해시3.0℃
  • 박무홍성0.1℃
  • 흐림순천1.9℃
  • 맑음보성군4.2℃
  • 맑음영덕3.2℃
  • 맑음충주-0.7℃
  • 흐림백령도1.8℃
  • 흐림함양군3.4℃
  • 맑음제천-2.0℃
  • 흐림부안2.4℃
  • 흐림거창1.5℃
  • 맑음거제4.3℃
  • 구름많음고창군1.7℃
  • 맑음강릉3.3℃
  • 흐림대관령-4.6℃
  • 맑음경주시3.3℃
  • 비광주2.9℃
  • 맑음영주0.2℃
  • 맑음양산시5.1℃
  • 맑음영천1.9℃
  • 흐림양평-0.4℃
  • 맑음부여-0.4℃
  • 맑음태백-2.7℃
  • 비서귀포6.7℃
  • 구름조금여수3.8℃
  • 맑음구미1.4℃
  • 구름많음고창2.0℃
  • 맑음보은-1.0℃
  • 구름많음전주1.1℃
  • 맑음봉화-0.7℃
  • 구름많음안동0.0℃
  • 흐림서산-0.5℃
  • 맑음문경0.8℃
  • 흐림파주-1.9℃
  • 흐림강진군5.0℃
  • 맑음상주1.1℃
  • 흐림산청3.3℃
  • 구름많음장수-0.2℃
  • 흐림정선군-0.7℃
  • 흐림홍천-0.7℃
  • 맑음북부산4.3℃
  • 맑음의성1.3℃
  • 맑음남해4.5℃
  • 맑음고흥3.9℃
  • 맑음북창원4.3℃
  • 흐림강화-0.9℃
  • 맑음청송군0.3℃
  • 맑음울산4.0℃
  • 흐림해남4.8℃
  • 2025.12.14 (일)

추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

김미경 / 기사승인 : 2021-02-21 22:15:31
  • -
  • +
  • 인쇄

바야흐로 추천 서비스의 시대다. 내가 원하는 콘텐츠를 직접 검색하지 않아도 유튜브에는 추천 동영상이, 쇼핑몰 사이트에는 추천 상품이 끊임없이 펼쳐진다. 나도 잘 모르던 내 취향까지 더 자세히 알고있는 듯한 알고리즘. 추천 콘텐츠는 어떤 기준으로 결정되는 걸까? 추천 알고리즘의 작동 원리를 살펴본다.

사용자가 선호할 만한 아이템을 추측하여 적합한 특정 항목을 제공해 주는 기본적인 알고리즘에는 협업 필터링(Collaborative filtering)과 콘텐츠 기반 필터링(Content-based filtering)이 있다. 협업 필터링은 사용자의 ‘행동 기록’을, 콘텐츠 기반 필터링은 ‘콘텐츠의 특성 자체’를 분석하여 추천한다.

1. 협업 필터링: 사람들의 행동 기록을 분석하다
‘협업 필터링’이란 특정 집단에서 발생하는 ‘유사한 사용행동’을 파악하여, 비슷한 성향의 사람들에게 아이템을 추천하는 기술이다. 협업 필터링은 성향이 비슷하면, 선호하는 것도 비슷할 것이라는 가정을 전제로 한다. 협업 필터링은 사용자 기반 협업 필터링(User-based CF), 아이템 기반 협업 필터링(Item-based CF)으로 구분된다.

사용자 기반 협업 필터링

나와 성향이 비슷한 사람들이 사용한 아이템을 추천해 주는 방식이다. 예를 들어, 사용자 A가 온라인 몰에서 선크림과 튜브, 그리고 수영복 함께 구매하고, 또 다른 사용자 B는 선크림과 튜브를 구매했다고 가정해 보자. 알고리즘은 구매 목록이 겹치는 이 두 사용자가 유사하다고 판단해, 사용자 B에게 수영복을 추천한다.

페이스북이나 링크드인 등의 SNS ‘친구 추천' 서비스 역시 같은 방식을 적용한다. 나와 친구를 비슷한 성향으로 인식하여, 친구의 친구들을 나에게도 추천한다.

아이템 기반 협업 필터링

내가 구매하려는 물품과 함께 구매된 경우가 많은 아이템을 추천해 주는 필터링 방식이다. 예를 들어, 다이어리와 볼펜을 함께 구매하는 소비자가 많다면, 다이어리를 구매한 사용자에게 볼펜을 추천한다.

이때, 두 상품의 특징은 파악하지 않는다. 즉, 다이어리와 만년필이 사무용품인지, 서로 같이 사용되는 관계인지 등은 고려하지 않는다. 다만, 두 제품이 같이 구매된 기록이 많기에 새로운 사용자에게도 추천할 뿐이다.

협업 필터링의 장·단점

많은 사용자에게서 얻은 기호 정보로 새로운 아이템을 추천하는 협업필터링은 직관적으로 이해하기 쉽고, 합리적인 것처럼 보인다. 하지만, 기존의 기록으로 분석하기 때문에 다음의 문제를 야기한다.

첫째, 콜드 스타트(Cold start) 문제이다. 새로운 아이템이나 사용자가 추가되면, 충분한 사용기록이 확보될 때까지는 적절한 추천을 하기 어렵다.

둘째, 롱테일(Long tail)의 문제이다. 인기 편향성의 문제라고도 한다. 사용자가 소수의 아이템만 선호하여, 대다수의 비인기 아이템들은 추천을 위한 충분한 정보가 쌓이지 못한다.

둘째, 사용기록 규모성의 문제이다. 사용기록 데이터가 적으면, 추천의 정확성도 낮아지지만 사용기록이 너무 많을 경우에도 문제가 발생한다. 유사집단을 분류할 때 적용해야 하는 알고리즘이 많고, 처리시간도 길어지기 때문이다.

2. 콘텐츠 기반 필터링: 콘텐츠의 특성 자체를 분석하다
콘텐츠 기반 필터링은 콘텐츠(아이템)의 특성과 사용자의 선호도를 비교해 추천하는 방식이다. 먼저, 콘텐츠를 설명하는 요소를 쪼갠다.

예를 들어, 영화라면 줄거리나 등장인물, 상품이라면 상세 페이지의 설명, 음악은 장르, 가수, 비트 등이 분석 대상이다. 다음으로 사용자가 기존에 좋아한 콘텐츠가 어떤 특징을 가지고 있는지 확인한다. 이렇게 해당 특징을 갖춘 다른 콘텐츠를 추천하는 게 가능해진다.

콘텐츠 기반 필터링은 콘텐츠 자체를 분석하기 때문에 사용자 행동 정보가 많이 필요하다는 협업 필터링의 단점을 해결할 수 있다. 하지만, 다양한 형식의 항목을 추천하기 어렵다는 단점이 있다. 예를 들어, 음악과 사진은 얻을 수 있는 정보가 다르기 때문에, 음악의 데이터를 바탕으로 사진을 추천해주기 어렵다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue