CWN(CHANGE WITH NEWS) - 추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

  • 맑음임실2.0℃
  • 맑음영덕4.2℃
  • 구름조금흑산도12.1℃
  • 구름많음영광군
  • 맑음서울3.6℃
  • 맑음합천2.4℃
  • 맑음순천1.6℃
  • 맑음문경2.3℃
  • 맑음제천-1.1℃
  • 맑음홍성3.2℃
  • 구름많음제주14.0℃
  • 맑음광양시6.0℃
  • 구름조금울릉도8.3℃
  • 맑음대전4.6℃
  • 맑음포항6.1℃
  • 맑음구미3.2℃
  • 맑음동두천-1.3℃
  • 맑음속초1.7℃
  • 맑음거제9.0℃
  • 맑음서청주1.7℃
  • 구름많음장흥4.1℃
  • 맑음완도8.0℃
  • 맑음북부산4.1℃
  • 맑음보령5.1℃
  • 맑음함양군2.6℃
  • 맑음광주6.8℃
  • 맑음부산7.9℃
  • 맑음장수-0.2℃
  • 맑음경주시3.6℃
  • 맑음북창원7.4℃
  • 맑음이천-0.3℃
  • 맑음인천4.6℃
  • 맑음홍천-0.6℃
  • 맑음인제-1.8℃
  • 맑음밀양2.2℃
  • 맑음철원-3.0℃
  • 맑음청주5.3℃
  • 맑음춘천-1.7℃
  • 맑음부안6.3℃
  • 맑음추풍령4.7℃
  • 맑음금산2.4℃
  • 맑음김해시5.9℃
  • 맑음울진1.3℃
  • 맑음강화0.8℃
  • 맑음원주0.7℃
  • 맑음고창군7.0℃
  • 맑음서산3.1℃
  • 맑음군산6.4℃
  • 구름조금목포9.5℃
  • 맑음대구4.3℃
  • 맑음파주-2.3℃
  • 맑음상주3.5℃
  • 맑음태백0.4℃
  • 맑음여수8.5℃
  • 맑음남해6.8℃
  • 구름조금성산12.2℃
  • 맑음충주-0.3℃
  • 맑음정선군-1.7℃
  • 맑음창원8.2℃
  • 맑음북강릉1.4℃
  • 구름조금진도군7.9℃
  • 맑음청송군-1.2℃
  • 맑음수원1.0℃
  • 맑음영월-1.0℃
  • 맑음영천1.3℃
  • 맑음고창7.6℃
  • 맑음의성-0.2℃
  • 맑음남원2.3℃
  • 흐림강진군4.9℃
  • 맑음순창군3.3℃
  • 맑음의령군0.3℃
  • 맑음보은1.5℃
  • 맑음봉화-2.5℃
  • 맑음정읍6.5℃
  • 맑음북춘천-2.3℃
  • 맑음울산5.7℃
  • 맑음부여2.8℃
  • 맑음강릉3.6℃
  • 구름많음해남4.4℃
  • 구름조금서귀포12.9℃
  • 맑음동해2.7℃
  • 맑음양평1.2℃
  • 맑음세종4.1℃
  • 맑음진주2.5℃
  • 맑음영주1.5℃
  • 맑음거창1.5℃
  • 맑음대관령-2.8℃
  • 맑음백령도7.7℃
  • 맑음천안1.2℃
  • 맑음고흥2.7℃
  • 맑음보성군4.5℃
  • 맑음통영7.0℃
  • 구름많음고산14.3℃
  • 맑음안동0.0℃
  • 맑음양산시5.1℃
  • 맑음전주5.0℃
  • 맑음산청5.3℃
  • 2025.10.28 (화)

추천 알고리즘의 원리 #1, 내 취향을 어떻게 아는 걸까?

김미경 / 기사승인 : 2021-02-21 22:15:31
  • -
  • +
  • 인쇄

바야흐로 추천 서비스의 시대다. 내가 원하는 콘텐츠를 직접 검색하지 않아도 유튜브에는 추천 동영상이, 쇼핑몰 사이트에는 추천 상품이 끊임없이 펼쳐진다. 나도 잘 모르던 내 취향까지 더 자세히 알고있는 듯한 알고리즘. 추천 콘텐츠는 어떤 기준으로 결정되는 걸까? 추천 알고리즘의 작동 원리를 살펴본다.

사용자가 선호할 만한 아이템을 추측하여 적합한 특정 항목을 제공해 주는 기본적인 알고리즘에는 협업 필터링(Collaborative filtering)과 콘텐츠 기반 필터링(Content-based filtering)이 있다. 협업 필터링은 사용자의 ‘행동 기록’을, 콘텐츠 기반 필터링은 ‘콘텐츠의 특성 자체’를 분석하여 추천한다.

1. 협업 필터링: 사람들의 행동 기록을 분석하다
‘협업 필터링’이란 특정 집단에서 발생하는 ‘유사한 사용행동’을 파악하여, 비슷한 성향의 사람들에게 아이템을 추천하는 기술이다. 협업 필터링은 성향이 비슷하면, 선호하는 것도 비슷할 것이라는 가정을 전제로 한다. 협업 필터링은 사용자 기반 협업 필터링(User-based CF), 아이템 기반 협업 필터링(Item-based CF)으로 구분된다.

사용자 기반 협업 필터링

나와 성향이 비슷한 사람들이 사용한 아이템을 추천해 주는 방식이다. 예를 들어, 사용자 A가 온라인 몰에서 선크림과 튜브, 그리고 수영복 함께 구매하고, 또 다른 사용자 B는 선크림과 튜브를 구매했다고 가정해 보자. 알고리즘은 구매 목록이 겹치는 이 두 사용자가 유사하다고 판단해, 사용자 B에게 수영복을 추천한다.

페이스북이나 링크드인 등의 SNS ‘친구 추천' 서비스 역시 같은 방식을 적용한다. 나와 친구를 비슷한 성향으로 인식하여, 친구의 친구들을 나에게도 추천한다.

아이템 기반 협업 필터링

내가 구매하려는 물품과 함께 구매된 경우가 많은 아이템을 추천해 주는 필터링 방식이다. 예를 들어, 다이어리와 볼펜을 함께 구매하는 소비자가 많다면, 다이어리를 구매한 사용자에게 볼펜을 추천한다.

이때, 두 상품의 특징은 파악하지 않는다. 즉, 다이어리와 만년필이 사무용품인지, 서로 같이 사용되는 관계인지 등은 고려하지 않는다. 다만, 두 제품이 같이 구매된 기록이 많기에 새로운 사용자에게도 추천할 뿐이다.

협업 필터링의 장·단점

많은 사용자에게서 얻은 기호 정보로 새로운 아이템을 추천하는 협업필터링은 직관적으로 이해하기 쉽고, 합리적인 것처럼 보인다. 하지만, 기존의 기록으로 분석하기 때문에 다음의 문제를 야기한다.

첫째, 콜드 스타트(Cold start) 문제이다. 새로운 아이템이나 사용자가 추가되면, 충분한 사용기록이 확보될 때까지는 적절한 추천을 하기 어렵다.

둘째, 롱테일(Long tail)의 문제이다. 인기 편향성의 문제라고도 한다. 사용자가 소수의 아이템만 선호하여, 대다수의 비인기 아이템들은 추천을 위한 충분한 정보가 쌓이지 못한다.

둘째, 사용기록 규모성의 문제이다. 사용기록 데이터가 적으면, 추천의 정확성도 낮아지지만 사용기록이 너무 많을 경우에도 문제가 발생한다. 유사집단을 분류할 때 적용해야 하는 알고리즘이 많고, 처리시간도 길어지기 때문이다.

2. 콘텐츠 기반 필터링: 콘텐츠의 특성 자체를 분석하다
콘텐츠 기반 필터링은 콘텐츠(아이템)의 특성과 사용자의 선호도를 비교해 추천하는 방식이다. 먼저, 콘텐츠를 설명하는 요소를 쪼갠다.

예를 들어, 영화라면 줄거리나 등장인물, 상품이라면 상세 페이지의 설명, 음악은 장르, 가수, 비트 등이 분석 대상이다. 다음으로 사용자가 기존에 좋아한 콘텐츠가 어떤 특징을 가지고 있는지 확인한다. 이렇게 해당 특징을 갖춘 다른 콘텐츠를 추천하는 게 가능해진다.

콘텐츠 기반 필터링은 콘텐츠 자체를 분석하기 때문에 사용자 행동 정보가 많이 필요하다는 협업 필터링의 단점을 해결할 수 있다. 하지만, 다양한 형식의 항목을 추천하기 어렵다는 단점이 있다. 예를 들어, 음악과 사진은 얻을 수 있는 정보가 다르기 때문에, 음악의 데이터를 바탕으로 사진을 추천해주기 어렵다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0