인기 SNS 플랫폼 틱톡은 Z세대를 사로잡으면서 페이스북과 인스타그램, 스냅챗 등 기존 SNS 플랫폼을 위협할 경쟁 플랫폼으로 급부상했다. 틱톡이 전 세계 사용자의 인기를 얻게 된 비밀은 바로 모기업 바이트댄스가 제작한 알고리즘이다. 알고리즘으로 사용자의 연령, 성별, 관심사 등 다양한 정보를 파악하고 사용자가 좋아할 만한 영상을 보여준다. 그런데, 틱톡 알고리즘은 사용자의 정보를 어떻게 정확히 파악할까?
미국 유력 일간지 월스트리트저널이 틱톡 계정 100여 개를 자동 생성하여 틱톡 알고리즘의 사용자 관심사 정보 파악 과정을 자세히 파헤쳐 보았다.

틱톡 관계자의 공식 설명
틱톡은 공식적으로 사용자가 게재한 영상 공유와 좋아요, 댓글, 팔로우하는 계정 등을 기준으로 개인의 관심사를 파악하고, 이를 기반으로 맞춤형 콘텐츠를 제공한다고 주장한다.
영상 피드를 넘길 때나 넘기기를 주저할 때, 게시글에 반응을 보일 때까지 틱톡 알고리즘은 항상 사용자를 추적한다. 사용자의 활동을 몰래 추적하면서 관심사는 물론이고 감정까지 파악하면서 사용자에게 벗어나기 어려울 정도로 매력적인 맞춤형 영상을 끝없이 제공한다.
틱톡의 신규 가입자 관심사 추적 방법
월스트리트저널은 틱톡의 사용자 관심사 추적 관련 사항을 확인하고자 자동화 봇을 이용해 각각 다른 생년월일과 IP 주소를 만들고, 틱톡 계정 100여 개를 생성했다. 틱톡 프로필에 성별 정보는 별도로 공개하지 않았다. 그러나 틱톡은 IP 주소를 통해 모든 계정의 위치를 확인했다.
계정 프로필의 관심사 태그에서 한 가지 주목할 만한 사실을 발견했다. 모든 프로필에 관심사 태그가 작성된 것이다. 이는 월스트리트저널의 봇이 제공한 정보가 아니다. 월스트리트저널은 계정 생성 당시 틱톡에 관심사 정보를 전혀 제공하지 않았다.
틱톡이 영상 다시 보기나 영상 중단 등과 같은 사용자 활동 확인하고, 해당 영상과 이미지의 해시태그를 분석하면서 관심사를 파악한다는 증거이다.
또, 월스트리트저널은 모든 계정이 처음 접속했을 때, 여러 종류의 영상 피드를 추천 영상으로 제공받았으나 프로필에 관심사 태그가 추가된 후, 그와 관련된 콘텐츠만 집중적으로 맞춤형 콘텐츠로 등장한다는 사실도 확인했다.
처음에는 인기 춤 영상과 종교 관련 영상, 가족 관계 조언 관련 영상 등 여러 종류에 걸쳐 다양한 인기 영상을 보여준다. 그러나 시간이 지나면서 사용자의 활동을 기반으로 맞춤 추천으로 제공할 콘텐츠 범위를 좁힌다. 간혹 맞춤 콘텐츠 제공을 위해 알고리즘이 파악한 사용자 개인의 관심사를 인간 관리자가 점검하기도 한다.
월스트리트저널은 봇으로 생성한 계정을 통해 이 모든 사실을 파악했다.
이와 관련, 월스트리트저널은 봇으로 생성한 계정 중, 틱톡에 켄터키주에 거주하는 24세 남성이라는 신원을 제공한 틱톡 계정 'Kenturky_96'의 예시를 언급했다.
처음에는 애완동물 영상, 요리 영상, 댄스 영상, 메이크업 팁 등 다양한 종류의 영상을 볼 수 있었다. 그러나 Kenturky_96이 '슬픔'이라는 해시태그가 추가된 영상을 한 번 중단하고, 오랫동안 시청했다. 몇 차례 다양한 인기 영상 피드를 제공한 뒤 슬픔이라는 해시태그를 추가한 또 다른 영상을 제공했다.
이때, Kenturky_96는 슬픔 해시태그가 추가된 영상을 오래 시청했다. 이후, 슬픔이라는 해시태그가 포함된 영상 피드가 더 많이 등장했다. 슬픔 관련 영상을 몇 차례 더 오래 본 뒤, Kenturky_96가 접할 수 있는 전체 맞춤 영상 중 93%가 슬픔과 관련된 영상인 것을 확인할 수 있었다. Kenturky_96의 관심사를 파악하는 데 걸린 시간은 처음 틱톡에 접속하고 2시간도 걸리지 않았다.
Kenturky_96뿐만 아니라 50대 남성, 60대 여성이라는 신원을 제공한 다른 틱톡 계정도 같은 과정을 거쳐 관심사를 파악하고 그에 따라 맞춤형 콘텐츠를 제공했다. 틱톡 알고리즘은 월스트리트저널이 생성한 계정의 관심사 모두 2시간 이내로 파악했다. 또, 일부 계정의 관심사를 파악하는 데 걸린 시간은 40분도 되지 않은 것을 확인할 수 있었다.
전문가의 설명과 함께 살펴본 틱톡 알고리즘의 사용자 추적 행위
틱톡이 사용자를 깊이 추적하여 관심사를 파악하는 것이 맞을까? 이에, 월스트리트저널은 유튜브 알고리즘 개발 및 관리를 담당한 구글 출신 데이터 사이언티스트 겸 알고리즘 전문가인 기욤 섀슬롯(Guillaume Chaslot)에게 틱톡 알고리즘에 대해 문의했다. 섀슬롯은 현재 알고리즘 투명성 옹호론자로도 활동한다.
섀슬롯은 틱톡 알고리즘이 다른 SNS의 알고리즘과는 다르다고 주장하며, 틱톡 알고리즘은 사용자의 취약점을 훨씬 더 빨리 파악할수록 강력해진다고 전했다.
이어, "유튜브는 추천 엔진을 기반으로 시청할 관련 영상 70%를 제공한다. 추천 엔진이 전체 관련 영상의 70%를 제공하는 것만으로도 사용자 추적 문제가 심각하다는 사실을 알 수 있다. 그러나 틱톡은 더 심각하다. 사용자에게 제공하는 콘텐츠 90~95%가 추천 엔진을 기반으로 한다. 유튜브보다 사용자를 더 깊이 추적한다는 사실을 시사한다"라고 설명했다.
이는 틱톡의 공식 설명과 달리 실제 틱톡 측이 사용자가 시청하는 영상 게재자와 영상에 사용하는 오디오 트랙, 영상 소개글과 해시태그도 이용해 관심사를 파악하는 것과 관련이 있다. 심지어 사용자가 틱톡 앱에 접속하는 데 사용한 기기에 저장된 기본 정보까지 관심사 파악에 동원된다.
Kenturky_96의 계정을 통해서도 관련 사실을 확인할 수 있었다. Kenturky_96는 켄터키주와 관련된 영상도 추천 영상으로 자주 접했다. 틱톡이 미국 켄터키주로 표시된 IP 주소를 이용해 위치 정보를 파악했기 때문이다.
한편, 틱톡 대변인은 "틱톡은 맞춤형 영상을 제공할 목적으로 사용자 기기의 마이크를 이용한 도청과 사용자 기기의 메시지 수집과 같은 행위를 하지 않는다"라고 반박했다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]