CWN(CHANGE WITH NEWS) - AI의 ′사람 얼굴′ 공부법? 안면 인식 데이터셋 살펴보기

  • 흐림이천21.3℃
  • 흐림제천20.3℃
  • 구름많음동두천19.8℃
  • 흐림추풍령22.8℃
  • 흐림영덕20.1℃
  • 구름많음거창23.8℃
  • 구름많음김해시24.4℃
  • 흐림안동21.2℃
  • 구름많음울진20.8℃
  • 구름많음문경22.6℃
  • 구름많음임실21.3℃
  • 구름많음부안22.2℃
  • 구름많음남원23.5℃
  • 구름조금통영25.6℃
  • 구름조금성산24.9℃
  • 흐림서청주22.9℃
  • 구름조금제주27.2℃
  • 흐림속초19.6℃
  • 구름많음영광군22.1℃
  • 구름많음의령군25.3℃
  • 흐림태백16.1℃
  • 흐림정선군19.0℃
  • 구름많음파주19.5℃
  • 흐림춘천20.0℃
  • 구름많음철원18.5℃
  • 흐림경주시20.9℃
  • 흐림서울22.9℃
  • 흐림청송군19.9℃
  • 흐림보은22.8℃
  • 흐림영천20.9℃
  • 흐림대전24.0℃
  • 구름조금창원26.2℃
  • 구름많음강화21.6℃
  • 흐림청주24.7℃
  • 흐림울릉도21.3℃
  • 구름많음양산시23.8℃
  • 구름조금광양시25.3℃
  • 흐림북춘천19.6℃
  • 흐림봉화20.9℃
  • 구름많음정읍21.9℃
  • 구름조금북창원27.6℃
  • 흐림수원22.9℃
  • 흐림부산23.4℃
  • 구름조금서귀포26.9℃
  • 흐림군산22.7℃
  • 흐림포항22.0℃
  • 흐림보령22.0℃
  • 구름많음장수22.3℃
  • 흐림북강릉19.2℃
  • 구름많음인제18.2℃
  • 흐림강릉20.0℃
  • 구름많음산청24.9℃
  • 흐림의성21.0℃
  • 구름많음전주23.2℃
  • 맑음완도24.4℃
  • 흐림서산22.7℃
  • 구름많음북부산23.5℃
  • 맑음백령도20.7℃
  • 구름많음밀양26.0℃
  • 구름조금진주25.5℃
  • 구름많음홍천20.4℃
  • 맑음여수24.8℃
  • 흐림대관령15.1℃
  • 맑음진도군22.3℃
  • 구름조금광주23.8℃
  • 구름조금목포23.8℃
  • 맑음고흥25.1℃
  • 구름조금보성군24.8℃
  • 흐림부여23.0℃
  • 구름많음함양군24.0℃
  • 흐림동해19.6℃
  • 흐림영주21.4℃
  • 흐림상주23.5℃
  • 흐림홍성23.1℃
  • 구름조금장흥23.8℃
  • 흐림구미23.6℃
  • 비대구22.1℃
  • 흐림세종22.4℃
  • 흐림영월20.4℃
  • 구름조금남해25.8℃
  • 구름많음고창21.6℃
  • 흐림원주21.8℃
  • 흐림천안22.3℃
  • 구름조금거제26.3℃
  • 구름많음고창군21.2℃
  • 흐림인천23.1℃
  • 구름조금순천22.8℃
  • 구름조금고산26.5℃
  • 흐림양평21.9℃
  • 흐림충주22.7℃
  • 흐림금산23.6℃
  • 맑음해남23.1℃
  • 구름많음흑산도23.7℃
  • 흐림합천26.2℃
  • 구름많음순창군22.0℃
  • 맑음강진군24.2℃
  • 구름많음울산20.7℃
  • 2025.09.14 (일)

AI의 '사람 얼굴' 공부법? 안면 인식 데이터셋 살펴보기

김수현 / 기사승인 : 2021-02-16 22:05:56
  • -
  • +
  • 인쇄

인공지능(AI)에서 말하는 데이터셋(dataset)이란, 기계가 학습을 하는데 필요한 데이터의 집합이다. 좋은 인공지능을 위해서는, 해당 영역에서 고품질 데이터를 모아놓은 학습 데이터가 필수이다. 양적, 질적으로 우수한 데이터셋을 학습한 AI는 편향되지 않으며, 정확도가 높은 결괏값을 만들어낸다.

예를 들어, 바둑 알고리즘을 학습해 바둑 천재 이세돌을 이긴 AI '알파고'는 KGS공개서버에서 운영된 바둑 게임 데이터를 사용했다. 이 중에서도 고수(6단-9단)의 게임만을 사용했으며, 16만 개에 달하는 데이터로 학습했다.

안면인식 AI의 데이터 학습

['안면 인식 응용 서비스', 출처: AI허브]

인공지능을 기반으로 개발된 안면 인식 기술은 최근 비약적 발전을 거쳐, 기존 출입 통제나 범죄 수사뿐만 아니라 금융 결제 및 영상분석 영역까지 확대되고 있다.

그런데, 사람의 얼굴을 판독하는 AI에는 어떤 데이터셋을 사용해야 할까? 예시에 사용된 AI 허브의 '안면인식 응용 서비스' 원본 데이터는 600명의 한국인에게서 인당 32,400장의 이미지를 추출하였고, 총 1900만여 장의 데이터로 이루어져 있다. 포즈 방향, 조명 위치 및 세기, 표정, 해상도 등을 기준으로 분류, 설계된 데이터 베이스이다.

아기의 얼굴을 인식하려면 아기 얼굴 이미지가, 한국인의 얼굴을 인식하려면 한국인 얼굴 이미지가 필요하다. 다양한 연령, 인종만큼이나 다양한 안면 데이터셋. 이 중 몇 가지를 추려 살펴보자.

1. The Asian Face Age Dataset (AFAD)

아시아인의 얼굴을 보고 연령 추정을 위해 만들어진 데이터이다. 모든 데이터는 아시아인의 사진으로 구성됐다. 현재까지 존재하는 가장 큰 데이터셋으로, 16만 개가 넘는 얼굴 이미지와 함께 사진 속 인물의 연령, 성별 라벨이 포함되어 있다. 남, 여 구성비는 약 5:3이며 연령대는 15세에서 40대까지 다양하다.

기존 연령 추정을 위한 공개 데이터로 FG-NET (1002개의 얼굴 이미지), MORPH1(1690개의 얼굴 이미지) 및 MORPH2(55,608개의 얼굴 이미지) 등이 있었으나, 아시아 얼굴에 특화된 형태로 새로 제안되었다. 저자는 Zhenxing Niu, Mo Zhou, Xinbo Gao, Gang Hua 이다.

[AFAD 데이터 셋 예시, 출처: tykimos.github.io/2017/03/25/Dataset_and_Fit_Talk]

[AFAD 데이터 통계, 출처: tykimos.github.io/2017/03/25/Dataset_and_Fit_Talk]

2. IMDB-WIKI
2015년, '연령 추정에 대한 LAP 챌린지'에서 우승한 데이터셋으로, 단일 이미지의 연령 추정을 위해 만들어졌다. 공개된 유명인의 이미지를 IMDb에서 약 46만 개, 위키피디아에서 약 6만 개 크롤링하여 총 50만 개의 데이터셋을 구축했다.

IMDb는 가장 인기 있는 10만 명의 배우 목록에서 생년, 이름, 성별 및 관련 이미지를 크롤링하였고, 동일한 방식으로 위키피디아의 사용자 프로필 이미지를 크롤링했다. 저자는 Rasmus Rothe, Radu Timofte, Luc Van Gool 이다.

[IMDB-WIKI 데이터셋 통계, 출처: data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki]

3. Diversity in Faces (DiF)

2017년, 영국 UEFA 챔피언스 리그 결승전 당시 웨일즈 경찰은 자동 얼굴인식 시스템을 기반으로 범죄용의자를 탐지하겠다는 계획을 세웠다. 하지만, 경기 당일, 시스템은 2,470명에 달하는 사람을 용의자로 지목했으며, 이 중 약 92%가 오인식이었다.

이러한 오인식의 원인으로 얼굴인식 시스템의 편향성을 언급할 수 있다. 또, 이와 관련, 실제로 아프리카계 미국인은 백인보다 5~10% 정도 정확도가 떨어진다는 연구 결과도 있다.

DiF는, 얼굴 인식 기술의 공정성과 정확성 향상을 목표로 IBM 기초연구소에서 2019년 공개한 얼굴 데이터셋이다. 연구팀에 따르면, 실제 얼굴 인식 시스템 성능에 영향을 미치는 것은 '내재적 얼굴의 다양성' 이지, 인식 정확도가 개인이나 집단에 따라 달라질 수는 없다는 입장이다.

데이터셋에는 약 100만 명의 얼굴 데이터가 포함돼 있는데, 각 이미지에는 머리 모양과 얼굴의 대칭, 코의 길이, 이마 높이 등 객관적 얼굴 척도와 함께 연령과 성별 등 주석이 라벨링 되어 있다. 얼굴 부위 47곳 이상의 크기, 특징을 정리해 놓았으며 이와 같은 특징이 알고리즘의 성능을 강력하게 만들고 시스템 공정성, 정확성을 향상시키는 요인이 된다고 한다.

[DiF 데이터 셋 라벨링 예시, 출처: IBM]

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue