CWN(CHANGE WITH NEWS) - 머신러닝, 더 잘 활용하고 싶다면 "스몰 데이터"에 주목하라 

  • 흐림통영19.6℃
  • 흐림남원18.0℃
  • 흐림김해시19.1℃
  • 구름많음철원20.2℃
  • 흐림추풍령17.0℃
  • 흐림정선군17.1℃
  • 비대구18.9℃
  • 흐림세종18.0℃
  • 흐림원주20.5℃
  • 흐림진도군20.9℃
  • 흐림고산26.8℃
  • 비창원19.1℃
  • 비포항20.3℃
  • 흐림강화21.3℃
  • 흐림광양시18.5℃
  • 흐림장흥18.9℃
  • 비인천21.7℃
  • 구름많음백령도20.5℃
  • 비북강릉19.3℃
  • 흐림천안19.9℃
  • 흐림문경17.4℃
  • 흐림순창군17.8℃
  • 흐림산청17.5℃
  • 비청주20.6℃
  • 흐림경주시19.4℃
  • 흐림영천18.6℃
  • 흐림울진19.3℃
  • 흐림제천18.6℃
  • 흐림충주20.3℃
  • 흐림부여18.4℃
  • 흐림함양군17.4℃
  • 흐림합천18.2℃
  • 흐림거제20.2℃
  • 흐림영주17.1℃
  • 비홍성18.5℃
  • 비여수19.0℃
  • 흐림의령군17.1℃
  • 흐림장수16.7℃
  • 흐림구미17.9℃
  • 흐림북창원19.3℃
  • 흐림상주17.5℃
  • 비대전18.3℃
  • 흐림수원21.1℃
  • 흐림서청주18.5℃
  • 흐림양산시19.8℃
  • 비서귀포27.3℃
  • 흐림강진군19.2℃
  • 흐림이천19.2℃
  • 흐림보은17.8℃
  • 흐림대관령15.0℃
  • 흐림파주19.6℃
  • 흐림거창17.1℃
  • 구름많음춘천19.2℃
  • 구름많음동해19.5℃
  • 구름많음인제18.5℃
  • 흐림영덕18.5℃
  • 흐림서산18.6℃
  • 흐림청송군17.6℃
  • 흐림고흥19.2℃
  • 흐림보성군18.7℃
  • 흐림서울21.7℃
  • 흐림양평20.6℃
  • 구름많음속초19.6℃
  • 흐림해남19.9℃
  • 흐림울릉도20.8℃
  • 흐림진주16.8℃
  • 흐림정읍19.6℃
  • 흐림홍천19.2℃
  • 비제주25.8℃
  • 흐림밀양18.7℃
  • 흐림보령19.8℃
  • 흐림태백14.8℃
  • 흐림고창20.0℃
  • 흐림군산18.3℃
  • 비광주18.9℃
  • 흐림부안19.0℃
  • 흐림남해18.5℃
  • 흐림성산26.1℃
  • 흐림고창군19.9℃
  • 흐림의성18.5℃
  • 비목포19.6℃
  • 흐림안동17.9℃
  • 비부산20.0℃
  • 흐림순천17.6℃
  • 흐림임실17.8℃
  • 흐림강릉20.3℃
  • 흐림봉화16.6℃
  • 흐림북춘천21.4℃
  • 흐림동두천20.6℃
  • 흐림영광군19.5℃
  • 비울산18.8℃
  • 흐림금산18.1℃
  • 흐림완도19.5℃
  • 흐림영월18.1℃
  • 비전주19.0℃
  • 비북부산20.0℃
  • 흐림흑산도21.2℃
  • 2025.10.03 (금)

머신러닝, 더 잘 활용하고 싶다면 "스몰 데이터"에 주목하라 

이진영 / 기사승인 : 2021-10-21 19:07:00
  • -
  • +
  • 인쇄
사진 출처: freepik.com
사진 출처: freepik.com

인공지능(AI)과 함께 빅 데이터의 중요성이 강조되어왔다. 오늘날 정보 통신 분야에서 빠르게 생성되는 거대한 데이터 세트는 인공지능의 발전에 기여하며 큰 역할을 해왔다. 따라서 대중들이 AI에서 빅데이터를 연상하는 것은 놀라운 일이 아니다. 그런데 AI는 단지 대규모 데이터 세트에 관한 것만은 아니다. 미국의 과학 전문 매거진 사이언티픽아메리칸은 '스몰 데이터' 접근법에 대한 연구가 광범위하게 성장해왔다고 강조했다.

미세 조정(fine-tuning)이라고도 불리는 전이 학습(transfer learning)은 관심 있는 작업에 대한 데이터는 거의 없지만 관련 문제에 대한 데이터가 풍부할 때 유용하다. 이는 빅 데이터 세트를 사용해 모델을 교육한 다음, 특정 문제와 관련된 작은 데이터 세트를 사용해 재교육하는 것이다. 인간이 하나의 주제에 대한 지식을 유사한 주제에 전달할 수 있는 것처럼, 전이 학습은 데이터 과학자에게 머신 러닝을 통해 얻은 통찰력을 유사한 주제에 전달할 수 있도록 한다.

예를 들어 인도 방갈로르 연구원은 ImageNet 분류기를 기반으로 전이 학습을 통해 오직 45개의 학습 예시만으로도 초음파 이미지에서 신장을 찾는 모델을 훈련했다. ImageNet은 수천 개 범주로 분류된 수백만 개의 이미지를 포함하는 데이터 세트이다.

독일어 음성 인식에 대한 연구팀은 큰 데이터 세트에 대해 훈련된 영어 음성 모델로 시작해 전이 학습으로 작은 독일어 오디오 세트에 맞게 조정했을 때 결과를 개선할 수 있음을 보여주었다.

이렇게 전이 학습법에 대한 연구는 지난 10년간 크게 성장해왔는데, 조지타운 대학교의 보안 및 신흥 기술 센터(CSET)에 대한 새로운 보고서에서 전이 학습이 2010년 이후 가장 일관되고 높은 연구 성장률을 보인 것으로 나타났다. 또 이러한 성장은 최근 몇 년 동안 광범위한 관심을 끌고 있는 강화 학습 분야를 앞지르는 것으로 나타났다.

전이 학습 연구는 계속 증가할 것으로 예상되는데, 3년 성장 예측 모델에 따르면 스몰 데이터 범주에서 전이 학습 방법에 대한 연구가 2023년까지 가장 빠르게 성장할 것으로 추정된다. 실제로 전이 학습 성장률은 AI 연구 전체 성장률보다 훨씬 높을 것으로 예측되며, 이는 전이 학습이 더 유용해지고 널리 사용될 가능성이 높다는 것을 의미한다.

전이 학습 연구와 같은 스몰 데이터 접근 방식은 더 데이터 집약적인 방법에 비해 많은 이점을 제공한다. 더 적은 데이터로 AI를 사용할 수 있어 상대적으로 드물게 발생하는 재해 예측 또는 디지털 건강 기록이 없는 모집 단의 질병 위험 예측과 같이 데이터가 거의 또는 전혀 존재하지 않는 영역에서 발전을 촉진할 수 있다. 또 더 많은 조직이 AI 애플리케이션 영역을 다양화하고 이전에 개발되지 않은 도메인을 시도함에 따라 전이 학습과 같은 접근 방식이 점점 중요해질 것으로 예상된다.

전이 학습을 이용할 때 사전 훈련된 모델을 사용하면 훈련 시간을 단축하고 알고리즘을 훈련하는 데 필요한 계산 자원의 양을 줄일 수 있다. 물론 사전 훈련된 모델이 목표 문제와 충분히 유사하지 않으면 전이 학습을 효과적으로 활용하기 어렵다. 하지만 이를 잘 활용하면 탄소 배출량을 크게 줄일 수 있는데, 대형 신경망을 훈련하는 과정이 상당한 에너지를 필요로 한다는 점에서 이는 매우 중요하다.

전이 학습은 문제가 이미 유사한 과제에 대해 훈련되었기 때문에 훈련 중에 더 높은 학습률을 제공한다는 장점이 있다. 이는 성능 향상으로 이어지는데, 출발점이 좋아지고 학습률이 높아지는 만큼 더 높은 성능 수준으로 수렴할 수 있는 머신 러닝 모델을 제공해 보다 정확한 출력이 가능하다. 또 사전 훈련된 모델을 활용해 기존 학습 방법보다 더 빠르게 원하는 성능에 도달할 수 있다는 장점이 있다.

전이 학습은 기존에 빅데이터를 활용해온 다양한 분야에 적용할 수 있는데, 이미지 인식, 자연어 처리(NLP, Natural Language Processing), 음성 인식, 자율 주행, 게임 전략, 의료, 스팸 필터링 등 다양한 영역에 활용할 수 있다.


[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue