CWN(CHANGE WITH NEWS) - 머신러닝, 더 잘 활용하고 싶다면 "스몰 데이터"에 주목하라 

  • 흐림거창17.6℃
  • 흐림고흥18.8℃
  • 흐림울릉도21.9℃
  • 흐림함양군17.6℃
  • 흐림양평21.9℃
  • 구름많음백령도21.3℃
  • 흐림철원23.4℃
  • 흐림봉화19.5℃
  • 흐림영덕19.3℃
  • 비광주18.5℃
  • 흐림보령20.3℃
  • 흐림합천18.6℃
  • 흐림밀양18.8℃
  • 흐림대관령16.3℃
  • 흐림순천17.5℃
  • 흐림진주17.3℃
  • 흐림양산시19.6℃
  • 흐림광양시18.0℃
  • 흐림동두천22.2℃
  • 비포항20.0℃
  • 흐림상주19.2℃
  • 흐림거제19.0℃
  • 흐림원주21.3℃
  • 흐림서울22.0℃
  • 흐림추풍령17.4℃
  • 흐림정선군19.9℃
  • 흐림남원18.9℃
  • 흐림해남19.4℃
  • 흐림통영19.1℃
  • 흐림진도군20.9℃
  • 흐림속초20.9℃
  • 흐림고창19.0℃
  • 흐림제천19.2℃
  • 비제주24.0℃
  • 흐림보은18.9℃
  • 흐림군산18.6℃
  • 흐림영주19.7℃
  • 비홍성19.0℃
  • 흐림안동20.2℃
  • 흐림북창원19.8℃
  • 흐림금산18.1℃
  • 비울산18.7℃
  • 흐림영월19.8℃
  • 흐림파주22.7℃
  • 흐림이천21.0℃
  • 흐림울진21.3℃
  • 흐림춘천23.4℃
  • 비전주20.1℃
  • 흐림장흥18.7℃
  • 흐림인제22.0℃
  • 흐림홍천22.0℃
  • 비북부산19.5℃
  • 흐림고산26.6℃
  • 흐림장수17.3℃
  • 흐림정읍19.1℃
  • 흐림의성20.6℃
  • 비부산19.2℃
  • 비목포19.2℃
  • 흐림서청주20.1℃
  • 흐림태백16.8℃
  • 흐림임실18.2℃
  • 흐림서산19.7℃
  • 흐림성산25.1℃
  • 흐림산청18.2℃
  • 흐림인천22.1℃
  • 흐림청송군19.1℃
  • 흐림고창군19.0℃
  • 흐림세종18.1℃
  • 비서귀포26.8℃
  • 흐림완도19.3℃
  • 흐림강화22.5℃
  • 흐림흑산도20.6℃
  • 비대구19.0℃
  • 흐림영천19.1℃
  • 흐림경주시19.5℃
  • 비대전18.1℃
  • 흐림부안19.1℃
  • 흐림천안20.8℃
  • 흐림강진군18.6℃
  • 흐림부여18.6℃
  • 비여수18.8℃
  • 흐림강릉22.0℃
  • 흐림의령군17.6℃
  • 흐림보성군18.6℃
  • 흐림구미19.2℃
  • 흐림남해19.0℃
  • 흐림북강릉21.4℃
  • 비청주21.3℃
  • 흐림문경19.2℃
  • 흐림영광군18.7℃
  • 흐림북춘천23.7℃
  • 흐림순창군18.1℃
  • 비창원19.1℃
  • 흐림동해21.5℃
  • 흐림김해시18.8℃
  • 흐림충주20.2℃
  • 흐림수원21.8℃
  • 2025.10.03 (금)

머신러닝, 더 잘 활용하고 싶다면 "스몰 데이터"에 주목하라 

이진영 / 기사승인 : 2021-10-21 19:07:00
  • -
  • +
  • 인쇄
사진 출처: freepik.com
사진 출처: freepik.com

인공지능(AI)과 함께 빅 데이터의 중요성이 강조되어왔다. 오늘날 정보 통신 분야에서 빠르게 생성되는 거대한 데이터 세트는 인공지능의 발전에 기여하며 큰 역할을 해왔다. 따라서 대중들이 AI에서 빅데이터를 연상하는 것은 놀라운 일이 아니다. 그런데 AI는 단지 대규모 데이터 세트에 관한 것만은 아니다. 미국의 과학 전문 매거진 사이언티픽아메리칸은 '스몰 데이터' 접근법에 대한 연구가 광범위하게 성장해왔다고 강조했다.

미세 조정(fine-tuning)이라고도 불리는 전이 학습(transfer learning)은 관심 있는 작업에 대한 데이터는 거의 없지만 관련 문제에 대한 데이터가 풍부할 때 유용하다. 이는 빅 데이터 세트를 사용해 모델을 교육한 다음, 특정 문제와 관련된 작은 데이터 세트를 사용해 재교육하는 것이다. 인간이 하나의 주제에 대한 지식을 유사한 주제에 전달할 수 있는 것처럼, 전이 학습은 데이터 과학자에게 머신 러닝을 통해 얻은 통찰력을 유사한 주제에 전달할 수 있도록 한다.

예를 들어 인도 방갈로르 연구원은 ImageNet 분류기를 기반으로 전이 학습을 통해 오직 45개의 학습 예시만으로도 초음파 이미지에서 신장을 찾는 모델을 훈련했다. ImageNet은 수천 개 범주로 분류된 수백만 개의 이미지를 포함하는 데이터 세트이다.

독일어 음성 인식에 대한 연구팀은 큰 데이터 세트에 대해 훈련된 영어 음성 모델로 시작해 전이 학습으로 작은 독일어 오디오 세트에 맞게 조정했을 때 결과를 개선할 수 있음을 보여주었다.

이렇게 전이 학습법에 대한 연구는 지난 10년간 크게 성장해왔는데, 조지타운 대학교의 보안 및 신흥 기술 센터(CSET)에 대한 새로운 보고서에서 전이 학습이 2010년 이후 가장 일관되고 높은 연구 성장률을 보인 것으로 나타났다. 또 이러한 성장은 최근 몇 년 동안 광범위한 관심을 끌고 있는 강화 학습 분야를 앞지르는 것으로 나타났다.

전이 학습 연구는 계속 증가할 것으로 예상되는데, 3년 성장 예측 모델에 따르면 스몰 데이터 범주에서 전이 학습 방법에 대한 연구가 2023년까지 가장 빠르게 성장할 것으로 추정된다. 실제로 전이 학습 성장률은 AI 연구 전체 성장률보다 훨씬 높을 것으로 예측되며, 이는 전이 학습이 더 유용해지고 널리 사용될 가능성이 높다는 것을 의미한다.

전이 학습 연구와 같은 스몰 데이터 접근 방식은 더 데이터 집약적인 방법에 비해 많은 이점을 제공한다. 더 적은 데이터로 AI를 사용할 수 있어 상대적으로 드물게 발생하는 재해 예측 또는 디지털 건강 기록이 없는 모집 단의 질병 위험 예측과 같이 데이터가 거의 또는 전혀 존재하지 않는 영역에서 발전을 촉진할 수 있다. 또 더 많은 조직이 AI 애플리케이션 영역을 다양화하고 이전에 개발되지 않은 도메인을 시도함에 따라 전이 학습과 같은 접근 방식이 점점 중요해질 것으로 예상된다.

전이 학습을 이용할 때 사전 훈련된 모델을 사용하면 훈련 시간을 단축하고 알고리즘을 훈련하는 데 필요한 계산 자원의 양을 줄일 수 있다. 물론 사전 훈련된 모델이 목표 문제와 충분히 유사하지 않으면 전이 학습을 효과적으로 활용하기 어렵다. 하지만 이를 잘 활용하면 탄소 배출량을 크게 줄일 수 있는데, 대형 신경망을 훈련하는 과정이 상당한 에너지를 필요로 한다는 점에서 이는 매우 중요하다.

전이 학습은 문제가 이미 유사한 과제에 대해 훈련되었기 때문에 훈련 중에 더 높은 학습률을 제공한다는 장점이 있다. 이는 성능 향상으로 이어지는데, 출발점이 좋아지고 학습률이 높아지는 만큼 더 높은 성능 수준으로 수렴할 수 있는 머신 러닝 모델을 제공해 보다 정확한 출력이 가능하다. 또 사전 훈련된 모델을 활용해 기존 학습 방법보다 더 빠르게 원하는 성능에 도달할 수 있다는 장점이 있다.

전이 학습은 기존에 빅데이터를 활용해온 다양한 분야에 적용할 수 있는데, 이미지 인식, 자연어 처리(NLP, Natural Language Processing), 음성 인식, 자율 주행, 게임 전략, 의료, 스팸 필터링 등 다양한 영역에 활용할 수 있다.


[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue