CWN(CHANGE WITH NEWS) - "인공지능 개발"에 필요한 데이터 제어 방법 5가지

  • 맑음남원5.7℃
  • 맑음남해10.0℃
  • 박무북춘천1.0℃
  • 연무안동7.0℃
  • 맑음진주11.4℃
  • 맑음임실8.9℃
  • 흐림파주0.4℃
  • 맑음봉화6.0℃
  • 맑음창원11.2℃
  • 맑음흑산도11.2℃
  • 맑음완도12.5℃
  • 맑음밀양11.2℃
  • 맑음장흥12.4℃
  • 맑음원주3.2℃
  • 맑음북강릉11.2℃
  • 박무인천3.7℃
  • 맑음통영14.1℃
  • 맑음울진12.5℃
  • 맑음거창8.6℃
  • 맑음김해시13.3℃
  • 맑음의령군9.4℃
  • 맑음태백9.5℃
  • 박무서울4.3℃
  • 맑음여수11.4℃
  • 흐림군산1.9℃
  • 맑음장수12.3℃
  • 흐림서청주1.2℃
  • 박무수원5.6℃
  • 맑음제주17.0℃
  • 맑음합천10.2℃
  • 흐림세종0.7℃
  • 맑음보령8.2℃
  • 맑음고창군6.8℃
  • 맑음추풍령7.6℃
  • 맑음울산12.8℃
  • 맑음부산16.0℃
  • 맑음충주2.0℃
  • 맑음홍천2.5℃
  • 맑음양산시13.1℃
  • 맑음의성7.4℃
  • 박무백령도4.9℃
  • 맑음동해10.7℃
  • 맑음북부산13.3℃
  • 안개홍성0.2℃
  • 맑음포항12.2℃
  • 맑음북창원12.1℃
  • 맑음울릉도10.3℃
  • 맑음영광군5.4℃
  • 흐림이천2.5℃
  • 맑음거제11.4℃
  • 맑음구미7.8℃
  • 맑음정읍5.8℃
  • 맑음영덕12.3℃
  • 맑음고산16.9℃
  • 맑음양평3.8℃
  • 박무전주3.9℃
  • 맑음인제3.6℃
  • 맑음고흥13.1℃
  • 맑음서산3.8℃
  • 맑음보성군12.4℃
  • 흐림대전2.1℃
  • 맑음산청8.5℃
  • 맑음고창7.0℃
  • 흐림동두천1.4℃
  • 맑음청송군7.6℃
  • 연무대구10.3℃
  • 맑음서귀포16.2℃
  • 맑음진도군11.8℃
  • 맑음상주5.7℃
  • 구름많음철원0.0℃
  • 구름많음춘천1.6℃
  • 맑음함양군9.3℃
  • 구름많음영월1.3℃
  • 흐림부안2.1℃
  • 흐림강화0.5℃
  • 맑음강진군11.8℃
  • 박무목포5.5℃
  • 맑음영주5.4℃
  • 맑음속초10.2℃
  • 맑음문경7.3℃
  • 흐림천안1.2℃
  • 맑음정선군3.6℃
  • 맑음순천13.0℃
  • 맑음성산16.1℃
  • 맑음광양시13.8℃
  • 맑음해남12.6℃
  • 맑음제천1.8℃
  • 맑음영천9.1℃
  • 맑음대관령4.1℃
  • 맑음보은3.6℃
  • 맑음경주시11.5℃
  • 맑음금산4.1℃
  • 흐림청주0.7℃
  • 흐림부여1.8℃
  • 연무광주8.2℃
  • 맑음강릉13.1℃
  • 맑음순창군4.0℃
  • 2026.01.16 (금)

"인공지능 개발"에 필요한 데이터 제어 방법 5가지

이진영 / 기사승인 : 2021-03-10 14:55:53
  • -
  • +
  • 인쇄

인공지능(AI) 개발은 수집·가공된 데이터를 수많은 반복 학습을 통해 인공지능 모델(알고리즘)을 생성하고, 이를 검증하며 최종 서비스로 완성된다.

기술정책연구소(XIST)에 따르면 AI 기술이 혁신 서비스 창출 및 생태계 조성을 가속화하기 위해선 "데이터"가 가장 중요하다. AI를 학습하기 위해선 일정 량의 데이터가 필요하고, 데이터 품질에 따라 AI 성능이 결정되기 때문이다.

이에 수많은 데이터 과학자들은 목표하는 비즈니스에 맞는 AI를 개발하기 위한 몇 가지 기술을 활용하고 있다. AI에 입력하는 데이터에 대한 통제력을 유지하기 위한 대표적인 방법 5가지를 소개한다.

1. 데이터 드롭아웃(Data dropout)

데이터 드롭아웃으로 원치 않는 데이터를 선별 배제하는 것은, 인공지능에 입력할 데이터를 제어하는 가장 대표적인 방법이다. 사용중인 데이터 AI가 해결하고자 하는 비즈니스 문제와 관련이 있는지 확인한다.

데이터 과학자들은 AI에서 데이터 드롭아웃을 통해 특정 AI 프로세스와 관련이 없는 것으로 간주되는 모든 데이터를 사전에 제거한다. 예를 들어, 서울시의 인구 통계만 관심 있는 경우, 연구와 무관한 다른 지역에서 들어오는 데이터를 제외한다.

이를 통해 데이터 처리 시간과 AI 결과 출력 시간을 단축할 수 있다. 또 AI 애플리케이션에 입력하는 데이터의 품질과 가치를 높일 수 있다.

2. 데이터 소스 제어(Data source control)

과학 연구를 수행하고 있고, 데이터를 가져오는 소스의 가치를 알 수 없는 경우 이러한 피드를 제거할 수 있다.

데이터 피드는 일반적으로 두 가지 이유로 제거되는데, 첫 번째는 데이터 소스가 애플리케이션과 관련이 없는 경우이고, 두 번째는 데이터나 데이터 소스의 정확성을 신뢰할 수 없는 경우이다.

3. 업무용 사례 관리(Business use case control)

많은 양의 AI 데이터를 처리할 때 생길 수 있는 리스크 중 하나는, AI가 원래 비즈니스 사례에서 멀어질 수 있다는 것이다.

예를 들어 비즈니스 활용 사례가 KTX의 철도 상태 모니터링에만 초점을 맞춘다면, 트래픽 수, 엔진 구성 요소의 고장 등 KTX의 철도 상태와 무관한 과도한 데이터 수집은 필요하지 않을 수 있다. 물론 이러한 사물 인터넷 데이터는 다른 비즈니스 사례에서 사용될 수 있다.

데이터 제거는 항상 주요 비즈니스 활용 사례를 염두에 두고 이뤄져야 한다. 다른 비즈니스 활용 사례가 발생할 경우, 향후 데이터 분석 프로젝트의 임시 저장 공간에 배치될 수 있다.

[사진 출처: freepick.com]

4. 95%의 법칙

기업은 프로세스 자동화를 위해 AI를 사용할 때 95%의 정확성 또는 그 이상을 달성하기 위해 노력한다. 이는 AI가 유사한 수동 또는 인간 프로세스와 비교할 때 95%의 정확도에서 할당된 작업을 수행하는 것을 의미한다.

95% 정확도 표준에 달성하는 방법은 단 한 가지밖에 없다. 95% 정확도로 미세 조정될 때까지 분석 알고리즘을 반복적으로 수정하고 테스트하는 것이다.

알고리즘을 미세 조정 프로세스 중에 조직은 알고리즘에 연결하는 데이터를 축소할 필요성을 느낄 수 있다.

5. 데이터 밸런싱 작업(Data balancing act)

AI 프로세스에 대한 데이터를 자주 제외하는 것은 필요한 단계이지만 위험도 수반한다.

몇 년 전 영국의 한 소매 업체는 일요일 오후에 온라인 판매가 더 많은 이유를 알고 싶어 했다. 해당 업체는 일요일 오후에 남편들이 축구 경기를 보러 가는 날이라는 사실을 발견했다. 아내들은 집에서 혼자 시간을 보내며 온라인 주문을 했던 것이다.

이는 AI 프로세스 초기에 무관하다고 판단되는 데이터를 제외할 경우, 직접적인 AI 분석 프로그램이 놓칠 수 있었던 이례적인 데이터 발견이었다. 따라서 AI가 처리해야 하는 데이터 양을 제한하는 것도 중요하지만, 너무 과도한 데이터 축소는 피해야 한다.

너무 많은 데이터를 제외하는 위험은 피하면서 불필요한 데이터를 제거하는, 균형을 유지하는 방법을 찾는 것은 IT가 해결해야 하는 중앙 데이터 관리 과제이다.

참고 사이트: TechRepublic

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue