CWN(CHANGE WITH NEWS) - "인공지능 개발"에 필요한 데이터 제어 방법 5가지

  • 흐림장수17.6℃
  • 흐림흑산도22.6℃
  • 흐림서청주18.0℃
  • 흐림합천18.7℃
  • 구름많음서산19.0℃
  • 흐림천안18.3℃
  • 흐림거제19.6℃
  • 비청주19.1℃
  • 흐림원주19.1℃
  • 흐림북춘천18.9℃
  • 흐림통영19.6℃
  • 흐림광양시19.3℃
  • 흐림강진군19.5℃
  • 흐림춘천18.7℃
  • 흐림인천21.4℃
  • 흐림거창17.5℃
  • 흐림서귀포24.9℃
  • 흐림서울21.1℃
  • 흐림영월16.9℃
  • 흐림동두천20.0℃
  • 흐림정읍19.7℃
  • 박무목포20.5℃
  • 흐림충주18.7℃
  • 흐림이천18.8℃
  • 흐림군산19.0℃
  • 흐림진도군21.3℃
  • 흐림해남20.2℃
  • 흐림고창20.5℃
  • 흐림진주17.3℃
  • 흐림남해19.0℃
  • 흐림의령군17.7℃
  • 흐림속초19.3℃
  • 흐림영덕19.6℃
  • 비북부산19.9℃
  • 흐림제주24.6℃
  • 흐림양산시20.6℃
  • 흐림강릉18.8℃
  • 흐림순창군18.5℃
  • 구름많음남원18.5℃
  • 흐림영천19.0℃
  • 흐림고창군20.2℃
  • 흐림인제17.7℃
  • 흐림경주시20.0℃
  • 흐림홍천18.0℃
  • 구름많음보성군19.5℃
  • 비여수19.4℃
  • 흐림세종18.3℃
  • 흐림창원19.5℃
  • 흐림상주17.7℃
  • 흐림태백15.3℃
  • 흐림북강릉18.3℃
  • 구름많음고산24.2℃
  • 흐림보은17.8℃
  • 흐림구미18.2℃
  • 흐림파주18.8℃
  • 흐림동해18.8℃
  • 흐림강화20.5℃
  • 흐림함양군17.8℃
  • 흐림청송군18.1℃
  • 흐림정선군17.2℃
  • 흐림추풍령16.8℃
  • 흐림철원19.6℃
  • 흐림봉화17.1℃
  • 흐림임실18.3℃
  • 흐림의성18.6℃
  • 흐림부여18.7℃
  • 구름많음완도20.1℃
  • 흐림울산19.9℃
  • 구름많음김해시19.0℃
  • 흐림장흥19.4℃
  • 흐림북창원19.8℃
  • 흐림수원20.4℃
  • 흐림영주18.1℃
  • 흐림전주19.6℃
  • 비부산20.7℃
  • 흐림안동18.2℃
  • 구름많음백령도20.1℃
  • 비홍성18.8℃
  • 흐림양평19.5℃
  • 흐림금산18.4℃
  • 흐림영광군19.9℃
  • 흐림울릉도20.4℃
  • 구름많음고흥19.5℃
  • 흐림대전18.4℃
  • 흐림성산24.3℃
  • 흐림부안19.3℃
  • 흐림밀양19.3℃
  • 흐림문경17.7℃
  • 흐림대관령14.6℃
  • 흐림울진18.8℃
  • 흐림순천18.2℃
  • 흐림광주19.3℃
  • 박무대구19.1℃
  • 흐림보령19.7℃
  • 흐림산청17.6℃
  • 흐림포항20.5℃
  • 흐림제천17.9℃
  • 2025.10.04 (토)

"인공지능 개발"에 필요한 데이터 제어 방법 5가지

이진영 / 기사승인 : 2021-03-10 14:55:53
  • -
  • +
  • 인쇄

인공지능(AI) 개발은 수집·가공된 데이터를 수많은 반복 학습을 통해 인공지능 모델(알고리즘)을 생성하고, 이를 검증하며 최종 서비스로 완성된다.

기술정책연구소(XIST)에 따르면 AI 기술이 혁신 서비스 창출 및 생태계 조성을 가속화하기 위해선 "데이터"가 가장 중요하다. AI를 학습하기 위해선 일정 량의 데이터가 필요하고, 데이터 품질에 따라 AI 성능이 결정되기 때문이다.

이에 수많은 데이터 과학자들은 목표하는 비즈니스에 맞는 AI를 개발하기 위한 몇 가지 기술을 활용하고 있다. AI에 입력하는 데이터에 대한 통제력을 유지하기 위한 대표적인 방법 5가지를 소개한다.

1. 데이터 드롭아웃(Data dropout)

데이터 드롭아웃으로 원치 않는 데이터를 선별 배제하는 것은, 인공지능에 입력할 데이터를 제어하는 가장 대표적인 방법이다. 사용중인 데이터 AI가 해결하고자 하는 비즈니스 문제와 관련이 있는지 확인한다.

데이터 과학자들은 AI에서 데이터 드롭아웃을 통해 특정 AI 프로세스와 관련이 없는 것으로 간주되는 모든 데이터를 사전에 제거한다. 예를 들어, 서울시의 인구 통계만 관심 있는 경우, 연구와 무관한 다른 지역에서 들어오는 데이터를 제외한다.

이를 통해 데이터 처리 시간과 AI 결과 출력 시간을 단축할 수 있다. 또 AI 애플리케이션에 입력하는 데이터의 품질과 가치를 높일 수 있다.

2. 데이터 소스 제어(Data source control)

과학 연구를 수행하고 있고, 데이터를 가져오는 소스의 가치를 알 수 없는 경우 이러한 피드를 제거할 수 있다.

데이터 피드는 일반적으로 두 가지 이유로 제거되는데, 첫 번째는 데이터 소스가 애플리케이션과 관련이 없는 경우이고, 두 번째는 데이터나 데이터 소스의 정확성을 신뢰할 수 없는 경우이다.

3. 업무용 사례 관리(Business use case control)

많은 양의 AI 데이터를 처리할 때 생길 수 있는 리스크 중 하나는, AI가 원래 비즈니스 사례에서 멀어질 수 있다는 것이다.

예를 들어 비즈니스 활용 사례가 KTX의 철도 상태 모니터링에만 초점을 맞춘다면, 트래픽 수, 엔진 구성 요소의 고장 등 KTX의 철도 상태와 무관한 과도한 데이터 수집은 필요하지 않을 수 있다. 물론 이러한 사물 인터넷 데이터는 다른 비즈니스 사례에서 사용될 수 있다.

데이터 제거는 항상 주요 비즈니스 활용 사례를 염두에 두고 이뤄져야 한다. 다른 비즈니스 활용 사례가 발생할 경우, 향후 데이터 분석 프로젝트의 임시 저장 공간에 배치될 수 있다.

[사진 출처: freepick.com]

4. 95%의 법칙

기업은 프로세스 자동화를 위해 AI를 사용할 때 95%의 정확성 또는 그 이상을 달성하기 위해 노력한다. 이는 AI가 유사한 수동 또는 인간 프로세스와 비교할 때 95%의 정확도에서 할당된 작업을 수행하는 것을 의미한다.

95% 정확도 표준에 달성하는 방법은 단 한 가지밖에 없다. 95% 정확도로 미세 조정될 때까지 분석 알고리즘을 반복적으로 수정하고 테스트하는 것이다.

알고리즘을 미세 조정 프로세스 중에 조직은 알고리즘에 연결하는 데이터를 축소할 필요성을 느낄 수 있다.

5. 데이터 밸런싱 작업(Data balancing act)

AI 프로세스에 대한 데이터를 자주 제외하는 것은 필요한 단계이지만 위험도 수반한다.

몇 년 전 영국의 한 소매 업체는 일요일 오후에 온라인 판매가 더 많은 이유를 알고 싶어 했다. 해당 업체는 일요일 오후에 남편들이 축구 경기를 보러 가는 날이라는 사실을 발견했다. 아내들은 집에서 혼자 시간을 보내며 온라인 주문을 했던 것이다.

이는 AI 프로세스 초기에 무관하다고 판단되는 데이터를 제외할 경우, 직접적인 AI 분석 프로그램이 놓칠 수 있었던 이례적인 데이터 발견이었다. 따라서 AI가 처리해야 하는 데이터 양을 제한하는 것도 중요하지만, 너무 과도한 데이터 축소는 피해야 한다.

너무 많은 데이터를 제외하는 위험은 피하면서 불필요한 데이터를 제거하는, 균형을 유지하는 방법을 찾는 것은 IT가 해결해야 하는 중앙 데이터 관리 과제이다.

참고 사이트: TechRepublic

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue