CWN(CHANGE WITH NEWS) - [IT용어 알아보기] 데이터 랭글링이란?

  • 맑음보성군-1.0℃
  • 흐림제천-5.6℃
  • 맑음의령군-5.2℃
  • 맑음영광군-1.8℃
  • 흐림북춘천-4.0℃
  • 맑음순천-3.6℃
  • 맑음거창-5.0℃
  • 맑음금산-4.9℃
  • 맑음고창군-0.7℃
  • 구름많음수원0.8℃
  • 구름조금흑산도9.1℃
  • 맑음의성-6.1℃
  • 맑음서귀포7.6℃
  • 맑음광주0.0℃
  • 구름많음강화1.9℃
  • 맑음울릉도7.1℃
  • 맑음문경-3.1℃
  • 구름조금북강릉6.0℃
  • 맑음남원-4.5℃
  • 맑음광양시-0.1℃
  • 맑음북창원0.3℃
  • 맑음부산3.9℃
  • 맑음산청-6.7℃
  • 맑음장수-6.9℃
  • 맑음통영1.3℃
  • 맑음영덕2.5℃
  • 구름많음청주-1.6℃
  • 맑음진주-2.9℃
  • 구름조금원주-3.0℃
  • 맑음동해5.1℃
  • 구름많음서청주-3.3℃
  • 맑음대전-1.1℃
  • 흐림인제-2.9℃
  • 맑음봉화-7.8℃
  • 흐림파주-3.2℃
  • 맑음울진3.4℃
  • 맑음상주-3.3℃
  • 비백령도9.5℃
  • 맑음서산4.4℃
  • 맑음청송군-6.1℃
  • 흐림서울-0.1℃
  • 흐림동두천-1.2℃
  • 맑음고창-2.0℃
  • 맑음전주0.3℃
  • 흐림천안-2.9℃
  • 맑음북부산0.7℃
  • 맑음울산2.1℃
  • 맑음고산8.4℃
  • 맑음성산7.8℃
  • 맑음군산-0.6℃
  • 맑음창원1.2℃
  • 맑음거제1.1℃
  • 맑음홍천-3.8℃
  • 맑음합천-5.2℃
  • 맑음영천-2.3℃
  • 맑음남해0.8℃
  • 맑음순창군-4.6℃
  • 맑음진도군-0.9℃
  • 맑음임실-4.4℃
  • 맑음여수1.3℃
  • 맑음강릉6.2℃
  • 맑음충주-5.8℃
  • 맑음양산시0.8℃
  • 흐림철원-4.4℃
  • 맑음부여-2.7℃
  • 맑음보은-6.1℃
  • 구름많음세종-2.8℃
  • 맑음경주시2.3℃
  • 맑음이천-3.3℃
  • 맑음영주-4.7℃
  • 흐림대관령-1.1℃
  • 맑음목포1.3℃
  • 맑음부안0.2℃
  • 맑음김해시0.5℃
  • 구름조금제주7.2℃
  • 맑음고흥-1.7℃
  • 맑음양평-2.4℃
  • 구름많음태백-1.9℃
  • 맑음함양군-4.8℃
  • 맑음대구-1.7℃
  • 맑음안동-5.6℃
  • 맑음구미-2.7℃
  • 맑음해남-1.0℃
  • 구름많음속초6.0℃
  • 맑음홍성3.0℃
  • 맑음보령4.0℃
  • 맑음정읍-0.6℃
  • 흐림정선군-7.6℃
  • 맑음완도2.7℃
  • 맑음포항2.5℃
  • 맑음장흥-2.5℃
  • 맑음강진군-1.9℃
  • 흐림영월-6.1℃
  • 맑음밀양-2.6℃
  • 구름많음인천2.1℃
  • 구름많음춘천-3.9℃
  • 맑음추풍령-5.0℃
  • 2025.12.06 (토)

[IT용어 알아보기] 데이터 랭글링이란?

최지홍 / 기사승인 : 2021-03-04 13:43:00
  • -
  • +
  • 인쇄

Pixabay

인공지능 및 빅데이터 시대에 데이터를 가공하는 것은 매우 중요한 일이다. 인공지능을 학습할 때, 데이터가 필요하다. 이때, 학습에 적합하지 않은 데이터가 섞여 있다면, 당연히 학습의 결과가 좋지 못할 수밖에 없기 때문이다. 양질의 데이터를 얻기 위해 ‘데이터 랭글링(Data Wrangling)’ 과정이 필요하다.

데이터 랭글링이란, 분석과 같은 다양한 다운스트림 목적에 적합하고 가치 있게 만들기 위해 하나의 원시 데이터(raw data) 양식에서 다른 형식으로 데이터를 변환하고 매핑하는 과정이다. 데이터 랭글링은 품질과 유용한 데이터를 보장하는 것을 목표로 한다. 데이터 분석가는 주로 데이터의 실제 분석과 비교하여 데이터 랭글링 과정에 대부분의 시간을 소비한다.

데이터 랭글링은 '발견', '구조화', '청소', '강화', '검증', '출판'이라는 6가지 단계로 나누어진다. 이러한 단계는 분석에 사용할 수 있는 깨끗하고 유용한 데이터 세트를 산출하기 위한 반복적인 과정이다. 이 과정은 분석가가 필요한 정보를 읽을 수 없는 많은 데이터 집합에서 얻을 수 있게 해준다.

그런데 위의 내용을 읽다 보면 다음과 같은 의문이 들 것이다. “데이터 마이닝과 데이터 랭글링은 같은 용어인가?”

데이터 마이닝의 정의를 보면, “많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출하고 의사 결정에 이용하는 과정”이므로 충분히 개념을 헷갈릴 수 있다.

데이터 랭글링과 데이터 마이닝의 관계는 다음과 같다. 데이터 마이닝 프로세스에서는 대규모 데이터 세트 내에서 패턴을 찾는데, 여기서 데이터 랭글링은 해당 데이터에 대한 통찰력을 제공하기 위해 데이터를 변환하는 역할을 한다.

데이터 랭글링은 전체 집합에 도움이 되지 않거나 제대로 형식이 지정되지 않은 데이터를 제거하여 데이터 마이닝에 도움이 될 수 있으며, 이는 전체 데이터 마이닝 프로세스에 대해 더 나은 결과를 제공한다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue