CWN(CHANGE WITH NEWS) - [IT용어 알아보기] 데이터 랭글링이란?

  • 맑음진주0.4℃
  • 흐림북춘천-2.5℃
  • 맑음강진군1.7℃
  • 맑음충주-2.3℃
  • 맑음세종-0.3℃
  • 맑음북부산3.9℃
  • 맑음울산4.7℃
  • 맑음함양군-1.3℃
  • 맑음장수-2.6℃
  • 구름조금속초7.7℃
  • 맑음부산5.3℃
  • 맑음강릉7.5℃
  • 맑음보은-3.4℃
  • 맑음광주1.5℃
  • 맑음거제5.0℃
  • 맑음보령6.4℃
  • 맑음서청주-0.1℃
  • 맑음임실-0.6℃
  • 맑음여수3.4℃
  • 구름많음인천3.5℃
  • 맑음보성군3.4℃
  • 맑음합천-1.2℃
  • 맑음고흥4.6℃
  • 맑음동해8.8℃
  • 맑음구미0.3℃
  • 맑음고산10.3℃
  • 맑음문경-0.4℃
  • 맑음영덕4.3℃
  • 구름조금영월-3.3℃
  • 맑음경주시5.0℃
  • 맑음완도6.4℃
  • 맑음군산3.0℃
  • 구름많음대관령-0.7℃
  • 비백령도8.2℃
  • 맑음청주0.3℃
  • 구름많음홍천-1.7℃
  • 맑음부여-0.5℃
  • 맑음성산10.1℃
  • 흐림파주-1.7℃
  • 구름조금서산5.9℃
  • 맑음장흥1.5℃
  • 구름많음태백3.0℃
  • 맑음순천2.0℃
  • 맑음부안3.3℃
  • 맑음진도군4.2℃
  • 맑음거창-2.1℃
  • 구름조금흑산도10.3℃
  • 맑음의령군-1.7℃
  • 흐림인제-1.4℃
  • 구름많음동두천1.7℃
  • 맑음정읍4.1℃
  • 맑음포항4.4℃
  • 맑음봉화-3.4℃
  • 맑음안동-1.7℃
  • 맑음고창군4.2℃
  • 맑음북창원3.5℃
  • 맑음서귀포11.0℃
  • 맑음대구0.7℃
  • 맑음양산시2.8℃
  • 맑음순창군-1.8℃
  • 맑음산청-2.4℃
  • 맑음울진6.7℃
  • 맑음통영4.8℃
  • 흐림철원-0.3℃
  • 맑음금산-1.8℃
  • 흐림강화3.3℃
  • 맑음광양시2.9℃
  • 구름조금홍성4.6℃
  • 구름조금원주-1.5℃
  • 맑음영천2.3℃
  • 구름많음정선군-4.1℃
  • 맑음영광군3.5℃
  • 구름많음서울1.4℃
  • 흐림춘천-2.2℃
  • 구름조금양평-0.7℃
  • 맑음남원-1.6℃
  • 맑음창원3.2℃
  • 맑음제주11.2℃
  • 맑음전주3.8℃
  • 구름조금수원2.4℃
  • 맑음이천-1.2℃
  • 맑음의성-1.6℃
  • 맑음해남4.1℃
  • 맑음대전2.0℃
  • 맑음제천-2.9℃
  • 맑음남해2.5℃
  • 맑음천안0.0℃
  • 맑음울릉도8.5℃
  • 맑음추풍령-0.4℃
  • 맑음밀양0.5℃
  • 맑음목포4.3℃
  • 맑음청송군-2.3℃
  • 맑음고창4.4℃
  • 맑음상주1.5℃
  • 맑음영주-2.2℃
  • 구름조금북강릉7.0℃
  • 맑음김해시2.6℃
  • 2025.12.06 (토)

[IT용어 알아보기] 데이터 랭글링이란?

최지홍 / 기사승인 : 2021-03-04 13:43:00
  • -
  • +
  • 인쇄

Pixabay

인공지능 및 빅데이터 시대에 데이터를 가공하는 것은 매우 중요한 일이다. 인공지능을 학습할 때, 데이터가 필요하다. 이때, 학습에 적합하지 않은 데이터가 섞여 있다면, 당연히 학습의 결과가 좋지 못할 수밖에 없기 때문이다. 양질의 데이터를 얻기 위해 ‘데이터 랭글링(Data Wrangling)’ 과정이 필요하다.

데이터 랭글링이란, 분석과 같은 다양한 다운스트림 목적에 적합하고 가치 있게 만들기 위해 하나의 원시 데이터(raw data) 양식에서 다른 형식으로 데이터를 변환하고 매핑하는 과정이다. 데이터 랭글링은 품질과 유용한 데이터를 보장하는 것을 목표로 한다. 데이터 분석가는 주로 데이터의 실제 분석과 비교하여 데이터 랭글링 과정에 대부분의 시간을 소비한다.

데이터 랭글링은 '발견', '구조화', '청소', '강화', '검증', '출판'이라는 6가지 단계로 나누어진다. 이러한 단계는 분석에 사용할 수 있는 깨끗하고 유용한 데이터 세트를 산출하기 위한 반복적인 과정이다. 이 과정은 분석가가 필요한 정보를 읽을 수 없는 많은 데이터 집합에서 얻을 수 있게 해준다.

그런데 위의 내용을 읽다 보면 다음과 같은 의문이 들 것이다. “데이터 마이닝과 데이터 랭글링은 같은 용어인가?”

데이터 마이닝의 정의를 보면, “많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출하고 의사 결정에 이용하는 과정”이므로 충분히 개념을 헷갈릴 수 있다.

데이터 랭글링과 데이터 마이닝의 관계는 다음과 같다. 데이터 마이닝 프로세스에서는 대규모 데이터 세트 내에서 패턴을 찾는데, 여기서 데이터 랭글링은 해당 데이터에 대한 통찰력을 제공하기 위해 데이터를 변환하는 역할을 한다.

데이터 랭글링은 전체 집합에 도움이 되지 않거나 제대로 형식이 지정되지 않은 데이터를 제거하여 데이터 마이닝에 도움이 될 수 있으며, 이는 전체 데이터 마이닝 프로세스에 대해 더 나은 결과를 제공한다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue