CWN(CHANGE WITH NEWS) - [IT용어 알아보기] 데이터 랭글링이란?

  • 맑음의성-1.6℃
  • 맑음전주-2.2℃
  • 맑음인천-6.7℃
  • 맑음창원0.8℃
  • 맑음속초-2.4℃
  • 맑음보은-4.4℃
  • 맑음영월-4.1℃
  • 눈백령도-8.2℃
  • 눈제주1.2℃
  • 맑음동해0.2℃
  • 눈흑산도-0.8℃
  • 구름많음순창군-4.6℃
  • 맑음안동-2.9℃
  • 맑음상주-3.5℃
  • 흐림고창군-4.3℃
  • 구름조금천안-5.3℃
  • 맑음북춘천-5.5℃
  • 맑음서울-6.2℃
  • 맑음강화-6.4℃
  • 맑음장수-4.4℃
  • 맑음부여-3.0℃
  • 구름조금홍성-5.0℃
  • 맑음북창원0.9℃
  • 맑음여수-0.4℃
  • 맑음산청-1.6℃
  • 흐림장흥-2.6℃
  • 맑음태백-7.3℃
  • 맑음원주-4.9℃
  • 흐림영광군-4.4℃
  • 맑음금산-2.6℃
  • 맑음세종-4.2℃
  • 맑음구미-1.7℃
  • 맑음서청주-4.7℃
  • 맑음포항0.3℃
  • 흐림부안-3.7℃
  • 맑음남해1.3℃
  • 맑음철원-8.1℃
  • 흐림고산1.7℃
  • 맑음문경-3.7℃
  • 맑음춘천-4.0℃
  • 맑음울산-0.3℃
  • 맑음수원-5.4℃
  • 구름조금서귀포5.5℃
  • 맑음순천-3.1℃
  • 맑음남원-2.5℃
  • 맑음충주-3.9℃
  • 맑음통영1.6℃
  • 맑음영주-4.9℃
  • 맑음보성군-0.8℃
  • 맑음대전-3.0℃
  • 맑음청주-5.1℃
  • 맑음인제-5.9℃
  • 맑음밀양0.1℃
  • 맑음대관령-8.8℃
  • 맑음영덕-0.5℃
  • 맑음홍천-4.9℃
  • 구름조금서산-5.6℃
  • 맑음북강릉-2.2℃
  • 흐림정읍-5.1℃
  • 흐림강진군-3.0℃
  • 구름많음보령-4.6℃
  • 맑음영천-1.6℃
  • 맑음합천0.8℃
  • 맑음군산-3.5℃
  • 맑음울진1.5℃
  • 맑음청송군-3.2℃
  • 맑음의령군0.4℃
  • 흐림완도-0.8℃
  • 맑음거창-1.5℃
  • 맑음대구-1.4℃
  • 흐림성산0.8℃
  • 흐림진도군-2.0℃
  • 맑음정선군-4.9℃
  • 맑음김해시1.0℃
  • 맑음북부산1.4℃
  • 맑음동두천-5.3℃
  • 맑음봉화-4.4℃
  • 흐림고창-4.1℃
  • 맑음강릉-0.7℃
  • 맑음이천-4.1℃
  • 맑음경주시-1.0℃
  • 눈울릉도-1.3℃
  • 흐림해남-1.4℃
  • 맑음부산1.0℃
  • 구름조금임실-3.0℃
  • 맑음고흥-0.5℃
  • 맑음진주1.0℃
  • 맑음함양군-1.4℃
  • 맑음양산시1.4℃
  • 맑음제천-5.6℃
  • 맑음양평-4.9℃
  • 맑음광양시1.2℃
  • 맑음추풍령-4.9℃
  • 맑음파주-7.1℃
  • 눈광주-3.0℃
  • 구름많음목포-2.1℃
  • 2026.01.21 (수)

[IT용어 알아보기] 데이터 랭글링이란?

최지홍 / 기사승인 : 2021-03-04 13:43:00
  • -
  • +
  • 인쇄

Pixabay

인공지능 및 빅데이터 시대에 데이터를 가공하는 것은 매우 중요한 일이다. 인공지능을 학습할 때, 데이터가 필요하다. 이때, 학습에 적합하지 않은 데이터가 섞여 있다면, 당연히 학습의 결과가 좋지 못할 수밖에 없기 때문이다. 양질의 데이터를 얻기 위해 ‘데이터 랭글링(Data Wrangling)’ 과정이 필요하다.

데이터 랭글링이란, 분석과 같은 다양한 다운스트림 목적에 적합하고 가치 있게 만들기 위해 하나의 원시 데이터(raw data) 양식에서 다른 형식으로 데이터를 변환하고 매핑하는 과정이다. 데이터 랭글링은 품질과 유용한 데이터를 보장하는 것을 목표로 한다. 데이터 분석가는 주로 데이터의 실제 분석과 비교하여 데이터 랭글링 과정에 대부분의 시간을 소비한다.

데이터 랭글링은 '발견', '구조화', '청소', '강화', '검증', '출판'이라는 6가지 단계로 나누어진다. 이러한 단계는 분석에 사용할 수 있는 깨끗하고 유용한 데이터 세트를 산출하기 위한 반복적인 과정이다. 이 과정은 분석가가 필요한 정보를 읽을 수 없는 많은 데이터 집합에서 얻을 수 있게 해준다.

그런데 위의 내용을 읽다 보면 다음과 같은 의문이 들 것이다. “데이터 마이닝과 데이터 랭글링은 같은 용어인가?”

데이터 마이닝의 정의를 보면, “많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출하고 의사 결정에 이용하는 과정”이므로 충분히 개념을 헷갈릴 수 있다.

데이터 랭글링과 데이터 마이닝의 관계는 다음과 같다. 데이터 마이닝 프로세스에서는 대규모 데이터 세트 내에서 패턴을 찾는데, 여기서 데이터 랭글링은 해당 데이터에 대한 통찰력을 제공하기 위해 데이터를 변환하는 역할을 한다.

데이터 랭글링은 전체 집합에 도움이 되지 않거나 제대로 형식이 지정되지 않은 데이터를 제거하여 데이터 마이닝에 도움이 될 수 있으며, 이는 전체 데이터 마이닝 프로세스에 대해 더 나은 결과를 제공한다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue