CWN(CHANGE WITH NEWS) - MIT, 데이터 자동 정제 시스템 ′PClean′ 개발

  • 맑음대관령-3.6℃
  • 구름조금강진군1.7℃
  • 맑음속초-1.0℃
  • 맑음임실-1.1℃
  • 맑음인제-3.0℃
  • 맑음서울-3.8℃
  • 맑음서산-3.9℃
  • 구름많음포항4.6℃
  • 맑음광양시6.0℃
  • 구름조금울산4.0℃
  • 맑음영광군-2.0℃
  • 구름조금제주4.6℃
  • 구름조금장흥2.0℃
  • 맑음수원-4.0℃
  • 맑음부여-0.2℃
  • 맑음이천-1.9℃
  • 구름조금동해0.9℃
  • 맑음원주-3.4℃
  • 맑음동두천-5.4℃
  • 맑음남해5.9℃
  • 맑음목포-2.1℃
  • 맑음양산시6.2℃
  • 맑음충주-2.2℃
  • 맑음대구3.6℃
  • 맑음보은-1.4℃
  • 구름조금경주시3.8℃
  • 맑음금산-0.9℃
  • 맑음합천4.7℃
  • 구름조금영천3.2℃
  • 맑음진주5.6℃
  • 맑음강화-6.4℃
  • 구름조금강릉1.3℃
  • 구름조금고산3.0℃
  • 맑음영월-1.1℃
  • 맑음김해시5.5℃
  • 맑음상주-0.2℃
  • 눈울릉도-1.3℃
  • 구름조금영덕3.2℃
  • 구름조금진도군-0.5℃
  • 맑음북부산6.8℃
  • 맑음대전-0.7℃
  • 구름조금완도2.7℃
  • 맑음인천-5.8℃
  • 맑음세종-0.4℃
  • 맑음제천-3.0℃
  • 맑음남원0.7℃
  • 맑음거창3.6℃
  • 맑음부안-0.5℃
  • 구름조금서귀포9.5℃
  • 맑음고창-1.3℃
  • 맑음고창군-1.3℃
  • 맑음산청4.5℃
  • 맑음영주-0.5℃
  • 구름조금부산6.0℃
  • 구름조금북강릉-0.2℃
  • 맑음추풍령-1.9℃
  • 맑음전주-1.5℃
  • 맑음밀양4.9℃
  • 맑음통영5.8℃
  • 맑음홍천-2.1℃
  • 맑음성산4.3℃
  • 맑음춘천-1.2℃
  • 맑음의성2.0℃
  • 맑음철원-6.0℃
  • 맑음정읍-1.6℃
  • 맑음고흥4.3℃
  • 맑음정선군-1.2℃
  • 맑음구미1.7℃
  • 맑음파주-6.2℃
  • 구름조금여수5.3℃
  • 맑음북춘천-3.8℃
  • 맑음양평-2.4℃
  • 맑음청주-2.8℃
  • 맑음안동0.8℃
  • 맑음보령-1.0℃
  • 맑음창원3.7℃
  • 맑음군산-0.3℃
  • 구름조금보성군4.1℃
  • 구름많음울진2.3℃
  • 맑음장수-0.7℃
  • 맑음해남0.7℃
  • 구름많음흑산도0.0℃
  • 맑음서청주-3.5℃
  • 맑음천안-3.0℃
  • 눈백령도-7.6℃
  • 맑음청송군1.2℃
  • 구름조금광주0.0℃
  • 맑음봉화0.4℃
  • 맑음북창원4.2℃
  • 맑음순천1.8℃
  • 맑음홍성-2.5℃
  • 맑음문경0.2℃
  • 맑음함양군4.7℃
  • 맑음의령군3.9℃
  • 맑음순창군-0.6℃
  • 맑음태백-1.3℃
  • 2026.01.20 (화)

MIT, 데이터 자동 정제 시스템 'PClean' 개발

김영상 / 기사승인 : 2021-05-17 13:39:17
  • -
  • +
  • 인쇄

MIT 연구팀이 중복, 누락 값, 오자, 불일치 등 "더러운 데이터(Dirty data)"를 자동으로 제거하는 새로운 시스템 개발 소식을 발표했다. PClean이라고 불리는 이 시스템은 AI 응용 프로그램의 개발을 단순화하고 자동화하는 것을 목표로 하는 확률적 컴퓨팅 프로젝트의 연구자들이 작성한 일련의 도메인별 확률적 프로그래밍 언어 중, 가장 최신 버전이다.

PClean은 지식 기반 접근 방식을 사용하여 데이터 정제 프로세스를 자동화한다. 먼저, 사용자는 데이터베이스에 대한 배경지식과 나타날 수 있는 문제 유형을 인코딩한다. 아파트 목록 데이터베이스에서 주 이름을 정리하는 문제를 예시로 들어보자. 누군가가 베벌리 힐스에 살지만, 주에 대한 데이터가 공백인 상태를 가정해보자. 캘리포니아에는 유명한 베벌리 힐즈가 있지만 플로리다, 미주리, 텍사스, 볼티모어 근처에도 베벌리 힐즈가 있다. 이런 경우 정확한 위치를 어떻게 파악할까?

여기서 PClean의 표현적 스크립팅 언어가 나온다. 이 시스템을 통해 사용자는 도메인에 대한 배경지식 및 데이터 손상 방법에 대한 정보를 PC에 제공할 수 있다. PClean은 확률적 추론을 통해 지식을 결합하여 답을 도출한다. 예를 들어, 일반적인 임대료에 대한 추가 지식을 고려할 때, PClean은 응답자가 사는 곳의 높은 임대료의 지식을 결합하여 캘리포니아에 있는 베벌리 힐스의 정확한 거주지를 추론한다.

PClean은 MIT의 확률적 컴퓨팅 프로젝트에 구축된 새로운 AI 프로그래밍 모델을 포함하여 확률적 프로그래밍의 최근 발전을 기반으로 하며, 이를 통해 인간 지식의 현실적인 모델을 데이터 해석에 훨씬 쉽게 적용할 수 있다. PClean은 베이지안 추론을 기반으로 하며, 이는 당면한 데이터에 대한 사전 지식에 기초한 확률을 적용하여 모호한 데이터에 대한 대체 설명을 가중하는 접근법이다.

논문의 수석 저자인 알렉스 루는 “PClean은 컴퓨터와 사람의 격차를 해소하기 위한 단계이며, 이 시스템은 데이터를 정리하는 사람에게 문제를 설명할 수 있는 것과 같은 종류의 배경지식을 인코딩하여 컴퓨터에 문제를 학습시키는 효과를 지녔다.”라고 밝혔다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue