CWN(CHANGE WITH NEWS) - MIT, 데이터 자동 정제 시스템 ′PClean′ 개발

  • 맑음홍성-3.1℃
  • 구름많음진주4.9℃
  • 구름조금태백-1.4℃
  • 구름조금보성군3.6℃
  • 맑음서산-4.3℃
  • 맑음정선군-2.0℃
  • 구름많음고산2.6℃
  • 구름조금봉화-1.5℃
  • 구름조금제주4.1℃
  • 구름많음고창-2.0℃
  • 구름많음부안-2.2℃
  • 맑음천안-4.3℃
  • 구름조금대전-2.5℃
  • 맑음홍천-3.6℃
  • 구름많음창원1.9℃
  • 맑음거제2.7℃
  • 구름조금부여-2.4℃
  • 구름많음거창3.1℃
  • 구름많음밀양3.1℃
  • 구름많음대구0.9℃
  • 맑음파주-8.4℃
  • 구름많음고창군-3.3℃
  • 맑음서울-5.9℃
  • 흐림포항4.1℃
  • 맑음보은-2.8℃
  • 맑음고흥4.3℃
  • 구름조금군산-2.7℃
  • 구름조금부산4.7℃
  • 맑음문경-0.7℃
  • 맑음춘천-3.7℃
  • 구름많음금산-2.5℃
  • 구름조금통영3.6℃
  • 구름조금목포-2.0℃
  • 구름조금동해1.2℃
  • 맑음남해4.4℃
  • 맑음영월-2.6℃
  • 구름많음울진3.0℃
  • 흐림서귀포8.3℃
  • 맑음철원-8.2℃
  • 맑음양평-3.8℃
  • 맑음인천-7.7℃
  • 구름많음구미-0.1℃
  • 맑음강화-7.0℃
  • 구름많음장흥1.1℃
  • 맑음이천-3.8℃
  • 구름많음진도군-0.6℃
  • 구름많음안동-1.7℃
  • 구름조금광양시5.7℃
  • 구름많음의성-0.1℃
  • 구름많음장수-2.2℃
  • 맑음원주-4.4℃
  • 구름많음강진군0.3℃
  • 구름조금강릉0.6℃
  • 맑음속초-1.2℃
  • 맑음대관령-4.4℃
  • 구름많음영광군-2.4℃
  • 구름조금북강릉0.2℃
  • 구름조금전주-2.6℃
  • 구름조금청주-3.8℃
  • 구름조금서청주-4.0℃
  • 구름많음북부산4.8℃
  • 눈울릉도-1.9℃
  • 흐림흑산도-0.5℃
  • 구름많음남원-0.5℃
  • 구름많음영덕3.1℃
  • 구름조금양산시4.9℃
  • 맑음충주-4.4℃
  • 구름조금추풍령-3.9℃
  • 맑음상주-1.7℃
  • 맑음완도2.7℃
  • 맑음동두천-7.8℃
  • 구름많음경주시2.3℃
  • 구름많음광주-0.2℃
  • 구름많음의령군2.5℃
  • 맑음여수4.4℃
  • 구름조금합천3.2℃
  • 맑음북춘천-6.1℃
  • 구름많음정읍-2.9℃
  • 구름조금영천1.5℃
  • 구름조금영주-1.3℃
  • 맑음인제-4.6℃
  • 구름많음임실-1.7℃
  • 구름많음성산3.1℃
  • 구름많음순천0.1℃
  • 구름많음순창군-1.4℃
  • 구름많음울산2.5℃
  • 구름많음해남0.5℃
  • 맑음보령-2.2℃
  • 맑음수원-5.3℃
  • 맑음제천-4.2℃
  • 눈백령도-7.7℃
  • 구름조금세종-3.4℃
  • 구름많음청송군-0.9℃
  • 구름조금김해시3.5℃
  • 구름조금함양군2.9℃
  • 구름조금북창원2.7℃
  • 구름조금산청3.3℃
  • 2026.01.20 (화)

MIT, 데이터 자동 정제 시스템 'PClean' 개발

김영상 / 기사승인 : 2021-05-17 13:39:17
  • -
  • +
  • 인쇄

MIT 연구팀이 중복, 누락 값, 오자, 불일치 등 "더러운 데이터(Dirty data)"를 자동으로 제거하는 새로운 시스템 개발 소식을 발표했다. PClean이라고 불리는 이 시스템은 AI 응용 프로그램의 개발을 단순화하고 자동화하는 것을 목표로 하는 확률적 컴퓨팅 프로젝트의 연구자들이 작성한 일련의 도메인별 확률적 프로그래밍 언어 중, 가장 최신 버전이다.

PClean은 지식 기반 접근 방식을 사용하여 데이터 정제 프로세스를 자동화한다. 먼저, 사용자는 데이터베이스에 대한 배경지식과 나타날 수 있는 문제 유형을 인코딩한다. 아파트 목록 데이터베이스에서 주 이름을 정리하는 문제를 예시로 들어보자. 누군가가 베벌리 힐스에 살지만, 주에 대한 데이터가 공백인 상태를 가정해보자. 캘리포니아에는 유명한 베벌리 힐즈가 있지만 플로리다, 미주리, 텍사스, 볼티모어 근처에도 베벌리 힐즈가 있다. 이런 경우 정확한 위치를 어떻게 파악할까?

여기서 PClean의 표현적 스크립팅 언어가 나온다. 이 시스템을 통해 사용자는 도메인에 대한 배경지식 및 데이터 손상 방법에 대한 정보를 PC에 제공할 수 있다. PClean은 확률적 추론을 통해 지식을 결합하여 답을 도출한다. 예를 들어, 일반적인 임대료에 대한 추가 지식을 고려할 때, PClean은 응답자가 사는 곳의 높은 임대료의 지식을 결합하여 캘리포니아에 있는 베벌리 힐스의 정확한 거주지를 추론한다.

PClean은 MIT의 확률적 컴퓨팅 프로젝트에 구축된 새로운 AI 프로그래밍 모델을 포함하여 확률적 프로그래밍의 최근 발전을 기반으로 하며, 이를 통해 인간 지식의 현실적인 모델을 데이터 해석에 훨씬 쉽게 적용할 수 있다. PClean은 베이지안 추론을 기반으로 하며, 이는 당면한 데이터에 대한 사전 지식에 기초한 확률을 적용하여 모호한 데이터에 대한 대체 설명을 가중하는 접근법이다.

논문의 수석 저자인 알렉스 루는 “PClean은 컴퓨터와 사람의 격차를 해소하기 위한 단계이며, 이 시스템은 데이터를 정리하는 사람에게 문제를 설명할 수 있는 것과 같은 종류의 배경지식을 인코딩하여 컴퓨터에 문제를 학습시키는 효과를 지녔다.”라고 밝혔다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue