CWN(CHANGE WITH NEWS) - MIT, 데이터 자동 정제 시스템 ′PClean′ 개발

  • 맑음봉화-9.4℃
  • 맑음구미-5.0℃
  • 맑음양산시-0.5℃
  • 맑음장수-8.4℃
  • 흐림수원-1.5℃
  • 맑음태백-4.0℃
  • 맑음진도군-3.6℃
  • 맑음북부산-5.6℃
  • 맑음청주-2.6℃
  • 흐림대관령-7.5℃
  • 맑음의령군-8.1℃
  • 구름많음속초3.4℃
  • 맑음울진0.4℃
  • 맑음천안-6.1℃
  • 맑음고창-4.7℃
  • 맑음포항0.0℃
  • 맑음해남-6.2℃
  • 맑음목포0.2℃
  • 흐림보은-6.2℃
  • 구름많음인천-0.1℃
  • 맑음광양시-1.2℃
  • 맑음합천-5.7℃
  • 맑음울릉도4.4℃
  • 흐림이천-5.6℃
  • 맑음순창군-5.7℃
  • 맑음함양군-7.2℃
  • 흐림강화-0.8℃
  • 맑음산청-6.1℃
  • 맑음영광군-4.6℃
  • 맑음정읍-4.4℃
  • 흐림춘천-4.9℃
  • 구름조금흑산도3.7℃
  • 맑음청송군-9.3℃
  • 흐림서산-1.1℃
  • 맑음서청주-6.5℃
  • 맑음세종-4.2℃
  • 맑음군산-3.4℃
  • 맑음진주-5.5℃
  • 맑음안동-5.6℃
  • 흐림동두천-5.5℃
  • 맑음부안-2.4℃
  • 흐림홍성-2.3℃
  • 흐림충주-5.5℃
  • 맑음울산-1.1℃
  • 흐림인제-4.5℃
  • 흐림홍천-5.0℃
  • 맑음김해시-1.6℃
  • 맑음정선군-10.2℃
  • 맑음대전-4.0℃
  • 맑음거창-7.5℃
  • 구름많음북강릉0.3℃
  • 맑음완도-1.1℃
  • 구름조금철원-5.9℃
  • 맑음추풍령-5.0℃
  • 흐림양평-5.1℃
  • 맑음금산-6.5℃
  • 맑음상주-3.3℃
  • 흐림서울-1.1℃
  • 흐림북춘천-6.9℃
  • 맑음밀양-4.5℃
  • 맑음부산1.5℃
  • 맑음전주-3.4℃
  • 맑음여수0.3℃
  • 맑음고흥-6.1℃
  • 맑음동해-0.5℃
  • 맑음대구-2.6℃
  • 맑음고창군-4.3℃
  • 맑음장흥-5.2℃
  • 구름조금보령-2.7℃
  • 맑음고산5.2℃
  • 맑음의성-8.5℃
  • 구름많음강릉2.4℃
  • 맑음창원-0.2℃
  • 맑음거제-1.5℃
  • 맑음영주-7.1℃
  • 맑음경주시-6.2℃
  • 맑음보성군-3.5℃
  • 맑음문경-3.4℃
  • 맑음부여-5.5℃
  • 맑음통영-0.2℃
  • 맑음광주-1.7℃
  • 맑음임실-7.1℃
  • 흐림서귀포8.5℃
  • 맑음북창원-1.4℃
  • 흐림원주-5.8℃
  • 구름많음백령도7.3℃
  • 맑음영천-3.1℃
  • 맑음강진군-4.4℃
  • 흐림영월-8.0℃
  • 흐림제천-8.0℃
  • 구름조금성산2.9℃
  • 맑음순천-6.4℃
  • 맑음남원-5.6℃
  • 맑음영덕-1.0℃
  • 구름많음제주4.7℃
  • 흐림파주-5.6℃
  • 맑음남해-0.5℃
  • 2025.12.06 (토)

MIT, 데이터 자동 정제 시스템 'PClean' 개발

김영상 / 기사승인 : 2021-05-17 13:39:17
  • -
  • +
  • 인쇄

MIT 연구팀이 중복, 누락 값, 오자, 불일치 등 "더러운 데이터(Dirty data)"를 자동으로 제거하는 새로운 시스템 개발 소식을 발표했다. PClean이라고 불리는 이 시스템은 AI 응용 프로그램의 개발을 단순화하고 자동화하는 것을 목표로 하는 확률적 컴퓨팅 프로젝트의 연구자들이 작성한 일련의 도메인별 확률적 프로그래밍 언어 중, 가장 최신 버전이다.

PClean은 지식 기반 접근 방식을 사용하여 데이터 정제 프로세스를 자동화한다. 먼저, 사용자는 데이터베이스에 대한 배경지식과 나타날 수 있는 문제 유형을 인코딩한다. 아파트 목록 데이터베이스에서 주 이름을 정리하는 문제를 예시로 들어보자. 누군가가 베벌리 힐스에 살지만, 주에 대한 데이터가 공백인 상태를 가정해보자. 캘리포니아에는 유명한 베벌리 힐즈가 있지만 플로리다, 미주리, 텍사스, 볼티모어 근처에도 베벌리 힐즈가 있다. 이런 경우 정확한 위치를 어떻게 파악할까?

여기서 PClean의 표현적 스크립팅 언어가 나온다. 이 시스템을 통해 사용자는 도메인에 대한 배경지식 및 데이터 손상 방법에 대한 정보를 PC에 제공할 수 있다. PClean은 확률적 추론을 통해 지식을 결합하여 답을 도출한다. 예를 들어, 일반적인 임대료에 대한 추가 지식을 고려할 때, PClean은 응답자가 사는 곳의 높은 임대료의 지식을 결합하여 캘리포니아에 있는 베벌리 힐스의 정확한 거주지를 추론한다.

PClean은 MIT의 확률적 컴퓨팅 프로젝트에 구축된 새로운 AI 프로그래밍 모델을 포함하여 확률적 프로그래밍의 최근 발전을 기반으로 하며, 이를 통해 인간 지식의 현실적인 모델을 데이터 해석에 훨씬 쉽게 적용할 수 있다. PClean은 베이지안 추론을 기반으로 하며, 이는 당면한 데이터에 대한 사전 지식에 기초한 확률을 적용하여 모호한 데이터에 대한 대체 설명을 가중하는 접근법이다.

논문의 수석 저자인 알렉스 루는 “PClean은 컴퓨터와 사람의 격차를 해소하기 위한 단계이며, 이 시스템은 데이터를 정리하는 사람에게 문제를 설명할 수 있는 것과 같은 종류의 배경지식을 인코딩하여 컴퓨터에 문제를 학습시키는 효과를 지녔다.”라고 밝혔다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue