CWN(CHANGE WITH NEWS) - MIT, 데이터 자동 정제 시스템 ′PClean′ 개발

  • 구름조금대구26.6℃
  • 구름조금상주29.2℃
  • 맑음영월28.5℃
  • 구름조금북강릉26.1℃
  • 맑음수원29.9℃
  • 구름조금거제27.4℃
  • 비제주27.4℃
  • 맑음제천28.5℃
  • 구름조금산청26.9℃
  • 구름조금김해시26.3℃
  • 맑음이천30.9℃
  • 맑음북춘천30.4℃
  • 맑음장수26.6℃
  • 맑음정읍29.6℃
  • 맑음합천27.6℃
  • 구름조금완도30.7℃
  • 맑음서청주29.8℃
  • 맑음청송군26.4℃
  • 구름많음여수28.0℃
  • 맑음순창군29.7℃
  • 구름조금함양군27.6℃
  • 구름조금홍성29.6℃
  • 구름조금북창원28.9℃
  • 맑음구미28.9℃
  • 맑음동두천29.2℃
  • 구름많음거창27.1℃
  • 구름조금부안30.2℃
  • 구름조금고창29.7℃
  • 맑음의성28.6℃
  • 맑음울릉도24.4℃
  • 맑음동해26.1℃
  • 구름조금영천25.3℃
  • 구름많음목포28.6℃
  • 구름많음흑산도26.8℃
  • 구름많음광주27.6℃
  • 맑음보성군29.3℃
  • 구름조금고창군29.0℃
  • 맑음원주31.3℃
  • 구름조금진도군29.1℃
  • 구름많음남해28.2℃
  • 구름조금추풍령27.0℃
  • 맑음안동28.7℃
  • 맑음강릉26.5℃
  • 맑음정선군27.4℃
  • 맑음양평30.7℃
  • 맑음영덕24.6℃
  • 맑음인제26.9℃
  • 맑음고산28.8℃
  • 맑음순천28.1℃
  • 맑음영주29.5℃
  • 구름조금영광군29.0℃
  • 흐림포항24.9℃
  • 구름많음경주시24.0℃
  • 맑음보은28.4℃
  • 맑음대관령21.2℃
  • 맑음서울31.2℃
  • 구름많음통영29.0℃
  • 맑음태백22.6℃
  • 맑음충주31.3℃
  • 맑음속초26.1℃
  • 맑음울진25.7℃
  • 구름조금고흥29.9℃
  • 맑음문경29.0℃
  • 구름조금밀양26.7℃
  • 구름조금백령도26.0℃
  • 구름조금의령군26.6℃
  • 맑음금산28.6℃
  • 구름조금대전28.8℃
  • 맑음남원28.4℃
  • 맑음청주31.5℃
  • 구름많음성산27.6℃
  • 구름조금북부산27.2℃
  • 구름조금군산29.3℃
  • 맑음해남28.9℃
  • 구름많음진주28.1℃
  • 구름조금울산24.9℃
  • 구름조금전주29.6℃
  • 구름조금양산시27.2℃
  • 구름조금창원27.7℃
  • 구름많음광양시28.7℃
  • 맑음파주29.4℃
  • 구름많음서귀포28.9℃
  • 맑음춘천30.1℃
  • 맑음인천30.9℃
  • 맑음철원30.0℃
  • 맑음세종29.1℃
  • 맑음천안29.6℃
  • 맑음부여29.4℃
  • 구름조금부산28.2℃
  • 맑음강화28.6℃
  • 맑음임실27.8℃
  • 맑음장흥28.1℃
  • 맑음서산29.9℃
  • 맑음보령30.0℃
  • 맑음홍천30.2℃
  • 맑음봉화27.5℃
  • 구름조금강진군30.2℃
  • 2025.09.11 (목)

MIT, 데이터 자동 정제 시스템 'PClean' 개발

김영상 / 기사승인 : 2021-05-17 13:39:17
  • -
  • +
  • 인쇄

MIT 연구팀이 중복, 누락 값, 오자, 불일치 등 "더러운 데이터(Dirty data)"를 자동으로 제거하는 새로운 시스템 개발 소식을 발표했다. PClean이라고 불리는 이 시스템은 AI 응용 프로그램의 개발을 단순화하고 자동화하는 것을 목표로 하는 확률적 컴퓨팅 프로젝트의 연구자들이 작성한 일련의 도메인별 확률적 프로그래밍 언어 중, 가장 최신 버전이다.

PClean은 지식 기반 접근 방식을 사용하여 데이터 정제 프로세스를 자동화한다. 먼저, 사용자는 데이터베이스에 대한 배경지식과 나타날 수 있는 문제 유형을 인코딩한다. 아파트 목록 데이터베이스에서 주 이름을 정리하는 문제를 예시로 들어보자. 누군가가 베벌리 힐스에 살지만, 주에 대한 데이터가 공백인 상태를 가정해보자. 캘리포니아에는 유명한 베벌리 힐즈가 있지만 플로리다, 미주리, 텍사스, 볼티모어 근처에도 베벌리 힐즈가 있다. 이런 경우 정확한 위치를 어떻게 파악할까?

여기서 PClean의 표현적 스크립팅 언어가 나온다. 이 시스템을 통해 사용자는 도메인에 대한 배경지식 및 데이터 손상 방법에 대한 정보를 PC에 제공할 수 있다. PClean은 확률적 추론을 통해 지식을 결합하여 답을 도출한다. 예를 들어, 일반적인 임대료에 대한 추가 지식을 고려할 때, PClean은 응답자가 사는 곳의 높은 임대료의 지식을 결합하여 캘리포니아에 있는 베벌리 힐스의 정확한 거주지를 추론한다.

PClean은 MIT의 확률적 컴퓨팅 프로젝트에 구축된 새로운 AI 프로그래밍 모델을 포함하여 확률적 프로그래밍의 최근 발전을 기반으로 하며, 이를 통해 인간 지식의 현실적인 모델을 데이터 해석에 훨씬 쉽게 적용할 수 있다. PClean은 베이지안 추론을 기반으로 하며, 이는 당면한 데이터에 대한 사전 지식에 기초한 확률을 적용하여 모호한 데이터에 대한 대체 설명을 가중하는 접근법이다.

논문의 수석 저자인 알렉스 루는 “PClean은 컴퓨터와 사람의 격차를 해소하기 위한 단계이며, 이 시스템은 데이터를 정리하는 사람에게 문제를 설명할 수 있는 것과 같은 종류의 배경지식을 인코딩하여 컴퓨터에 문제를 학습시키는 효과를 지녔다.”라고 밝혔다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue