CWN(CHANGE WITH NEWS) - 워싱턴포스트 "AI 시스템 훈련 데이터세트, 파시스트 성향·악성 콘텐츠 포함"

  • 맑음부여1.9℃
  • 맑음거제7.2℃
  • 맑음대관령-7.4℃
  • 맑음거창4.4℃
  • 맑음보성군6.0℃
  • 구름조금정읍2.4℃
  • 구름조금홍성-0.2℃
  • 구름많음보령0.5℃
  • 맑음창원7.2℃
  • 맑음의령군6.0℃
  • 맑음해남5.9℃
  • 맑음장흥6.1℃
  • 맑음인제-3.7℃
  • 맑음홍천-2.7℃
  • 맑음임실3.0℃
  • 맑음동두천-4.0℃
  • 맑음완도6.5℃
  • 맑음전주2.5℃
  • 맑음충주-1.2℃
  • 맑음김해시7.6℃
  • 구름많음백령도-3.2℃
  • 맑음세종0.7℃
  • 맑음성산9.0℃
  • 맑음동해1.9℃
  • 맑음영월-1.7℃
  • 맑음합천6.6℃
  • 맑음제천-2.2℃
  • 맑음진주6.9℃
  • 맑음밀양7.4℃
  • 맑음안동1.2℃
  • 맑음파주-4.2℃
  • 맑음수원-2.1℃
  • 맑음광양시7.1℃
  • 맑음서울-1.8℃
  • 맑음서귀포11.2℃
  • 구름조금부안2.7℃
  • 맑음함양군3.9℃
  • 구름조금제주9.7℃
  • 맑음춘천-1.9℃
  • 맑음북부산8.7℃
  • 맑음고산8.7℃
  • 구름많음흑산도5.4℃
  • 맑음경주시5.5℃
  • 맑음강진군6.0℃
  • 구름많음울릉도1.5℃
  • 맑음속초-1.1℃
  • 맑음문경-0.4℃
  • 맑음진도군5.3℃
  • 맑음대구5.1℃
  • 맑음북창원7.8℃
  • 맑음태백-5.3℃
  • 맑음천안-0.8℃
  • 맑음봉화-1.6℃
  • 맑음장수0.4℃
  • 구름많음영광군2.7℃
  • 맑음청주0.2℃
  • 맑음산청3.8℃
  • 맑음통영7.7℃
  • 맑음여수6.7℃
  • 맑음고흥7.0℃
  • 맑음보은0.4℃
  • 구름조금고창2.5℃
  • 맑음강릉0.6℃
  • 맑음포항5.1℃
  • 맑음청송군1.0℃
  • 맑음구미4.0℃
  • 맑음강화-3.6℃
  • 맑음금산2.7℃
  • 맑음순창군3.5℃
  • 맑음양평-1.5℃
  • 맑음영덕3.2℃
  • 맑음울산6.2℃
  • 구름조금고창군3.4℃
  • 맑음영천3.7℃
  • 구름조금광주4.1℃
  • 맑음정선군-2.4℃
  • 맑음북강릉0.0℃
  • 맑음철원-4.9℃
  • 맑음추풍령1.1℃
  • 맑음인천-3.1℃
  • 맑음남원3.6℃
  • 맑음부산8.5℃
  • 맑음상주1.2℃
  • 맑음서청주-0.9℃
  • 맑음의성2.8℃
  • 맑음대전1.9℃
  • 맑음순천4.2℃
  • 맑음이천-0.9℃
  • 맑음북춘천-3.5℃
  • 맑음양산시8.4℃
  • 맑음영주-1.0℃
  • 맑음울진3.2℃
  • 맑음원주-1.9℃
  • 구름조금서산-0.7℃
  • 맑음목포3.2℃
  • 구름조금군산1.4℃
  • 맑음남해7.1℃
  • 2026.01.13 (화)

워싱턴포스트 "AI 시스템 훈련 데이터세트, 파시스트 성향·악성 콘텐츠 포함"

최은희 / 기사승인 : 2023-05-12 11:39:22
  • -
  • +
  • 인쇄

생성형 인공지능(AI) 채택 범위가 대거 확장되는 가운데, AI 툴의 성능 향상에 필요한 훈련 데이터 관련 문제가 끊이지 않는다. 최근, 미국 유력 매체 워싱턴포스트는 AI 모델 훈련용으로 사용하는 데이터세트에 파시스트 성향의 콘텐츠와 불법 복제 소스 및 악성 소스가 포함되었다는 자체 조사 결과를 발표했다.

문제가 된 데이터세트 중에는 구글이 1,500만 곳 이상의 웹사이트에서 수집하여 검색 엔진의 LaMDA AI와 메타의 대규모 언어 모델인 LLaMA 등을 훈련하는 데 사용된 C4(Colossal Clean Crawled Corpus) 등이 포함되었다.

C4는 공개 접근이 가능하지만, 데이터세트에 포함된 콘텐츠의 정확한 규모 파악은 어려웠다. 비교적 광범위하면서 부적절한 콘텐츠 검토 수준이 우수한 데이터도 포함된 것으로 알려졌다. 해당 데이터세트는 모욕적 언어와 인종 차별성 욕설이 제거된 것으로 추정된다.

하지만 워싱턴포스트는 C4의 부적절한 콘텐츠 및 표현 제거가 표면적인 수준에서만 진행되었다는 점을 확인했다. C4는 영국 일간지 가디언을 포함한 유력 매체의 웹사이트에서 수집한 콘텐츠 0.05%와 위키피디아, 구글 페이턴트(Google Patents)를 비롯한 대규모 데이터베이스, 과학 학술 저널 허브(PLOS) 등에서 수집한 콘텐츠를 포함하였다.

반면, 백인 민족주의 세력 웹사이트인 VDARE과 극우 성향의 주요 뉴스 웹사이트 중 한 곳인 브라이트바트(Breitbart)에서 수집한 콘텐츠도 포함된 것으로 확인됐다. 러시아 국가 주도 선동광고 웹사이트인 RT도 C4의 훈련 데이터를 제공한 사실도 밝혀졌다.

수집된 데이터 모음 분석을 분석한 비영리 단체인 커먼 크로울(Common Crawl)은 검색에서 제외해 달라는 요청을 존중한다고 밝혔지만, 명시적으로 포함에 동의한 사이트는 거의 없었다.

그러나 공정한 사용 수준의 한계를 넘어서는 경우도 발견됐다. 이전에 Bookzz로 알려졌던 b-ok.org는 2022년 미국 연방수사국(FBI)이 압수하기 전까지 전자책 불법 복제판의 방대한 저장소였다. 그런데도 C4 데이터베이스에는 해당 사이트의 콘텐츠가 남아있다.

한편, 영국 일간지 가디언은 워싱턴포스트의 조사 결과를 전하며, 이미지 생성 AI 툴로 유명한 스타트업인 스테이빌리티 AI(Stability AI)가 최근 대규모 언어 모델인 스테이블LM(StableLM)을 공개한 사실에 주목했다. 스테이빌리티 AI 측은 스테이블LM의 규모가 기존 언어 모델보다 3배 더 크며, 투명성과 신뢰도를 위해 오픈소스를 채택했다고 밝혔다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue