CWN(CHANGE WITH NEWS) - 미디어젠, 초거대 언어 모델 TTA 성능 검증 통과

  • 흐림해남-6.0℃
  • 맑음동해-5.3℃
  • 맑음원주-10.0℃
  • 흐림고창군-5.5℃
  • 맑음금산-10.6℃
  • 맑음대전-8.2℃
  • 구름조금완도-3.8℃
  • 흐림철원-14.1℃
  • 눈울릉도-3.8℃
  • 구름많음서귀포1.5℃
  • 구름조금광주-4.9℃
  • 맑음대구-6.1℃
  • 맑음양평-9.1℃
  • 맑음서산-8.5℃
  • 맑음김해시-5.5℃
  • 맑음구미-7.6℃
  • 맑음서울-9.3℃
  • 맑음여수-4.1℃
  • 맑음부산-4.0℃
  • 흐림고창-6.6℃
  • 맑음서청주-9.5℃
  • 흐림제주2.8℃
  • 맑음합천-7.1℃
  • 맑음파주-13.3℃
  • 맑음밀양-7.6℃
  • 흐림성산0.8℃
  • 맑음추풍령-9.9℃
  • 맑음순천-8.7℃
  • 맑음양산시-3.3℃
  • 구름조금인천-9.3℃
  • 맑음창원-3.9℃
  • 맑음의령군-9.1℃
  • 맑음인제-12.5℃
  • 맑음충주-11.9℃
  • 맑음영주-8.2℃
  • 맑음장수-12.9℃
  • 맑음속초-8.2℃
  • 맑음홍성-8.9℃
  • 맑음천안-10.2℃
  • 맑음북창원-4.3℃
  • 맑음강진군-6.0℃
  • 맑음동두천-11.7℃
  • 흐림영광군-6.0℃
  • 맑음보성군-6.3℃
  • 흐림부안-4.9℃
  • 맑음보은-11.0℃
  • 구름많음군산-6.8℃
  • 맑음진주-7.4℃
  • 흐림부여-7.4℃
  • 맑음문경-8.8℃
  • 흐림봉화-17.2℃
  • 맑음울진-6.6℃
  • 맑음순창군-9.0℃
  • 맑음함양군-7.7℃
  • 맑음의성-9.9℃
  • 맑음춘천-12.4℃
  • 맑음거창-9.4℃
  • 맑음청주-7.0℃
  • 맑음광양시-5.3℃
  • 맑음홍천-10.9℃
  • 맑음포항-5.2℃
  • 맑음영천-6.5℃
  • 흐림대관령-14.9℃
  • 흐림흑산도0.8℃
  • 맑음전주-6.8℃
  • 흐림고산3.4℃
  • 맑음북부산-6.4℃
  • 맑음영월-11.3℃
  • 맑음세종-8.6℃
  • 흐림태백-12.4℃
  • 맑음남해-2.8℃
  • 맑음통영-3.8℃
  • 맑음정선군-11.5℃
  • 맑음장흥-6.8℃
  • 맑음임실-10.1℃
  • 맑음강화-11.4℃
  • 맑음수원-10.3℃
  • 맑음북강릉-8.9℃
  • 맑음고흥-7.7℃
  • 구름많음진도군-3.3℃
  • 맑음안동-8.4℃
  • 맑음남원-9.1℃
  • 흐림정읍-6.1℃
  • 맑음이천-9.9℃
  • 구름많음백령도-4.8℃
  • 맑음강릉-6.4℃
  • 맑음거제-3.3℃
  • 맑음영덕-6.2℃
  • 맑음제천-12.8℃
  • 맑음산청-5.8℃
  • 맑음청송군-9.0℃
  • 맑음북춘천-12.8℃
  • 맑음경주시-5.4℃
  • 맑음울산-5.3℃
  • 흐림보령-4.7℃
  • 맑음목포-4.6℃
  • 맑음상주-7.6℃
  • 2026.01.12 (월)

미디어젠, 초거대 언어 모델 TTA 성능 검증 통과

이성호 기자 / 기사승인 : 2024-01-17 15:50:53
  • -
  • +
  • 인쇄
한국지능정보사회진흥원(NIA) 초거대 AI 학습용 헬스케어 질의응답 데이터 구축 완료
미디어젠 마곡 R&D 센터 사옥 전경. 사진=미디어젠
미디어젠 마곡 R&D 센터 사옥 전경. 사진=미디어젠

[CWN 이성호 기자] 미디어젠 컨소시엄이 인공지능 데이터 활용해 제작한 초거대 언어 모델(LLM)이 TTA의 성능 검증을 통과했다고 17일 밝혔다.

미디어젠 컨소시엄은 ‘과학기술정보통신부’가 주관하고 ‘한국지능정보사회진흥원(NIA)’이 추진하는 2023년도 인공지능 학습용 데이터 구축 사업의 ‘초거대 AI 모델’을 위한 인공지능 학습용 데이터 구축 사업자로 최종 선정된 바 있으며, 약 2억 어절이 넘는 초거대 규모 헬스케어 분야 생성형 AI 챗봇 질의응답 데이터를 구축 완료했다.

이번 사업은 AI 최신 기술인 초거대 AI 언어 모델 및 응용 서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것으로, 실제 일반인 및 의료진의 질의응답 데이터, 전문 의료 서적 데이터, 증강 데이터 등으로 구성됐다.

미디어젠 컨소시엄은 메트릭스, 비디, 위뉴, 메인 등 5개 전문 기업으로 구성돼 있으며 이번에 구축된 데이터에 대해 통계적 다양성, 구문 정확성, 의미 정확성, 유사성 등에 대해 진행된 TTA의 정밀 검증에서 모두 합격 판정을 받았다.

특히 초거대 언어 모델 성능을 평가하는 TTA의 유효성 검증에서 챗봇의 답변 성공률에 대한 생성 모델 비교 평가 결과 ROUGE-1, ROUGE-2 기준을 모두 달성함으로써, AI 학습용 데이터의 안정성은 물론 초거대 언어 모델의 성능도 공식적 입증도 받게 됐다.

이번 TTA 검증에 활용된 데이터는 일반인의 질문 데이터와 의료진이 직접 작성한 헬스케어 데이터가 질의응답 쌍을 이루고 있으며, 직접 수집된 데이터를 기반으로 증강됐다.

데이터 증강에는 Polyglot을 기반으로 미디어젠이 직접 개발한 증강 모델이 활용됐으며, 초거대 AI 질의응답 모델은 한국전자통신연구원(ETRI)의 T5 기반 파인 튜닝 모델로 시험을 진행했다.

이번 사업을 총괄하고 있는 미디어젠의 송민규 상무는 “초거대 AI 모델의 최적 성능 확보를 위한 증강 데이터와 생성형 질의응답 모델이 TTA 성능 검증을 통과한 것에 매우 기쁘다”면서 “각 산업 영역에서 직접적으로 활용될 수 있는 사업화 초거대 언어 모델을 꾸준히 발표할 예정”이라고 밝혔다.

한편, 초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 2023년 12월 말까지 데이터 수집 및 AI 모델 검증이 완료됐으며, 2024년 상반기 한국지능정보사회진흥원이 운영하는 AI-Hub를 통해 모든 데이터가 일반에 공개될 예정이다.

CWN 이성호 기자

sunghho@cwn.kr

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

이성호 기자
이성호 기자 / 뉴미디어국 부국장 주요 이슈를 담당하고 있습니다.
기자 페이지

기자의 인기기사

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue