ICCV 2025 정식 발표 확정…세계 최고 권위 컴퓨터 비전 학회에서 주목
건국대학교 공과대학 김원준 교수(전기전자공학부) 연구팀이 개발한 ‘고성능 개방형 어휘 3차원 영상 분할 알고리즘’이 세계 최고 권위의 컴퓨터 비전 학회인 ICCV 2025(IEEE/CVF International Conference on Computer Vision)에서 발표된다. ICCV는 h5-index 291을 기록한 최상위 학술대회로, 해당 연구의 기술력과 학문적 기여도를 국제적으로 인정받았다는 의미다.
김 교수 연구팀은 텍스트 명령만으로 3차원 영상 내에서 사용자가 원하는 객체를 정확하게 분할하고 편집할 수 있는 개방형 어휘(Open-vocabulary) 기반의 영상 분할 기술을 구현했다. 논문은 오는 10월 미국 하와이에서 개최되는 ICCV 2025에서 공식 발표될 예정이다.
![]() |
▲ 자료제공=건국대학교 (연구 내용 적용 예시) |
핵심 기술은 언어 임베딩(Language Embedding)과 가우시안 스플래팅(Gaussian Splatting) 파라미터를 동시에 학습함으로써, 서로 다른 시점에서의 영상 내 객체를 일관되게 이해하고 생성할 수 있도록 한 것이다. 특히 대조적 학습(Contrastive Learning) 기법을 접목해 새로운 시점 이미지에서의 객체 검출 성능도 획기적으로 개선했다.
이를 통해 사용자는 단순한 텍스트 입력만으로 3차원 장면 내 특정 객체를 선택하거나 편집할 수 있으며, 정밀한 3D 장면 렌더링과 영상 편집이 동시에 가능해졌다. 해당 기술은 향후 3D 콘텐츠 제작, 몰입형 서비스(이머시브 서비스), 증강현실(AR) 및 메타버스 플랫폼 등에서 활용성이 클 것으로 기대된다.
이번 논문의 제1저자는 건국대 전기전자공학부 석사과정 장성민 연구원이며, 교신저자는 김원준 교수다. 연구는 과학기술정보통신부의 지원을 받아 수행됐다.
김원준 교수는 “텍스트로 직관적인 3D 영상 제어가 가능한 기술은 콘텐츠 제작의 패러다임을 크게 바꾸는 계기가 될 것”이라며 “앞으로도 3차원 장면 이해 및 생성 기술의 연구를 지속해 나가겠다”고 밝혔다.
CWN 신현수 기자
hs.shin.1716@gmail.com
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]