KAIST 박종세 교수 연구팀과 김주영 교수가 창업한 (주)하이퍼엑셀은 협력을 통해 생성형 AI 클라우드에 최적화된 고성능·저전력 NPU 핵심 기술을 개발했다고 4일 밝혔다. 이 기술은 컴퓨터 아키텍처 분야 최고 권위 학회인 ‘2025 국제 컴퓨터구조 심포지엄(ISCA 2025)’에 채택되며 그 우수성을 인정받았다.
이번 연구의 핵심은 생성형 AI 추론 과정에서 발생하는 메모리 병목 현상을 해결하고, 동시에 정확도 손실을 최소화하는 것이다. 현재 챗GPT-4, 구글 Gemini 2.5 등 최신 생성형 AI 모델들은 막대한 메모리 대역폭과 용량을 요구하며, 이는 마이크로소프트, 구글과 같은 클라우드 운영 기업들이 엔비디아 GPU를 대량으로 구매하는 주된 이유다.
연구팀이 개발한 NPU 기술은 AI 인프라의 핵심 구성요소인 AI 반도체와 시스템 소프트웨어를 통합 설계했다는 점에서 높은 평가를 받는다. 기존 GPU 기반 AI 인프라가 다수의 GPU 디바이스를 필요로 하는 것과 달리, 이 기술은 메모리 사용의 대부분을 차지하는 KV 캐시(Key-Value Cache)를 양자화하여 데이터 크기를 줄임으로써 적은 수의 NPU 디바이스만으로도 동일 수준의 AI 인프라를 구축할 수 있게 한다. 이는 생성형 AI 클라우드 구축 비용을 획기적으로 절감할 수 있는 핵심 방안이 된다.
KAIST 박종세 교수는 "이번 연구는 (주)하이퍼엑셀과의 공동 연구를 통해 생성형 AI 추론 경량화 알고리즘에서 해법을 찾았고, '메모리 문제'를 해결할 수 있는 NPU 핵심 기술 개발에 성공했다"며, "이 기술을 통해 추론의 정확도를 유지하면서 메모리 요구량을 줄이는 경량화 기법과, 이에 최적화된 하드웨어 설계를 결합해 최신 GPU 대비 평균 60% 이상 성능이 향상된 NPU를 구현했다"고 설명했다. 박 교수는 이어 "이 기술은 생성형AI에 특화된 고성능·저전력 인프라 구현 가능성을 입증했으며, AI클라우드 데이터센터뿐 아니라 능동적인 실행형 AI인 ‘에이전틱 AI ’등으로 대표되는 AI 대전환(AX) 환경에서도 핵심 역할이 기대된다”고 강조했다.
또한, 연구팀은 기존 NPU 아키텍처의 연산 로직을 변경하지 않으면서도 메모리 인터페이스와 통합될 수 있도록 설계했다. 제안된 양자화 알고리즘뿐만 아니라, 제한된 메모리 대역폭 및 용량을 효율적으로 활용하기 위한 페이지 단위 메모리 관리 기법과 양자화된 KV 캐시에 최적화된 새로운 인코딩 기법 등을 개발하여 기술의 완성도를 높였다.
이 기술은 고성능, 저전력 특성을 활용하여 AI 클라우드 데이터센터의 운영 비용을 크게 절감할 것으로 기대된다. 이번 연구 성과는 KAIST 김민수 박사과정 학생과 (주)하이퍼엑셀 홍성민 박사가 공동 제1 저자로 참여했으며, 지난 6월 일본 도쿄에서 열린 '2025 국제 컴퓨터구조 심포지엄(ISCA)'에서 발표되었다. ISCA는 올해 제출된 570편의 논문 중 단 127편(채택률 22.7%)만이 채택될 정도로 엄격한 국제적 저명 학회다.
논문명은 Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization이다.
이 기사 좋아요 1
<저작권자 ⓒ 특허뉴스 무단전재 및 재배포 금지>
![]()
댓글
KAIST, NPU, 생성형 AI, 메모리 효율, 저전력 관련기사목록
|
많이 본 기사
|