마이크로소프트가 지난 28일 자체 개발 인공지능 모델 MAI-Voice-1과 MAI-1 프리뷰를 공개했다. 이번 발표는 오픈AI 의존에서 벗어나 독자적인 AI 스택을 구축하려는 전략적 전환의 일환으로 평가된다.

MAI-Voice-1은 단일 GPU로 1분 분량의 음성을 1초 미만에 생성할 수 있는 고속 합성 모델이다. 단순한 기계음이 아니라 감정과 억양을 반영한 다중 화자 음성까지 구현할 수 있다. 현재 코파일럿 데일리와 팟캐스트 기능에 적용돼 뉴스 요약이나 주제 설명을 음성으로 제공하며, 이용자는 코파일럿 랩스를 통해 맞춤형 음성을 시험할 수 있다.

사진=마이크로소프트


MAI-1 프리뷰는 마이크로소프트가 처음 공개한 대규모 언어 모델이다. 약 1만5천 개의 GPU를 활용해 학습된 혼합 전문가(MoE) 구조를 기반으로 한다. 현재 LMArena에서 공개 테스트가 진행 중이며, 성능은 글로벌 주요 모델과 비교 가능한 수준으로 평가된다. 회사는 향후 코파일럿 일부 텍스트 기능에 MAI-1을 순차적으로 적용할 계획이다.

업계는 이번 발표를 마이크로소프트의 전략 변화로 해석한다. 대규모 단일 모델 중심에서 벗어나, 특정 목적에 특화된 모델을 효율적으로 훈련하고 결합하는 방식으로 비용과 자원 소비를 줄이겠다는 구상이다. 이를 통해 자사 서비스에 최적화된 AI 생태계를 단계적으로 강화하려는 것이다.

소프트웨어 개발기업 오케이토마토의 이영호 대표는 “생성형 AI의 급성장은 소프트웨어 산업 전반의 패러다임을 바꾸고 있다”며 “마이크로소프트가 독자 모델을 확보한 것은 글로벌 AI 경쟁에서 자율성과 속도를 동시에 얻으려는 포석”이라고 분석했다. 그는 “국내 기업도 텍스트·음성 기반 AI를 접목해 서비스 효율성과 고객 경험을 동시에 혁신할 수 있을 것”이라고 전망했다.