2024년은 글로벌 AI 업계 경쟁 ‘2라운드’
오픈AI ‘GPT 스토어’·MS ‘코파일럿’ PC 등 본격 수익화
‘GPT’ 능가 구글 ‘제미나이’, 올해 생태계 구축 박차
| 최원진 기자 wonjc6@newspim.com
2024년은 생성형 인공지능(AI) 업계의 치열한 ‘2라운드’가 예상되는 해다. 2022년 11월 오픈AI가 챗봇 ‘챗GPT’를 출시해 큰 반향을 일으키면서 지난해 IT 업계가 앞다퉈 자체 거대언어모델(LLM) 개발에 나선 게 1라운드였다면 올해는 본격 수익화에 나설 전망이다. 일론 머스크 테슬라 최고경영자(CEO)의 AI 스타트업 ‘xAI’가 지난해 12월 챗봇 ‘그록(Grok)’을 배포, 광고 없는 유료 서비스(월 16달러) ‘X 프리미엄 플러스’ 회원들로부터 수익 창출에 나섰다.
지난해 샘 올트먼 CEO 축출 사건으로 혼란을 겪은 오픈AI는 상업성을 더 강화해야 한다는 올트먼의 승리로 올해 1월 ‘GPT 스토어’를 공개했다. GPT 스토어는 누구나 자신이 만든 AI 챗봇을 거래할 수 있는 AI판 앱스토어다. GPT 스토어 매출까지 더해지면 오픈AI의 AI 모델 개발에도 속도가 붙을 것으로 기대를 모은다.
마이크로소프트(MS)는 올해 윈도 전용 키보드에 생성형 AI 도구인 ‘코파일럿(Copilot)’ 키를 도입해 본격 AI PC 판로를 개척할 계획이다. 그간 ‘MS 365’ 같은 오피스와 윈도우 운영체제(OS)에 코파일럿을 적용해온 MS는 키보드에 전용 키를 도입함으로써 버튼 클릭 한 번으로 프롬프트를 입력할 수 있게 한다. 파워포인트 사용 시 코파일럿 키를 눌러 원하는 이미지를 생성해 바로 첨부하거나, 엑셀 사용 시 데이터 분석 작업을 할 수 있는 등 활용도가 높을 것이란 설명이다.
올해 가장 주목받을 AI 모델 구글 ‘제미나이’
올해 가장 이목을 집중시킬 AI 모델은 구글 ‘제미나이(Gemini)’다. 구글은 지난해 12월 자체 모델 ‘제미나이 1.0’을 공개해 업계를 깜짝 놀라게 했다. 제미나이는 3가지 버전으로 나온다. 구글이 지금까지 내놓은 것 중 가장 강력한 LLM이자 데이터센터와 기업용 모델인 ‘울트라’, 구글의 AI 챗봇 ‘바드’의 모델인 ‘프로’, 스마트폰 등 모바일 기기에서 사용 가능한 콤팩트한 사이즈의 ‘나노’다.
특히 제미나이 울트라의 경우 구글이 자체로 벤치마크 테스트를 한 결과 오픈AI의 GPT-4 LLM보다 월등한 성적을 거뒀다고 주장하면서 큰 관심을 끌었다. 올해부터는 자사 챗봇의 유료 버전인 ‘바드 어드밴스트’에 탑재할 계획이다.
제미나이가 주목받는 이유는 다른 LLM과 달리 태생적으로 멀티모달(Multi-Modal·다중 모드)이어서다. 멀티모달은 말 그대로 텍스트뿐만 아니라 이미지, 동영상 등 비언어 입력값도 이해해 응용할 수 있는 ‘멀티플레이어’다. 오픈AI가 이미지 생성 AI ‘달리(DALL-E)’, 음성 인식 AI ‘위스퍼(Whisper)’를 각각 개발한 방식과 달리 구글은 애초부터 텍스트·이미지·오디오 등 다양한 데이터로 제미나이를 훈련해 왔다는 것이다.
특히 제미나이는 이미지와 동영상을 이해한 데이터를 응용하고 상호 작용하는 데 강점을 보인다. 예컨대 한 학생의 물리학 문제 풀이 과정 이미지를 교사가 제미나이 프롬프트에 넣어 어떤 부분이 틀렸는지 질문하면 제미나이는 정확히 문제의 정답과 학생의 손 글씨를 이해해 잘못된 부분을 수정해 준다. 구글 딥마인드는 “제미나이가 이미지 속 텍스트를 이해하는 것을 넘어 교사가 어떻게 문제를 다르게 설정했는지 등을 이해해야 가능하다”고 설명했다. 제미나이는 오답 풀이뿐만 아니라 학생이 틀린 유형의 다른 연습 문제도 제공해 교육 환경에서의 활용도가 높다는 게 자체 평가다.
이 밖에 제미나이는 동영상 속 언어를 감지해 번역 자막을 달아주고, 동영상 속 상황을 이해해 질문에 답할 수 있다.
32개 벤치마크 테스트 중 30개서 ‘최고 성적’
구글은 이미지와 영상의 이해부터 수학적 추론까지 가능한 제미나이 울트라가 업계에서 LLM 연구개발 평가 시 널리 사용되는 학술 벤치마크 기준 32개 항목 가운데 30개에서 GPT-4를 뛰어넘는 성적을 기록했다고 주장한다.
구체적으로 제미나이 울트라는 텍스트와 추론 벤치마크 부문 12개 중 10개, 이미지 이해 부문 9개 중 9개, 동영상 이해 부문 6개 중 6개, 음성 인식 부문 5개 중 5개에서 GPT-4보다 높은 신기록을 썼다. 특히 대규모 다중작업 언어 이해(MMLU) 벤치마크에서 90% 이상의 정답률을 기록했다. MMLU는 수학, 물리학, 역사, 법률, 의학, 윤리 등 57개 주제를 복합적으로 활용해 지식과 문제 해결 능력을 평가하는 대표적인 LLM 벤치마크다. 구글 딥마인드는 제미나이 울트라의 MMLU 점수가 GPT-4의 86.4%를 앞선 것에서 나아가 AI 모델로는 최초로 인간 전문가 점수인 89.8%를 뛰어넘었다고 밝혔다.
이 밖에 여러 단계의 추론을 요구하는 문제 해결 능력을 평가하는 빅 벤치 하드(BIG-Bench-Hard)와 독해력 벤치마크인 DROP에서 각각 80%가 넘는 점수로 GPT-4를 능가했다. WMT23 벤치마크는 LLM의 번역 능력을 평가한다. 제미나이 울트라는 74.40%로 GPT-4보다 번역 능력이 우수했다. 이미지 이해 능력도 GPT-4보다 뛰어났다. 과학, 기술, 인문과학, 음악 등 6개 핵심 부문 대학 시험과 교과서에서 수집된 차트, 표, 악보 이미지를 이해하는 능력을 평가하는 벤치마크인 MMMU에서도 제미나이 울트라는 59.4%로 GPT-4를 앞섰다.
이미지를 보고 이해해 관련 질문에 답할 수 있는 능력을 확인하는 VQAv2 벤치마크, 서류상 이미지를 이해하는 능력을 보는 DocVQA, 그래프 등을 보고 수학적 추론 능력을 평가하는 매스 비스타(MathVista) 벤치마크에서도 GPT-4보다 좋은 성적을 거뒀다.
AI 모델의 동영상 이해를 평가하는 벤치마크들에서도 제미나이 울트라는 두각을 보였다. 영상 속 상황을 텍스트로 옮기는 능력을 평가하는 VATEX 벤치마크, 영상과 관련된 질문에 답해 전반적인 영상 이해도를 평가하는 인식 테스트 MCQA 벤치마크 모두 GPT-4를 뛰어넘었다. 이 밖에 중국어 텍스트로 영상 속 상황을 옮기는 능력을 평가하는 VATEX ZH, 영어로 요리 과정이 담긴 영상을 텍스트로 옮기는 YouCook2 등 여러 벤치마크에서도 높은 성적을 거뒀다.
제미나이 프로의 음성 인식 이해도도 우수했다. 21개 언어의 음성을 인식해 텍스트로 변환하는 능력을 평가하는 CoVoST 2 벤치마크에서 제미나이 프로는 40.1%를 기록, 오픈AI의 음성 인식 AI 모델 ‘위스퍼’ 버전 2(v2)보다 10%포인트 이상 높았다. 62개 언어로 음성 인식 여부를 확인하는 FLEURS 벤치마크에서도 제미나이 프로는 7.6%로 위스퍼 v3보다 월등했다. FLEURS는 AI 모델의 음성 인식 정확도를 측정하는 테스트로 점수가 낮을수록 인식 오류가 적다는 의미다.
이 밖에 제미나이는 파이선(Python), 자바(JAVA), C++, Go 등 세계에서 널리 사용되는 프로그래밍 언어로 코드를 이해하고 생성하는 데도 두각을 나타낸다. 코딩 작업 성능을 평가하는 업계 표준인 휴먼이벌(HumanEval) 벤치마크에서 제미나이 울트라는 74.4%를 기록해 GPT-4(67.0%)를 능가했다. 파이썬 코드 생성 능력을 평가하는 내추럴2코드(Natural2Code) 벤치마크에서도 GPT-4보다 1%포인트(p) 높은 74.9%를 기록했다. 지난해 12월 8일 기자가 ‘제미나이 프로’가 탑재된 구글 챗봇 ‘바드’에 고양이 이미지와 함께 어떤 종류인지 질문하니 숏헤어종이라고 답변을 받은 모습.
구글, '제미나이 생태계’ 구축 박차
구글은 자사 AI 모델의 성능이 MS와 협업하는 오픈AI의 모델보다 우수하다는 테스트 결과를 지난해 12월 보고서로 적극 홍보한 데 그치지 않고 곧바로 제품 탑재에 나섰다.
‘제미나이 프로’를 바드에 결합한 데 이어 ‘제미나이 나노’를 자사 스마트폰 ‘픽셀 8 프로’에 접목했다. 제미나이 나노는 문자 작성 시 이용자가 원하는 답변 문장을 추천해 주는 ‘스마트 리플라이(Smart Reply)’ 기능을 제공한다. 픽셀 8 프로에 있는 구글의 리코더(Recorder) 앱으로 장시간 회의나 강의를 녹음하면 제미나이가 주요 포인트를 요약해 준다.
구글은 앞으로도 제미나이를 자사 제품에 녹일 예정이다. ‘제미나이 울트라’는 기업용 제품이지만 그 전에 ‘바드 어드밴스트’란 유료 버전 챗봇에 먼저 선보인다. 울트라는 멀티모달 검색을 넘어 이미지, 오디오, 동영상을 직접 생성해줄 것으로 기대를 모은다.
구글은 향후 브라우저 ‘크롬’과 자사 앱들에도 AI 모델을 접목할 계획이다. 제미나이 생태계 구축을 통해 업계 선두주자로 발돋움하겠다는 취지다. 주요 외신들은 GPT-4보다 뛰어난 제미나이 울트라가 일상에 실질적으로 도움을 줄 수 있는 생성형 AI에 가장 가까운 모델이며, 자사 소프트웨어와 클라우드 서비스에 오픈AI LLM을 채택해온 경쟁사 MS에 한 방 먹였다고 진단한다.
무엇보다 제미나이가 구글 생태계 구축으로 우리 일상에 깊숙이 자리한다면 오픈AI의 업계 입지가 줄어드는 결과를 낳는다. 크롬은 전 세계 검색 시장의 60% 이상을 차지하고 있다. 이용자들이 크롬에서 제미나이 검색 경험에 익숙해질수록 챗GPT를 사용하기 위해 오픈AI 웹사이트나 MS 브라우저 ‘빙(Bing)’에 접속할 일이 사라진다.
구글 안드로이드 운영체제(OS)의 세계 시장 점유율은 70%다. 유튜브, G메일, 구글 독스(Docs), 구글 드라이브 등 앱까지 제미나이의 가능성은 그야말로 무궁무진하다. 제프리스는 지난해 노트에서 “실질적으로 생성형 AI를 도입하고 있는 이들은 스타트업들과 MS, 구글, 아마존 등 하이퍼스케일러(hyperscaler·대형 클라우드 공급자)들뿐”이라며 경쟁 상대가 많지 않아 구글이 제미나이로 시장 판도를 흔들 수 있다고 봤다.
일각에서는 “제미나이가 GPT보다 조금 나은 수준이지 혁신적인 수준까진 아니다”라며 “구글이 모델을 훈련한 데이터가 무엇이고, 어떻게 콘텐츠를 필터링했는지 등 정보를 제공하지 않아 자체 성능 테스트 결과를 믿지 못하겠다”는 의혹을 제기한다. AI 모델이 주어진 데이터 또는 맥락에 근거하지 않은 허위 정보를 생성하는 ‘할루시네이션(Hallucination)’ 가능성도 구글이 앞으로 주의 깊게 들여다봐야 할 숙제다.
한편 파이낸셜타임스(FT)는 “제미나이는 2024년 구글에 큰 시장을 갖고 올 명확한 이점들이 있다”며 구글의 공격적 AI 사업 드라이브에 관해서는 “구글이 (오픈AI에) 뒤처질 의향이 없는 것으로 보인다”고 진단했다.