이용호가 말하는 ‘생활 속의 인공지능’

Gemini [사진출처=구글]
Gemini [사진출처=구글]

[한국강사신문 이용호 칼럼니스트] 2023년 마지막 달에 구글에서 새로운 인공지능 툴 Gemini(제미나이)를 발표했다. 마치 올해가 끝나면 구글이 인공지능 분야에서 너무 뒤떨어질 것 같은 위기감 속에 발표된 것처럼 느껴진다. 왜냐하면 이번 발표 중 대부분은 가장 성능이 좋은 Ultra에 관한 성능을 자랑 하는 것이었는데 정작 정식 서비스는 내년 초로 연기가 되었기 때문이다. 일단 발표된 구글의 Gemini 기능은 AI 기술의 획기적인 발전을 보여준다는 점에서 눈길을 끌었기에 이번 칼럼에서 세부적으로 살펴보고자 한다.

Gemini는 구글 I/O 2023에서 발표되었으며 구글의 '차세대 기반 모델'이다. Ultra, Pro, Nano의 세 가지 모델로 구성되며, 각각 다양한 수준의 작업과 애플리케이션에 맞게 맞춤화되었다.​​ Gemini Nano는 Pixel 8 Pro에 통합되어 Gemini Nano로 구동되는 AI 기능이 내장된 최초의 스마트폰이 되었다.

기능적인 측면에서 Gemini는 텍스트, 코드, 오디오, 이미지 및 비디오를 이해하고, 작동하고, 결합할 수 있는 다중 모드 모델로 설계되었다. 이는 멀티모달 접근 방식을 통해 더 나은 이해, 추론 및 코딩 기능을 사용할 수 있다. 별도의 구성 요소를 훈련한 후 함께 연결하여 생성된 이전 다중 모드 모델과 달리 Gemini는 처음부터 TPU 4 및 TPU v5e를 사용하여 다양한 모드로 사전 훈련되었다.

Gemini는 시연에서 20만 건의 과학 연구 논문을 소화·정리하고, 파이썬, 자바, C++, Go 등의 언어로 고품질 코드를 이해·설명·생성하는 능력을 입증하며 정교한 추론을 선보였다. 성능 측면에서 Gemini Ultra는 텍스트 기반 벤치마크에서 GPT-4를 능가했으며 MMLU(대량 다중 작업 언어 이해) 벤치마크에서 인간 전문가를 능가한 최초의 모델이었다. 또한 다중 모드 벤치마크에서 Gemini Ultra는 객체 문자 인식(OCR) 시스템에 의존하지 않고도 이미지, 비디오 및 오디오 테스트에서 최첨단 모델보다 성능이 뛰어났다.

아래는 Gemini Ultra와 챗gpt를 부문별로 상세히 비교해본 결과이다.

첫 번째는 문제 해결 및 추론 능력 (Problem-Solving and Reasoning Ability) 부문인데 Gemini Ultra는 MMLU (massive multitask language understanding) 벤치마크에서 인간 전문가보다 높은 성능을 보여, 90.0%의 점수를 기록했다. 이는 57가지 주제를 포함한 다양한 분야에서의 지식과 문제 해결 능력을 평가했다. 반면, GPT-4는 이 벤치마크에서 86.4%의 점수를 기록했다​​. 이러한 결과로 추론, 수학, 코딩 등의 텍스트 기반 벤치마크에서 Gemini Ultra가 GPT-4를 능가하는 것으로 확인되었다.

두 번째는 멀티모달 성능 (Multimodal Performance) 부문인데 이미지, 비디오, 오디오 테스트에서 Gemini Ultra는 GPT-4의 비주얼 버전을 능가했다. 특히, 이미지 벤치마크에서는 이전의 최고 모델보다 뛰어난 성능을 보였으며, OCR 시스템(이미지에서 텍스트를 추출하는 시스템)의 도움 없이도 높은 성능을 보였다​​.

세 번째는 안전성 및 편향 방지 (Safety and Bias Mitigation) 부문이다. 안전성 측면에서 Gemini는 구글의 AI 모델 중 가장 포괄적인 안전 평가를 받았으며, 멀티모달 능력에 대한 새로운 보호 조치가 마련되었다. 특히 편향과 독성에 대응하기 위한 조치가 강조되었다​​. ChatGPT-4도 안전성 및 편향 문제에 대해 상당한 관심을 기울이고 있지만, Gemini와 직접적인 비교 데이터에서는 나타자지 않았다.

이러한 데이터를 바탕으로 볼 때, 구글의 Gemini는 다양한 양식을 이해하고 처리하는 고급 기능을 제공하는 동시에 안전 및 편견 완화와 같은 중요한 측면을 다루는 AI 분야에서 중요한 진전을 보여주었다. 다양한 서비스와 장치에서 Gemini의 출시는 AI를 생태계에 깊이 통합하려는 구글의 노력을 강조되었다고 할 수 있다.

Gemini Pro는 구글의 챗봇인 Bard를 통해 이미 170개 국가/지역에서 업데이트되어 서비스되고 있으며 고급 추론, 계획, 작성, 콘텐츠 이해 및 요약을 제공한다. Gemini Pro가 포함된 이 Bard 버전은 여러 벤치마크에서 GPT 3.5를 능가한 것으로 알려져 있는데 내가 직접 테스트 해봐도 어느 정도 수긍이 가는 부분이다. Gemini Ultra는 새로운 Bard Advanced 제품을 통해 주로 개발자와 기업 고객을 대상으로 내년 초에 출시될 예정입니다.

향후에는 구글은 Gemini를 구글 검색, Chrome, Duet AI 및 Ads를 포함한 다양한 서비스에 통합할 계획이며 초기 테스트를 통해 SGE(검색 생성 경험) 대기 시간이 크게 감소한 것으로 나타났다​​.

결론적으로 무료 사용자의 입장에서는 챗gpt3.5 보다는 이번에 Bard에서 업그레이드된 Gemini Pro가 멀티모달 측면에서 성능이 뛰어나고고 평가될 수 있다. 즉 무료사용자라면 당분간 구글 Bard를 사용하라고 추천하고 싶다. 그리고 위에서 언급한 여러 부문에서의 테스트처럼 Gemini Ultra는 멀티모달 능력과 복잡한 추론 및 문제 해결 능력에서 ChatGPT-4를 능가하는 것으로 나타났다.

하지만, 이러한 비교는 특정 벤치마크와 시나리오에 국한된 것이므로, 실제 내년 초에 유료서비스가 시작되면 테스트에서의 성능은 사용자의 구체적인 요구와 상황에 따라 다를 게 나타 날 수도 있다. 챗gpt 또한 구글을 능가하기 위해 많은 노력을 기울일 게 충분히 예상되기 때문이다. 글로벌 인공지능 시장에서 1등을 차지하기 위한 경쟁은 차라리 전쟁이라고 표현해도 과언이 아닐 것이다.

칼럼니스트 프로필

이용호 칼럼니스트는 스마트 공장에서 주로 사용되는 ‘머신비전’ 전문회사인 ‘호연지재’를 경영하고 있으면서 다양한 분야에 관심이 많아 메타버스와 유튜브 인플루언서로 활동하고 있다. 특히 ‘머신비전’에서 인공지능 딥러닝에 의한 영상처리기술을 자주 적용하다보니 AI 분야에 대해서도 해박한 지식을 가지고 있다.

또한 SKT 메타버스 플랫폼인 이프랜드(ifland)에서 매주 월요일 오후 9시에 정기적으로 ‘호몽캠프’를 진행하고 있으며 92회 이상 진행된 밋업에는 작가, 강사, 가수, 연주가, 아티스트, 사업가 등 여러 분야의 전문가들이 초대되었고 최근에는 게스트를 초대하는 토크쇼 외에도 각 지역, 박물관, 유적지 답사 여행 등과 같은 다양한 컨텐츠로 호몽캠프를 이어가고 있다.

주요 강의 분야는 “챗gpt 시대 생활 속의 인공지능 발견하기”, “시니어와 MZ세대 간의 원활한 커뮤니케이션”, “시니어 세대 인플루언서 활동으로 인생 이모작”, “워라밸 시대 워크닉으로 행복한 인생 만들기” 등이 있으며, 저서로는 『나는 시니어 인플루언서다』가 있다.

주요기사
저작권자 © 한국강사신문 무단전재 및 재배포 금지