구글이 또 일냈습니다, 제미나이 3.5 라이브 번역 전격 공개

Q: 파파고나 딥엘과 비교했을 때 어떤 점이 가장 다른가요?

가장 큰 차이는 대화의 흐름입니다. 파파고·딥엘은 한 문장씩 끊어 처리하는 방식이라 정확도는 높지만 실시간 대화에는 답답함이 있습니다. 제미나이 3.5 라이브 번역은 말하는 도중에 번역이 흘러나오는 스트리밍 방식이라 자연스러운 대화가 가능합니다. 다만 문서·이메일·사진 번역은 기존 도구가 여전히 더 편리할 수 있습니다.

며칠 전 뉴스를 보다가 손이 멈췄습니다. 제미나이 3.5 라이브 번역이라는 단어가 눈에 들어왔는데, 처음엔 또 하나의 번역 앱이 나왔나 싶었습니다. 그런데 영상을 몇 개 보고 나니 생각이 좀 바뀌더군요. 말을 끝까지 듣고 번역하던 시대가, 정말로 끝나가고 있다는 느낌이 들었습니다.

이번 글은 단순한 발표 소식 정리가 아닙니다. 제미나이 3.5 라이브 번역이 무엇인지, 그리고 우리가 평소 쓰던 파파고나 딥엘 같은 기존 번역기와 어떻게 다른지 차근차근 비교해 드리겠습니다. 본인 상황에 어떤 도구가 맞을지, 끝까지 읽고 직접 판단해 보시면 됩니다.

제미나이 3.5 라이브 번역이란

처음 들었을 때 저도 그냥 새 버전이려니 했습니다. 그런데 자료를 들춰보니 이건 단순한 업그레이드가 아니더군요.

제미나이 3.5 라이브 번역(Gemini 3.5 Live Translate)은 구글 딥마인드가 2026년 6월 공개한 음성 대 음성(speech-to-speech) 실시간 번역 모델입니다. 기존 번역기들은 한 사람이 말을 마치면 그제서야 번역을 시작하는 '턴제' 방식이었습니다. 그런데 이 모델은 화자가 말하는 도중에 이미 스트리밍으로 번역을 내보냅니다. 회의 통역사가 옆에서 동시통역하는 모습, 그걸 AI가 흉내내기 시작한 셈입니다.

핵심을 카드로 정리하면 이렇습니다.

음성 대 음성 직접 변환

중간에 텍스트 단계를 거치지 않고 음성에서 곧장 음성으로 변환합니다. 화자의 말투와 톤까지 함께 살아납니다.

70개 이상 언어 지원

한국어를 포함한 70여 개 언어를 지원하며, 약 2,000개 언어 쌍 사이의 번역이 가능합니다.

자동 언어 감지

언어를 미리 설정하지 않아도 대화 중 사용되는 언어를 자동으로 인식합니다. 다국어가 뒤섞이는 환경에서도 작동합니다.

저지연 스트리밍

화자보다 몇 초 뒤처지는 정도로 번역이 흘러나옵니다. 실제 동시통역사와 비슷한 속도감입니다.

결국 핵심은 하나입니다. '말이 끝나길 기다리지 않는다'는 점이죠. 이 작은 차이가 사용 경험을 어떻게 바꾸는지는 뒤에서 차차 보여드리겠습니다.

기존 번역기의 한계

제 경우 해외 출장이 잡히면 늘 번역 앱부터 깔았습니다. 그런데 막상 현장에서 쓰면 어딘가 어색했습니다. 왜 그랬는지, 이제 와서 정리가 됩니다.

우리가 익숙한 파파고, 딥엘(DeepL), 구글 번역의 음성 모드는 대부분 '턴제' 구조입니다. 한 사람이 말을 마치고 버튼을 누르거나 잠시 멈추면, 그 구간의 음성을 텍스트로 바꾼 뒤 다시 번역하고, 마지막에 음성으로 출력합니다. 이 과정이 보통 3초에서 7초 정도 걸립니다. 한 마디씩 끊어 말해야 하니, 자연스러운 대화는 사실상 어렵죠.

또 하나의 한계는 '톤이 사라지는' 문제였습니다. 말은 단어만으로 전달되는 게 아닙니다. 빠르게 말하면 다급함이, 느리게 말하면 신중함이 묻어납니다. 그런데 텍스트 단계를 거치면서 이 모든 게 평평해집니다. 화자가 누구든 결국 비슷한 AI 목소리로 또박또박 읽어주는 결과물이 나오게 됩니다. 외국인 친구와 농담을 주고받기엔 분위기가 영 안 살더군요.

주의

기존 번역 앱이 못쓸 수준이라는 뜻은 아닙니다. 짧은 문장이나 문서 번역, 메뉴판 사진 번역 같은 상황에서는 여전히 빠르고 편합니다. 다만 '실시간 대화'라는 영역에서 한계가 있었다는 이야기입니다.

기존 번역기의 어떤 부분이 답답했는지를 떠올려 보시면, 새 모델의 가치가 더 잘 보입니다.

두 방식 정면 비교

말로 풀어보면 와닿지 않을 수 있어, 표 한 장으로 정리해 봤습니다. 기존 음성 번역 방식과 제미나이 3.5 라이브 번역이 어떻게 다른지 한눈에 보입니다.

비교 항목	기존 음성 번역	제미나이 3.5 라이브 번역
번역 방식	턴제(말 끝난 후 일괄 처리)	스트리밍(말 도중 동시 번역)
중간 변환	음성 → 텍스트 → 번역 → 음성	음성 → 음성 직접 변환
지연시간	약 3~7초	화자보다 몇 초 뒤따라가는 수준
화자 톤 보존	대부분 사라짐	억양·속도·음높이 일부 보존
다국어 자동 인식	언어 사전 설정 필요	자동 감지·전환
자연 대화 적합도	낮음	상대적으로 높음

표만 봐도 차이가 명확합니다. 다만 한 가지 짚고 갈 점은, 실시간 스트리밍 번역이라 해도 100% 완벽하진 않다는 사실입니다. 빠르게 쏟아내는 대화나 전문 용어, 사투리에선 여전히 오역이 나옵니다. 그래도 '대화를 끊지 않고 이어갈 수 있다'는 점만으로도, 사용자 입장에선 큰 진전입니다.

기존 번역기 장단점

새 기술이 나왔다고 기존 도구를 다 버릴 필요는 없습니다. 어쩌면 더 잘 어울리는 자리가 따로 있을지도 모르거든요.

파파고와 딥엘, 그리고 기존 구글 번역 음성 모드의 장점을 솔직히 정리하면 이렇습니다. 우선 오프라인 사용이 가능합니다. 미리 언어팩을 받아두면 비행기 안이나 데이터가 안 터지는 지역에서도 동작합니다. 그리고 텍스트나 사진, 문서 번역에선 여전히 강합니다. 메뉴판을 카메라로 비추거나, 긴 이메일을 통째로 붙여넣고 한 번에 번역받는 작업은 이쪽이 훨씬 깔끔합니다.

단점은 앞서 말씀드린 대화의 부자연스러움입니다. 한 마디씩 끊어 말하다 보면 분위기가 어색해지고, 상대방이 길게 설명할 땐 중간에 끊을 수가 없어 답답합니다. 또 화자가 두 명 이상일 때 '누가 무슨 말을 했는지' 구분하는 기능이 약한 앱도 많습니다. 회의나 다자 대화 상황에선 한계가 분명했습니다.

구분	기존 번역기의 강점이 살아나는 상황
짧은 문장·단어	메뉴판, 표지판, 단어 검색
긴 문서	이메일, 계약서 초안, 논문 초록
오프라인 환경	기내, 산간 지역, 데이터 절약
사진 번역	간판, 안내문, 약 설명서

그러니 기존 번역기를 지우실 필요는 없습니다. 본인의 사용 상황을 한 번 떠올려 보시면 됩니다.

제미나이 라이브 장단점

반대로 새 모델 쪽도 마냥 좋기만 한 건 아닙니다. 빛이 있으면 그림자도 있는 법이니까요.

강점부터 짚으면, 대화의 흐름이 살아납니다. 발표 자료에 따르면 화자의 억양·속도·음높이를 어느 정도 보존하기 때문에, 단순히 단어만 옮겨지는 게 아니라 분위기까지 함께 전달됩니다. 회의 통역, 외국 친구와의 영상 통화, 해외 셀러와의 협상처럼 '끊김 없는 대화'가 중요한 상황에서 차이가 큽니다. 다국어가 뒤섞이는 환경에서도 언어를 자동으로 감지하니, 영어로 시작했다가 일본어가 끼어들어도 따라옵니다.

반면 약점도 있습니다. 첫째, 온라인 연결이 필수입니다. 클라우드 모델이라 네트워크가 끊기면 작동이 멈춥니다. 둘째, 현재는 Gemini API의 퍼블릭 프리뷰 단계로 공개되어 있어, 일반 사용자가 곧장 누르기엔 진입 장벽이 조금 있습니다. 구글은 이 기술을 구글 번역 앱의 라이브 번역 기능에도 단계적으로 적용한다고 밝혔는데, 한국 지역의 전면 적용 시점은 점차 확대되고 있는 상황입니다. 셋째, 빠른 발화·전문 용어·심한 사투리에선 여전히 오역이 발생할 수 있습니다.

TIP

중요한 자리에선 새 모델 하나만 믿지 마시고, 텍스트 번역 앱을 보조로 켜두시기 바랍니다. 들은 내용을 다시 한번 글로 확인하면 오해를 줄일 수 있습니다.

새 도구가 좋아도, 보조 도구를 함께 활용하시는 게 안전합니다.

상황별 추천 조합

결국 좋은 도구는 '내 상황에 맞는 도구'입니다. 제가 정리해 본 추천 조합은 이렇습니다.

해외여행자

주력은 제미나이 라이브 번역, 보조는 파파고 오프라인 팩. 식당 대화는 라이브로, 메뉴판 사진은 기존 앱으로 분담합니다.

화상회의·통역

라이브 번역을 메인으로 쓰되, 중요한 숫자나 고유명사는 채팅창에 텍스트로 다시 확인하는 습관을 들이시기 바랍니다.

문서·이메일 번역

딥엘이나 구글 번역 텍스트 모드가 여전히 강합니다. 라이브 번역은 '말'에 특화되어 있다는 점을 기억하시면 됩니다.

데이터·오프라인 환경

파파고 오프라인 팩이 우선입니다. 라이브 번역은 클라우드 기반이라 네트워크가 약하면 답답합니다.

한 가지만 더 말씀드리면, 새 모델이 나왔다고 해서 단번에 모든 걸 갈아엎으실 필요는 없습니다. 3개월에 한 번씩 본인 사용 패턴을 점검해 보면서 자연스럽게 도구를 바꿔가시는 편이 마음도 편하고 비용도 덜 듭니다. 보다 자세한 모델 사양은 구글 딥마인드의 모델 카드에서 직접 확인하실 수 있습니다.

본인 일과 중 번역이 가장 자주 쓰이는 장면을 떠올려 보시는 것입니다.

핵심 요점 정리

길게 풀었지만, 결국 짚어둘 핵심은 몇 가지로 압축됩니다. 아래 정리만 머릿속에 담아두셔도 다음번 대화에서 한 발 앞서 가실 수 있습니다.

제미나이 3.5 라이브 번역 핵심 요점

음성 대 음성 직접 변환, 중간 텍스트 단계가 사라졌습니다.
70여 개 언어, 2,000여 개 언어 쌍을 지원하며 한국어 포함입니다.
화자의 억양·속도·음높이를 어느 정도 보존해 자연스러운 대화가 가능합니다.
스트리밍 방식으로 화자보다 몇 초 뒤따라가는 저지연이 핵심입니다.
대화·통역에 강하고, 문서·오프라인은 기존 번역기가 여전히 유리합니다.
현재 Gemini API 퍼블릭 프리뷰로 공개, 구글 번역 앱에 단계적 적용 중입니다.

자주 묻는 질문

Q. 제미나이 3.5 라이브 번역은 한국어도 지원하나요?

A. 네, 한국어는 지원 언어 70여 개 중 하나로 포함됩니다. 한국어에서 다른 언어로, 또 다른 언어에서 한국어로 양방향 번역이 가능합니다. 다만 언어별 품질 차이는 있어서, 영어·일본어·중국어 같은 사용량이 많은 언어에서 더 안정적인 결과를 보이는 편입니다.

Q. 무료로 사용할 수 있나요?

A. 현재 모델 자체는 Gemini API의 퍼블릭 프리뷰로 공개되어 있어 개발자가 일정 한도 내에서 시험해 볼 수 있습니다. 일반 사용자를 위한 진입점은 구글 번역 앱의 라이브 번역 기능을 통해 점차 확대 적용되고 있습니다. 사용 가능 여부와 무료·유료 범위는 거주 국가, 계정, 앱 버전에 따라 달라질 수 있어 구글 공식 안내를 확인하시는 게 정확합니다.

Q. 파파고나 딥엘과 비교했을 때 어떤 점이 가장 다른가요?

A. 가장 큰 차이는 '대화의 흐름'입니다. 파파고·딥엘은 한 문장씩 끊어 처리하는 방식이라 정확도는 높지만 실시간 대화에는 답답함이 있습니다. 제미나이 3.5 라이브 번역은 말하는 도중에 번역이 흘러나오는 스트리밍 방식이라 자연스러운 대화가 가능합니다. 다만 문서·이메일·사진 번역은 기존 도구가 여전히 더 편리할 수 있습니다.

Q. 지연시간(레이턴시)은 어느 정도인가요?

A. 구글 발표에 따르면 화자가 말하는 동안 거의 동시에 번역이 시작되어, 몇 초 정도 뒤따라가는 수준이라고 합니다. 기존 턴제 방식이 발화 종료 후 3~7초가 걸렸던 것과 비교하면 체감 속도 차이가 큽니다. 네트워크 상태와 발화 속도에 따라 다소 달라질 수 있는 점은 감안하셔야 합니다.

Q. 오프라인에서도 쓸 수 있나요?

A. 기본적으로 클라우드 기반 모델이라 안정적인 인터넷 연결이 필요합니다. 비행기나 데이터가 약한 지역에서는 작동이 어려울 수 있으며, 이런 상황에선 오프라인 언어팩을 지원하는 기존 번역 앱(파파고, 구글 번역의 오프라인 모드 등)을 함께 두시는 편이 안전합니다.

결국 제미나이 3.5 라이브 번역은 한 번에 모든 걸 바꾸는 마법 도구는 아닙니다. 다만 '말이 끝나길 기다리는' 시대를 닫고, 사람과 사람 사이의 대화를 한 박자 더 자연스럽게 이어줄 다리가 놓인 건 확실해 보입니다. 처음이 어색해도 두세 번 써보면 금세 익숙해질 겁니다. 이 글이 그 첫 시도에 조금이나마 보탬이 됐으면 합니다.

본 글은 정보 제공 및 사용 경험 공유를 목적으로 작성되었으며, 제품·서비스의 사양과 가격은 변경될 수 있습니다.
개인 사용 환경·기기·버전에 따라 실제 결과가 다를 수 있으므로 구매·적용 전 공식 사이트를 확인하세요.
본 글은 특정 브랜드나 제품의 광고·협찬 없이 작성된 독립적인 리뷰입니다.