“ 매주 목요일마다 당신이 항상 하던대로 신발끈을 묶으면 신발이 폭발한다고 생각해보라.
컴퓨터를 사용할 때는 이런 일이 항상 일어나는데도 아무도 불평할 생각을 안 한다. ”- Jef Raskin
맥의 아버지 - 애플컴퓨터의 매킨토시 프로젝트를 주도
개발자와 일반인 모두 즐길 수 있었던 행사
가능성이 일상이 될 때, if(kakao)25에서 본 AI
지난 9월 24일, 경기도 용인시에 위치한 카카오 AI캠퍼스에서 개최된 if(kakao)25 컨퍼런스에 다녀왔습니다. 올해로 7회를 맞이한 이프카카오는 카카오 그룹의 기술 비전과 성과를 공유하는 연례행사입니다. 가능성, 일상이 되다라는 슬로건 아래 인공지능 기술의 대중화를 목표로 다양한 세션과 발표가 진행되었습니다. 개발자뿐 아니라 다양한 업계 관계자들이 한자리에 모여 카카오의 AI 신기술과 서비스를 직접 체험할 수 있었던 자리였습니다.
이번 글에서는 지방에서 참가한 저의 이동 여정부터 현장 분위기, 그리고 각 세션에서 다뤄진 주요 기술 내용을 정리해 공유드립니다. 특히 카카오의 차세대 AI 모델인 카나나 시리즈, 에이전트, 온디바이스 AI최적화 등 개발자분들이 관심 가질만한 부분을 중심으로 보완설명을 덧붙였습니다.
목차
if(KAKAO)25
울산에서 서울로
행사가 평일 이른 아침 시작이라 전날 퇴근 후 곧바로 울산에서 서울로 이동을 했습니다. 9월 23일 퇴근 후 울산역에서 SRT를 타고 수서역에 도착 수인분당선과 2호선을 환승해 강남역 인근 숙소에 도착을 하여 다음 날 컨퍼런스에 대한 기대감을 갖고 잠에 들었습니다.
당일 아침, 셔틀 탑승과 입장
9월 24일 아침 7시에 일어나 준비를 마쳤고 8시 10분쯤 강남역 5번 출구에 도착을 했습니다. 셔틀 탑스안내 피켓을 든 진행요원을 따라 QR코드로 탑승 확인을 했고 8시 30분 정시에 셔틀이 출발했습니다. 약 한 시간 후 용인 수지구에 위치한 카카오 AI캠퍼스에 도착을 했고 간단히 초대권 확인을 마치고 웰컴 키트를 수령했습니다. 본 행사장으로 이동을 하니 직원분들의 박수 환대가 이어졌고 극I였던 저로써는 잠시동안 공포의 시간이였고 일찍 도착하여 거의 맨 앞줄에 착석을 할 수 있었습니다. 그 이후 참가하는 분들도 많이 들어왔습니다.
오전 키노트 세션
오전에는 공통 키노트가 진행되었습니다, 기술적 핵심만 간단히 정리합니다.
PlayMCP - AI 서비스 생태계의 출발점
모델과 서비스, 즉 에이전트가 외부 기능을 안전하게 호출하도록 연결하는 표준 프로토콜과 마켓·플레이그라운드 개념이 소개되었습니다. 세부적으로는 툴 등록과 권한 범위 선언, 컨텍스트 교환 형식, 호출 정책, 실행 기록 추적 같은 운영 포인트가 강조되었습니다. 개발자 관점에서 느낀 핵심은 두 가지였습니다. 첫째, 에이전트가 호출할 수 있는 기능을 능력 단위로 캡슐화해 상호 운용성을 높였다는 점. 둘째, 인증·과금·레이트리밋 같은 운영 레일이 프로토콜 레벨에서 고려되어 실서비스로 전환하기 쉽다는 점입니다.
Agentic AI를 향한 카나나 모델의 진화
단순 응답형을 넘어 관찰(멀티모달 인지)-계획(체인·그래프 기반 플래닝)-행동(툴 실행) 루프를 붙이는 방향이 제시되었습니다. 프롬프트 기반 플래너와 경량 정책 모듈을 조합해 시나리오별 플로우를 안정적으로 재현하는 전략이 인상적이었습니다.
안전한 AI를 위한 카카오의 노력
안전·품질 조직이 독립적으로 가드레일을 설계하고, 금칙행동 정의, PII 필터링, 심리·정치·의학 등 고위험 도메인에서의 방어 정책, 레드팀 라운드(모의 공격)와 휴리스틱·규칙·모델 앙상블을 결합한 검증 파이프라인을 운영한다는 점이 공유되었습니다.
Kakao Re-engineering: AI-Native 전환
데이터 플랫폼-모델 플랫폼-서빙 플랫폼을 수평 결합하고, 릴리즈·모니터링·세이프티 리뷰를 ML 파이프라인에 통합하는 전사 아키텍처 전환이 소개되었습니다. 특히 실험 관리와 재현성, 피드백 루프 자동화가 강조되었습니다.
[오전 세션 전체 : 다시보기]
점심과 체험존
점심 도시락은 치킨, 유부초밥, 과일로 구성이 되어있었고 스타벅스 음료와 생수가 넉넉했습니다. 체험존에서는 카나나 계열 모델과 다양한 데모를 직접 사용을 할 수 있었고 스티커를 모아 럭키드로우에 응모하는 이벤트가 진행되었습니다. 즐겁게 돌아다녔지만 아쉽게 경품은 뱃지와 체험권을 받아 조금은 실망은 했지만 체험은 재미있었습니다.
오후 기술 세션
LLM은 있지만 다시 학습하고 싶어 - Kanana-2 개발기
Kanana-2는 프리트레이닝 스케일과 데이터 구성을 재설계해 범용성과 실서비스 적합성을 동시에 노립니다. 코드와 수학 비중을 크게 늘렸고, 데이터 중복 제거·라이선스 정합성·오류 주입 방지 규칙을 고도화해 텍스트 품질을 개선했습니다. 모델 구조는 Mixture of Experts로 전환해 토큰당 활성화되는 이 전문가 수를 조절하며 연산 효율을 높였습니다. 라우터 손실과 부하균형 패널티로 전문가 쏠림을 방지하고, 토큰 라우팅 로그를 분석해 비정상 라우팅을 조기에 탐지하는 운영 팁도 공유되었습니다. 컨텍스트 확장은 MLA류 기법과 RoPE 스케일 전략을 병행했고, 사후 정렬 단계에서는 지시 따르기, 함의·추론, 함수호출, 안전 정책 따르기 등 다축 학습을 별도로 돌린 뒤 점진적으로 합치는 하이브리드 레시피가 소개되었습니다. 중요한 메시지는 성능 숫자만이 아니라 회귀 방지와 안정 추론, 호환성 같은 사용자 체감 지표를 동등하게 관리하는 개발 문화였습니다.
데이터는 없지만 LLM은 학습하고 싶어 - Code/Math 데이터 개발기
대규모 고품질 데이터의 병목을 해결한 방법이 인상적이었습니다. 코드 쪽은 리포지토리 건강도 지표(스타, 최근 커밋, CI 상태), 라이선스, 중복률, 실행 성공률로 필터링하고, 파서 기반 토큰화·AST 정규화·주석 노이즈 처리로 학습 친화도를 올렸습니다. 수학 쪽은 OCR 파이프라인에 수식 렌더 복구, 표 구조 복원, 레이아웃 프롬프트 힌트 삽입을 추가해 망가진 수식을 되살렸습니다. 약지도(weak supervision)는 규칙·LLM 보조 라벨러·휴리스틱을 섞어 품질을 끌어올렸고, 샘플 난이도 스코어로 커리큘럼을 구성해 초반에는 기초, 후반에는 복합 추론·증명류를 강화했습니다. 이런 데이터 공학 덕분에 코드 생성·테스트 통과율, 수학 태스크의 연쇄추론 안정성이 체감적으로 향상되었다는 점이 설득력 있었습니다.
LLM은 있지만 컨텍스트가 짧아 - Long Context 실전 적용기
여기서는 윈도 크기 숫자보다 운영 노하우가 핵심이었습니다. 포지셔널 임베딩은 RoPE 스케일링, YaRN/LongRoPE 계열 변형을 태스크별로 A/B했고, 긴 맥락에서 앞·뒤 정보 편향을 줄이기 위해 섹션 앵커 토큰과 헤더 힌트를 넣어 검색 부담을 낮췄습니다. 모델을 건드리지 않는 방법으로는 검색 강화(RAG)와 계층 요약을 조합해 비용을 통제했고, 생성 단계에서는 plan-then-answer 전략과 끊김 없는 스트리밍을 적용했습니다. 평가도 단순 F1이 아니라 위치 민감도(정답 위치 오프셋), 기억 지속성, 긴 대화 drift 여부, 실사용 로그 재현률까지 포함해 다면적으로 봤다는 점이 좋았습니다. 결론은 롱컨은 모델·프롬프트·인덱싱·평가를 하나의 세트로 운영해야 실무에 녹아든다는 것이었습니다.
눈으로 보고, 귀로 듣고, 입으로 말하는 AI - 통합 멀티모달 언어모델 Kanana-o
Kanana-o는 비전 인코더와 오디오 인코더를 언어모델에 적절한 어댑터를 통해 연결한 후, 멀티모달 지시튜닝과 선호정렬을 거쳐 완성된 통합 모델입니다. 이미지 쪽은 문서·UI·차트 같은 구조화 시각물에 강점이 보였고, 오디오 쪽은 스트리밍 ASR과 감정 포함 TTS, 턴테이킹 제어(VAD/바이브 모니터링)로 대화 자연스러움을 끌어올렸습니다. 데모에서 감정 음성 합성, 팟캐스트 스타일 대화 생성, 실시간 통역이 매끄럽게 돌아갔고, 한국어 멀티모달 태스크에서 강한 모습을 보였습니다. 실무 관점의 포인트는 입력 동기화와 지연 관리였습니다. 프레임 드롭 시 보수적 응답으로 전환, 비동기 모달의 타임스탬프 정합, 오디오-텍스트 상호검증으로 오류 전파를 줄이는 운영 팁이 유용했습니다.
화면을 이해하고 행동하는 AI - GUI Agent 개발기
GUI Agent는 스크린샷·태스크 목표·액션 히스토리를 입력으로 받아, VLM이 UI 요소를 인지하고, 액션 파서가 click/type/drag/submit 같은 원자 행위를 생성하며, 실행기가 실제 브라우저나 앱을 조작하는 구조였습니다. 한국어 웹 데이터 부족을 자동 생성과 수작업 로그 수집으로 메웠고, 좌표 체계는 해상도 의존을 줄이기 위해 상대 좌표와 텍스트 앵커 바인딩을 병행했습니다. Heatmap 기반 손실로 정답 주변 허용 오차를 주어 실제 클릭 성공률을 끌어올린 점, 실패 로그를 원인별로 분류해 데이터 재주입 루프를 돌린 점이 눈에 띄었습니다. 벤치마크 시나리오는 예약·결제·민원·검색 중심으로 구성되어 현실성이 있었고, 프롬프트와 정책의 결합으로 계획 오류를 줄이는 방식이 효과적이었습니다.
카카오톡 AI 에이전트를 위한 온디바이스 모델 최적화 및 적용
온디바이스는 개인정보 보호, 지연·비용 절감을 위해 필연적인 선택이었습니다. 모델은 1-3B급 소형 모델을 기본으로 하고, 4/8비트 양자화로 메모리 발자국을 줄였습니다. iOS에서는 MLX와 CoreML을 혼용하고, GPU와 ANE를 태스크 특성에 따라 스위칭했습니다. 초기 컴파일 지연을 줄이기 위한 캐시 전략, KV 캐시 조각화 방지, 토크나이저 병렬화와 스트리밍 출력이 실사용 체감에 크게 기여했습니다. 전력·발열 대응으로는 토큰 초당 목표치에 맞춘 다이내믹 디코딩(탑K/탑P/온도)을 적용했고, 휴면 복귀 시 빠른 컨텍스트 재주입을 위한 메모리 맵핑을 사용했습니다. 중요한 교훈은 큰 모델의 과도한 압축보다 설계 단계에서 작은 모델을 제대로 선택·튜닝하는 쪽이 최적의 사용자 경험을 준다는 점이었습니다.
행사종료 및 귀경
모든 일정이 끝난 뒤 오전 하차 지점에서 강남역행 셔틀을 탔습니다. 퇴근 시간 정체로 오전보다 두배 이상 걸렸고 비도 내려 근처 국수집에서 간단히 저녁을 해결했습니다. 이 후 2호선과 수인분당선으로 환승해 수서역으로 이동했고 SRT를 탑승하여 울산을 내려와 하루를 마무리했습니다. 장거리 일정이라 피곤했지만 머릿 속은 새로운 아이디어로 가득했습니다.
마무리
if(kakao)25는 기술 쇼케이스를 넘어 실서비스에 AI를 녹여내는 운영 지혜를 배울 수 있는 자리였습니다. 데이터 엔지니어링, 모델 구조, 정렬, 롱컨 운영, 멀티모달 통합, GUI 에이전트, 온디바이스 최적화까지 전 과정을 한번에 조망할 수 있었습니다. 무엇보다도 각 팀이 성능 수치만이 아닌 회귀 방지, 안정성, 지연 비용, 안전같은 현실 지표를 동등하게 관리한다는 점이 크게 와 닿았습니다. 개발자로써 현업에 바로 가져다 쓸 수 있는 힌트를 많이 얻었습니다. 내년에도 기회가 된다면 다시 참여하고 싶습니다.
(카카오톡 업데이트로 많은 이야기가 있어서 업데이트를 일부러 해봤습니다. 아직 적응이 안된 것때문에 불편한 것인지.. UI가 메신저가 아닌 인스타그램화 되어있는 것이 불편하고 왜 숏폼을 메신저에서 봐야하는지 이해도 안되는데... 여러분은 사용하실만한가요?)