보이지 않는 경매사, 강화학습

60

발행일: 2025년 06월 28일

생성형 AI를 활용한 크리에이티브 자동화는 광고 제작의 패러다임을 바꾸고 있었다. 하지만 알렉스는 만족하지 않았다. 그는 광고의 또 다른 핵심 영역, 즉 ‘입찰(Bidding)’이야말로 AI가 진정한 힘을 발휘할 수 있는 분야라고 생각했다.

지금까지 구글의 자동 입찰 시스템은 ‘지도 학습(Supervised Learning)’ 기반의 머신러닝 모델을 사용했다. 이 모델은 과거의 방대한 데이터를 학습하여, 특정 경매 상황에서 어느 정도의 입찰가를 제시해야 가장 높은 전환 확률을 얻을 수 있는지를 ‘예측’했다. 이 방식은 충분히 효과적이었지만, 명확한 한계가 있었다.

알렉스는 팀의 AI 전문가들과 함께 새로운 가능성을 탐구하기 시작했다. 그의 시선은 체스나 바둑에서 인간 챔피언을 꺾었던 알파고(AlphaGo)의 핵심 기술, ‘강화 학습(Reinforcement Learning)’에 꽂혀 있었다.

그는 팀 회의에서 두 기술의 근본적인 차이점을 설명했다.
“지도 학습 모델은 마치 모범생과 같습니다. 과거의 기출문제를 잔뜩 풀게 해서, 비슷한 문제가 나왔을 때 정답을 잘 맞히도록 훈련시키는 거죠. 하지만 처음 보는 유형의 문제나, 정답이 없는 상황에서는 약한 모습을 보입니다.”

“반면, 강화 학습 모델은 야생에서 스스로 생존법을 터득하는 탐험가와 같습니다. 우리는 그에게 정답을 알려주지 않습니다. 대신, ‘목표(Goal)’와 ‘규칙(Rules)’, 그리고 ‘보상(Reward)’ 시스템을 설정해 줄 뿐입니다.”

그는 강화 학습을 광고 입찰에 적용하는 아이디어를 구체화했다.

  1. 환경(Environment): 프로그래머틱 광고 생태계 전체. 수많은 사용자와 광고 지면, 그리고 경쟁 DSP들이 존재하는 가상의 시장이다.
  2. 에이전트(Agent): 우리의 새로운 입찰 AI.
  3. 행동(Action): 각 경매 요청에 대해, 특정 금액으로 입찰하거나, 입찰을 포기하는 결정.
  4. 보상(Reward): 행동의 결과에 따라 주어지는 점수. 예를 들어, 낮은 가격으로 입찰하여 광고를 낙찰받고, 그 광고가 실제 구매 전환으로 이어지면 높은 플러스 점수(+100점)를 받는다. 반대로, 비싼 가격에 낙찰받았지만 아무 성과가 없으면 마이너스 점수(-50점)를 받는다.
  5. 목표(Goal): 정해진 예산 내에서, 총보상을 최대화하는 최적의 입찰 ‘전략(Policy)’을 스스로 찾아내는 것.

“이 강화 학습 에이전트는 수백만, 수억 번의 가상 경매를 0.1초 만에 시뮬레이션하며 스스로를 훈련시킬 겁니다.” 알렉스가 말했다. “처음에는 무작위로 입찰하며 계속 실패하겠죠. 하지만 시행착오를 거듭하며, 어떤 상황에서 어떤 행동을 했을 때 가장 높은 보상을 얻을 수 있는지를 스스로 학습하게 됩니다. 마치 수억 판의 포커를 두면서 자신만의 필승 전략을 터득하는 인공지능 경매사처럼요.”

이것은 기존의 예측 모델을 완전히 뛰어넘는 개념이었다. 과거 데이터를 기반으로 최적의 입찰가를 ‘계산’하는 것이 아니라, 수많은 가능성을 탐색하며 최적의 입찰 ‘전략’을 스스로 ‘발견’하는 방식이었다. 이 AI는 경쟁자들의 입찰 패턴 변화나 시장 상황의 급변에 훨씬 더 유연하고 능동적으로 대처할 수 있을 터였다.

팀의 최고 AI 엔지니어인 에밀리가 프로젝트의 리드를 맡았다. 그녀는 이 ‘보이지 않는 경매사’를 훈련시키기 위한 거대한 가상 환경을 구축하고, 정교한 보상 함수를 설계하는 작업에 착수했다.

알렉스는 이 프로젝트를 지켜보며, AI 기술의 진정한 힘을 다시 한번 실감했다. 인간이 정의한 규칙을 따르는 단계를 넘어, 이제 AI는 인간이 미처 생각하지 못한 최적의 해법을 스스로 찾아내는 파트너이자 경쟁자가 되고 있었다.

그는 시스템의 아키텍처 다이어그램을 수정했다. ‘자동 입찰 모델’이라는 상자 옆에, ‘강화 학습 기반 입찰 에이전트’라는 새로운 상자를 추가했다. 그것은 단순한 기능 추가가 아니었다. 광고 시스템의 ‘두뇌’가 한 세대 더 진화했음을 의미하는 상징적인 변화였다.

이 보이지 않는 경매사는 앞으로 수십억 달러의 광고비가 어떻게 쓰일지를 결정하는, 광고 생태계의 가장 강력한 권력자가 될 준비를 하고 있었다.