에이전트가 자기 작업을 칭찬하는 버릇을 고치는 방법

멀티 에이전트를 한 번이라도 직접 돌려본 사람이면 이 장면을 안다. 에이전트 A 가 코드를 쓰고, 에이전트 B 가 평가한다. B 는 A 의 쌍둥이다 (같은 모델, 같은 시스템 프롬프트 변형 수준). 결과물은 거의 항상 통과다. 모두가 열심히 일한 것처럼 보이지만, 실제로 품질이 올라갔냐고 하면 대답이 궁색해진다.

영상은 Anthropic 이 공개한 "3단계 하네스 설계법" 을 정리한다. 나한테 제일 쓸모 있었던 건 실패 패턴을 명시적으로 이름 붙인 부분이었다.

두 가지 실패 패턴

컨텍스트 불안 (context drift) — 긴 작업이 이어질수록 에이전트가 초기 목표를 흐리게 기억한다. 스무 번째 턴쯤 되면 "원래 뭐 하려고 했지?" 가 슬쩍 들어온다.
자가 평가의 자화자찬 — 생성자와 평가자가 같은 모델이면 평가가 느슨해진다. 사람도 똑같다. 내가 쓴 코드 내가 리뷰하면 관대해진다.

두 번째가 특히 와닿았다. 내가 Cursor 에서 "이 함수 리팩토링하고 검증해줘" 식으로 한 에이전트에게 맡길 때, 검증 단계가 형식적으로 돌아가는 걸 여러 번 봤다.

GAN 으로 풀기

해결책은 이름을 빌려왔다. 생성적 적대 신경망(GAN) 의 구조 — 생성자와 평가자를 진짜로 분리하고, 평가자를 의도적으로 더 비판적으로 튜닝한다.

평가 기준도 구체적이다. 프론트엔드 과제 기준으로 네 축.

Quality — 디자인·코드의 완성도
Originality — 뻔한 템플릿 복제가 아닌가
Craft — 디테일이 살아있는가
Functionality — 실제로 동작하는가

생성자가 HTML/CSS/JS 로 한 번 만들면, 평가자가 이 네 축으로 점수와 피드백을 준다. 최대 15회 반복. 네덜란드 미술관 웹사이트 사례에서 9번째에서 기본 다크테마 완성, 10번째에서 "이전 9회 경로 전부 버리고 새로운 접근" 이 나왔다는 대목이 흥미로웠다. 반복 안에서 창의적 도약이 일어나려면, 평가자가 '지금까지 경로를 뒤집어도 된다' 는 신호를 줄 수 있어야 한다.

나한테 쓸만한가

1인 기업 관점에서 에이전트 두 마리를 평행으로 돌리는 건 비용이 두 배다. 근데 품질이 올라가는 게 측정 가능하다면 두 배 비용은 오히려 싸다. 내 시간 한 시간 vs Claude API $2 는 비교가 안 된다.

내 블로그 자동 생성 파이프라인에 이걸 얹으면:

생성자 — MyThought 를 받아 persona 톤 초안 작성 (Sonnet)
평가자 — 초안을 받아 "AI 티 나는 구조 / 템플릿 냄새 / 원본성 부족" 을 체크 (Opus 가 적합. 더 비판적)
점수가 기준 미달이면 피드백을 생성자에게 돌려 재작성. 최대 3회.

평가자 쪽 시스템 프롬프트는 과하게 비판적으로 튜닝해야 한다. "이 글이 블로그 첫 방문자에게 원본 가치 없이 느껴진다면 bounce rate 가 80% 가 될 것" 같은 구체적 손실 시나리오를 심어주면 좋겠다.

다음에 시도할 것

현재 persona 프롬프트 한 번 호출로 끝나는 파이프라인을 생성자→평가자→재생성 2단으로 바꾼다.
평가자의 "기각" 출력을 Notion 의 ErrorMessage 필드에 남겨서, 어떤 글이 왜 기각됐는지 일주일치 로그를 본다.
평가 비용이 전체 생성 비용의 30% 를 넘으면 평가자를 Haiku 로 다운그레이드해서 다시 측정.

멀티 에이전트라고 해서 에이전트를 많이 두는 게 아니다. 적당히 나눈 역할을 얼마나 잘 반목시키느냐 다. 오늘 영상에서 가져가는 한 줄.