클로드 토큰 절약법 (컨텍 스트 윈도우, 대화 최적화, 모델 선택)

유료 플랜을 쓰는데도 한도가 빨리 찬다면, 문제는 플랜 가격이 아닐 가능성이 높습니다. 저도 한동안 그 이유를 몰랐습니다. 분명 돈 내고 쓰는데 몇 시간 만에 막혀버리고, 그때마다 "더 비싼 플랜으로 올려야 하나" 하는 생각만 했거든요. 알고 보니 문제는 사용 방식에 있었습니다.

컨텍 스트 윈 도우가 토큰을 갉아먹는 구조

클로드의 사용량은 메시지 횟수가 아닌 토큰(token) 단위로 계산됩니다. 여기서 토큰이란 텍스트를 처리하는 최소 단위로, 대략 영어 단어 하나 혹은 한국어 음절 1~2개에 해당합니다. 한국어는 받침과 조사 때문에 영어보다 더 잘게 쪼개지는 경향이 있어서, 같은 내용이라도 영어로 쓸 때보다 토큰 소모가 늘어납니다.

그런데 여기서 진짜 핵심은 따로 있습니다. 클로드는 새 메시지에 답할 때 지금까지 나눈 대화 전체를 처음부터 다시 읽습니다. 이를 컨텍 스트 윈 도우(context window)라고 하는데, 모델이 한 번에 참조할 수 있는 전체 대화 범위를 뜻합니다. 대화가 10개 쌓이면 11번째 메시지를 처리하기 위해 앞선 10개를 전부 다시 로딩하는 구조입니다.

한 해외 개발자가 직접 사용량을 분석했더니, 전체 토큰의 98%가 이전 대화를 처리하는 데 쓰이고 있었다고 합니다. 새 답변을 만드는 데 쓰인 건 고작 1~2%였습니다. 저도 이 수치를 처음 봤을 때 꽤 충격이었습니다. 제가 가볍게 한 줄 추가한다고 생각했던 그 순간, AI는 사실 위에 쌓인 대화 전체를 다시 읽고 있었던 거니까요.

대화 최적화로 낭비를 잡는 방법

이 구조를 이해하고 나서 저는 습관을 몇 가지 바꿨습니다. 가장 먼저 바꾼 건 질문 방식이었습니다. 예전에는 이런 식으로 썼습니다.

"이 글 요약해 줘."
→ 답 받으면
"부드럽게 다듬어 줘."
→ 또 받으면
"제목도 추천해 줘."

당시에는 천천히 방향을 맞춰가는 게 AI를 잘 쓰는 방법이라고 생각했습니다. 하지만 토큰 관점에서 보면 이건 같은 내용을 세 번이나 처음부터 로딩하는 구조입니다. 지금은 "이 글 요약하고, 부드러운 문체로 다듬은 다음 어울리는 제목도 세 개 추천해 줘"처럼 한 번에 묶어서 보냅니다. 토큰도 아끼고, 오히려 결과물의 일관성도 좋아졌습니다.

두 번째로 바꾼 건 답변이 이상하게 나왔을 때의 대처법입니다. 예전에는 바로 밑에 "아 그게 아니라"라고 다시 설명했는데, 그러면 엉뚱한 대화가 계속 쌓여 토큰만 낭비됩니다. 클로드의 입력창 오른쪽 아래에 있는 편집 아이콘을 누르면 원래 프롬프트(prompt)를 수정할 수 있습니다. 프롬프트란 AI에게 보내는 명령어나 질문 텍스트를 의미하는데, 이를 직접 수정하면 그 뒤에 쌓인 이상한 대화가 전부 사라지고 깔끔하게 재시작됩니다. 제가 직접 써봤는데 이것 하나만으로도 체감이 상당했습니다.

세 번째는 메시지가 10~20개 이상 쌓이면 미련 없이 새 채팅창을 여는 것입니다. 처음엔 "이러면 맥락이 다 날아가는 거 아닌가" 싶었는데, 기존 대화에서 "지금까지 정리한 내용 핵심만 뽑아 줘"라고 부탁해서 요약을 받아 새 채팅에 붙여 넣으면 맥락은 그대로 유지됩니다. 실제로 해보니 답변이 오히려 더 깔끔했습니다. 중요한 건 "많이 말한 기록"이 아니라 "정리된 맥락"이라는 걸 그때 실감했습니다.

이 세 가지를 실천한 뒤 달라진 핵심은 다음과 같습니다.

질문을 한 번에 묶어서 보내면 동일한 내용의 반복 로딩을 줄일 수 있습니다.
답변이 틀어지면 추가 메시지 대신 원래 프롬프트를 편집해서 불필요한 대화 누적을 막습니다.
대화가 길어지면 핵심 요약을 복사해 새 채팅창에 붙여 넣어 컨텍 스트 윈 도우 부담을 초기화합니다.

모델 선택이 사용량에 미치는 영향

클로드에는 하이쿠(Haiku), 소네트(Sonnet), 오퍼스(Opus) 세 가지 모델이 있습니다. 가볍고 빠른 것부터 복잡하고 강력한 순서입니다. 대부분은 기본값으로 설정된 모델을 그냥 쓰는데, 이게 생각보다 큰 낭비입니다.

LLM(대규모 언어 모델)에서 모델 크기가 클수록 동일한 작업에 소모되는 연산량, 즉 토큰 처리 비용이 늘어납니다. LLM이란 방대한 텍스트 데이터로 학습한 언어 생성 AI를 뜻하는데, 모델이 클수록 추론 단계가 많아 같은 질문에도 더 많은 자원을 씁니다. 맞춤법 검사나 간단한 번역처럼 가벼운 작업을 오퍼스로 돌리는 건 편의점 가는 데 택시 부르는 격입니다.

저는 작업 성격에 따라 이렇게 나눠 씁니다. 단순 교정이나 짧은 번역은 하이쿠, 블로그 글쓰기나 코딩 작업은 소네트, 복잡한 구조 분석이나 다단계 추론이 필요한 경우에만 오퍼스를 선택합니다. 모델 선택 하나만 바꿔도 사용량 체감이 꽤 다릅니다.

추가로, 클로드 설정의 '적응형 사고(extended thinking)' 기능도 주의가 필요합니다. 여기서 적응형 사고란 AI가 답변을 내놓기 전에 내부적으로 긴 추론 과정을 거치는 기능으로, 복잡한 문제에는 효과적이지만 그만큼 토큰 소모가 큽니다. 기본적으로는 꺼두고 꼭 필요한 작업에만 켜는 편이 낫습니다.

AI 언어 모델의 추론 비용 구조를 분석한 연구에 따르면, 동일한 출력 품질을 내더라도 모델 크기와 컨텍 스트 길이에 따라 연산 비용이 수배 이상 차이 날 수 있다고 합니다(출처: Anthropic Research).

효율이 높아질수록 드는 아이러니한 생각

솔직히 이런 내용을 처음 접했을 때 조금 씁쓸했습니다. 결국 사람이 AI를 눈치 보며 써야 한다는 이야기처럼 들렸거든요. 원래 기술은 사람을 편하게 만들려고 존재하는 건데, 어느 순간부터 "이 질문 짧게 써야 하나", "지금 새 채팅 열어야 하나" 같은 계산을 하고 있는 저 자신을 발견했습니다.

자연어 처리(NLP, Natural Language Processing) 기술이 발전하면서 AI는 사람처럼 대화할 수 있게 됐지만, NLP란 컴퓨터가 인간의 언어를 이해하고 생성하는 기술 분야를 뜻합니다. 역설적으로 오래 쓰려면 사람다운 대화를 줄여야 하는 상황이 된 겁니다. 말하다가 생각이 바뀌고, 딴 길로 새고, "아 아니다 다시 말할게" 하는 흐름이 사람에겐 너무 자연스럽지만, AI에게 그 자연스러움은 토큰 낭비입니다.

오픈 AI의 사용량 분석 보고서에서도 사용자들이 평균적으로 실제 필요 이상의 컨텍 스트를 축적한 채 대화를 이어가는 비율이 높다는 점을 지적한 바 있습니다(출처: OpenAI). 결국 AI를 잘 쓰는 능력이란 프롬프트를 잘 쓰는 수준을 넘어, 어떻게 맥락을 관리하고 어디서 대화를 끊을지까지 포함하는 개념이 됐습니다.

그럼에도 저는 가끔 일부러 비효율적으로 씁니다. 맥락 없는 농담도 던져보고, 중간에 생각이 바뀌었다고 다시 말하기도 합니다. 기술은 결국 편하려고 쓰는 건데, 너무 효율만 따지다 보면 사람 쪽이 기계처럼 변하는 느낌이 들 때가 있거든요.

사용 방식을 바꾼 뒤 가장 크게 달라진 건 하나입니다. 예전에는 오후만 되면 "오늘은 이제 끝났네" 싶었는데, 지금은 같은 플랜으로 밤까지 작업하는 날이 훨씬 많아졌습니다. 거창한 팁이 필요한 게 아니었습니다. AI를 덜 피곤하게 만드는 것, 그게 전부였습니다.

참고: https://www.youtube.com/watch?v=vgUDWBmqH7o

AI수익화