Anthropic Computer Use · 조사 리포트

Claude가 화면을 보고
마우스와 키보드로
일하게 만드는 API

Computer Use는 Claude에게 “앱별 전용 API”를 주는 것이 아니라, 사람이 쓰는 일반 컴퓨터 화면을 보고 클릭·입력·스크롤하게 만드는 클라이언트 실행형 도구다. 강력하지만 아직 베타이고, 느림·좌표 오류·프롬프트 인젝션 리스크를 전제로 설계해야 한다.

최종 확인: 2026-05-10 18:35 KST 주요 출처: Anthropic Docs / Blog / Quickstarts 형식: 한국어 HTML 리포트

1. 한 화면 요약

정의

UI를 쓰는 Claude

스크린샷을 보고 좌표 기반 마우스·키보드 액션을 요청한다. 실행은 개발자 앱/컨테이너가 한다.

상태

Beta

공식 문서 기준 Computer Use는 베타이며 `anthropic-beta` 헤더가 필요하다.

강점

API 없는 업무

웹앱·데스크톱·레거시 UI처럼 구조화 API가 없거나 부족한 환경에서 유용하다.

주의

사람 검수 필수

민감 계정, 결제, 약관 동의, 외부 발송, 법적 효과가 있는 작업은 human-in-the-loop가 필요하다.

요약 결론

Computer Use는 “모델이 컴퓨터를 직접 소유한다”가 아니라, 모델이 ‘이 화면에서 이렇게 행동해줘’라고 요청하고, 우리가 만든 샌드박스가 대신 실행하는 구조다. 따라서 핵심 역량은 모델보다도 격리 환경·에이전트 루프·검증·권한 설계에 있다.

2. 작동 구조 — agent loop

필요 구성요소

가상 디스플레이(Xvfb 등), 데스크톱 환경(Mutter/Tint2 등), 브라우저/앱, 도구 구현체, Claude API와 연결되는 agent loop.

Reference implementation

Anthropic quickstarts의 Docker 데모는 Streamlit UI, VNC/브라우저 보기, Claude API·Bedrock·Vertex 연결, tool implementations를 포함한다.

3. API와 도구 핵심

Computer tool

타입: `computer_20251124` 또는 `computer_20250124`
필수: `name`, `display_width_px`, `display_height_px`
옵션: `display_number`, `enable_zoom`

Bash tool

타입: `bash_20250124`
지속 bash 세션을 통해 명령 실행·스크립팅·파일 처리 가능. Computer Use와 같이 쓰면 GUI+CLI 자동화가 된다.

Text editor tool

타입: `text_editor_20250728` 등
파일 보기·생성·문자열 치환·삽입을 담당. 최신 계열은 `str_replace_based_edit_tool` 이름을 쓴다.

지원 액션

버전/영역
기본 액션
향상 액션
특이점
모든 버전
screenshot, left_click, type, key, mouse_move
-
화면 보기·클릭·키 입력의 최소 세트
`computer_20250124`
기본 액션 포함
scroll, drag, right/middle/double/triple click, mouse down/up, hold_key, wait
Claude 4 계열 및 Sonnet 3.7에서 개선된 조작
`computer_20251124`
이전 액션 포함
zoom
`enable_zoom:true` 설정 시 특정 화면 영역을 고해상도로 확대 검토

최소 호출 형태

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-11-24" \
  -d '{
    "model": "claude-opus-4-7",
    "max_tokens": 1024,
    "tools": [
      {"type":"computer_20251124", "name":"computer", "display_width_px":1024, "display_height_px":768},
      {"type":"text_editor_20250728", "name":"str_replace_based_edit_tool"},
      {"type":"bash_20250124", "name":"bash"}
    ],
    "messages": [{"role":"user", "content":"Save a picture of a cat to my desktop."}]
  }'

4. 변화와 현재 위치

2024-10-22 · public beta 공개Claude 3.5 Sonnet와 함께 Computer Use 공개. Anthropic은 “사람처럼 화면을 보고, 커서를 움직이고, 클릭하고, 타이핑한다”고 설명했다.
초기 성능 · OSWorld초기 발표에서 Claude 3.5 Sonnet는 OSWorld screenshot-only 14.9%를 기록했고, 더 많은 step을 허용하면 22.0%까지 보고됐다. 인간 수준은 대략 70–75%로 언급됐다.
2025 계열 · 액션 확장`computer_20250124` 계열에서 스크롤, 드래그, 다양한 클릭, 마우스 down/up, hold_key, wait 등이 추가되어 UI 조작 신뢰성을 높였다.
2025-11-24 계열 · zoom`computer_20251124`는 Opus 4.7/4.6, Sonnet 4.6, Opus 4.5에 대응하며 `zoom` 액션을 제공한다.
2026-05 현재 · 클라이언트 도구 Beta공식 Tool Reference 기준 Computer Use는 Anthropic-schema client tool이며, 실행은 Anthropic 서버가 아니라 개발자 환경에서 일어난다.
14.9%

초기 OSWorld screenshot-only 점수

22.0%

더 많은 step을 허용했을 때 발표된 점수

70–75%

Developing post가 언급한 인간 수준 범위

주의: 위 벤치마크 수치는 2024년 공개 당시 블로그 기준이다. 현재 docs는 WebArena에서 single-agent systems 중 state-of-the-art 결과를 언급하지만, 해당 문서 본문에는 숫자를 명시하지 않는다.

5. 비용 구조

고정 오버헤드

Computer Use beta는 시스템 프롬프트에 466–499 토큰을 추가한다. Computer tool 정의는 Claude 4.x/Sonnet 3.7 기준 735 input tokens.

스크린샷 비용

이미지는 대략 `width × height / 750` 토큰. Opus 4.7은 긴 변 최대 2576px, 그 외 모델은 1568px 네이티브 한계가 문서화되어 있다.

같이 쓰는 도구

Bash tool은 245 input tokens. Text editor tool은 문서 기준 700 input tokens 계열. 결과 출력·오류·스크린샷도 추가 토큰이 된다.

모델
입력 가격
출력 가격
메모
Claude Opus 4.7
$5 / MTok
$25 / MTok
가장 복잡한 agentic coding/추론용
Claude Sonnet 4.6
$3 / MTok
$15 / MTok
속도와 지능 균형
Claude Haiku 4.5
$1 / MTok
$5 / MTok
빠른 user-facing/sub-agent 작업

6. 보안·안전 설계

가장 큰 리스크: 화면 속 명령

Claude가 웹페이지·이미지·문서 안의 악성 지시를 사용자 지시보다 우선해 따를 수 있다. Anthropic은 prompt injection classifier 방어층을 언급하지만, 그래도 격리와 권한 제한은 필수다.

실행 권한 리스크

Computer Use는 실제 UI를 조작한다. 결제, 계정 생성, 약관 동의, 외부 발송, 파일 삭제 등 현실 효과가 있는 액션은 확인 장치 없이 맡기면 안 된다.

권장 가드레일

격리

전용 VM/컨테이너, 최소 권한, 세션별 초기화.

노출 최소화

민감 계정·개인정보·API키·결제정보를 주지 않기.

네트워크 제한

도메인 allowlist, 외부 인터넷 최소화.

사람 승인

약관/쿠키/금융/발송/삭제/법적 효과 작업은 confirm gate.

데이터 보관

공식 문서 기준 Computer Use는 client-side tool이다. 스크린샷, 마우스 액션, 키보드 입력, 세션 파일은 개발자 환경에 저장된다. Anthropic은 API 호출 중 실시간 처리하지만 응답 반환 후 보관하지 않는다고 설명하며, ZDR 대상이 될 수 있다고 문서화한다.

7. 언제 쓰고, 언제 피할까?

쓰면 좋은 경우

  • API가 없거나, UI로만 가능한 업무
  • 브라우저 기반 정보수집·반복 입력·폼 작성
  • 소프트웨어 테스트, QA, 레거시 앱 조작
  • 실패해도 피해가 작고 재시도 가능한 업무
  • 샌드박스와 로그, human-in-the-loop를 둘 수 있는 업무

피해야 할 경우

  • 계정/결제/개인정보/의료/법률처럼 민감한 작업
  • 정확한 좌표·고속 조작·실시간 반응이 필요한 작업
  • 외부 발송, 약관 동의, 구매, 삭제처럼 되돌리기 어려운 작업
  • 프롬프트 인젝션이 많은 공개 웹을 무제한 탐색하는 작업
  • API로 안정적으로 해결 가능한 작업

Productibe 관점의 해석

콘텐츠·비즈니스 운영체계 관점에서 보면, Computer Use는 “AI가 일하는 손”에 가깝다. 다만 손이 생겼다고 머리가 좋아지는 것은 아니다. 잘 정의된 작업, 안전한 작업장, 실패 로그, 검수 루프가 있어야 실제 생산성으로 이어진다.

8. 도입 설계 체크리스트

1단계 · 샌드박스

Docker/VM 안에서 XGA(1024×768) 또는 WXGA급 화면으로 시작. 세션 데이터와 네트워크를 제한한다.

2단계 · 작은 업무

로그인 없는 웹 조사, UI 테스트, 내부 데모처럼 실패 비용이 낮은 업무부터 측정한다.

3단계 · 검증 루프

각 단계 후 스크린샷 확인, action log 저장, 좌표 범위 검증, 실패 시 재시도/중단 규칙을 넣는다.

4단계 · 권한 경계

외부 발송·결제·삭제·약관 동의 등은 승인 게이트를 둔다. 모델이 직접 넘지 못하게 한다.

5단계 · 비용 측정

스크린샷 토큰, 도구 정의 토큰, 반복 횟수, 실패율을 기록해서 API 도구/RPA 대비 경제성을 본다.

6단계 · API 우선 원칙

안정적인 공식 API가 있으면 Computer Use보다 API tool이 보통 더 빠르고 싸고 안전하다.

9. 확인한 주요 출처

이 리포트는 위 출처를 2026-05-10 18:35 KST에 확인해 작성했다. Anthropic의 베타 API와 모델 지원 범위는 바뀔 수 있으므로 실제 구현 전 공식 문서의 beta header와 tool version을 다시 확인해야 한다.