대량 문서 인덱싱·요약

요약: Storage 에 다양한 형식의 문서(Word·PDF·PPTX·이미지·HTML) 를 한꺼번에 업로드 → 스토리지 자동 임베딩 → Agent Chat 의 Analyze 패널로 주제별 요약/분류/태깅을 일괄 수행. 결과는 PostgreSQL 또는 Slack 으로 발행.

구성 개요

대량 문서 (Word, PDF, PPTX, 이미지, HTML)
        │ Drag & Drop / Add Directory
        ▼
   Storage  ──자동 임베딩──► Vector Table (chunks)
        │
        ▼
   Agent (RAG + Tool 활성)
   ├─ search_documents    (벡터 검색)
   ├─ Flow Studio / Team (배치 요약·분류)
   ├─ PostgreSQL MCP       (요약·태그 메타 적재)
   └─ Slack MCP            (결과 발행)
        │
        ▼
   주제별 요약 / 키워드 / 태그 / 인사이트

시나리오 예시

시나리오	입력	출력
연구 논문 리뷰	PDF 200 편	주제별 클러스터링 + 핵심 발견 요약 + Notion DB 적재
고객 인터뷰 분석	DOCX 50 건	페인포인트 카테고리화 + 빈도 표 + Slack 주간 리포트
분기 보고서 통합 요약	PPTX 30 개	부서별 핵심 슬라이드 추출 + 임원 요약 1 페이지
법령 모음 정리	PDF + DOCX 100+	조항별 태깅 + 변경 이력 + PostgreSQL 적재
이미지 문서(스캔본)	스캔 PDF / 이미지	OCR(Vision Parser) → 텍스트 임베딩 → 검색 가능화

요구 사항

항목	설정
Storage	대상 문서 업로드 완료 (Drag & Drop 또는 Add Directory)
에이전트	Storage 의 Table 연결 + Tool Call 가능한 LLM 선택
MCP 도구	(선택) PostgreSQL — 메타·요약 적재 / Slack — 결과 발행
모델	요약 품질 중시: `claude-opus-4.5` / 비용 중시: `gpt-oss-120b` (Billing)

지원 파일 형식

Storage 의 Support Extension 에 정의된 37 개 형식이 모두 가능합니다.

카테고리	주요 형식	처리 방식
Documents	`.doc` `.docx` `.hwp` `.pdf` `.ppt` `.pptx` `.rtf`	문서 파서 → 텍스트 + 표 추출 → 청킹 → 임베딩
Data	`.csv` `.json` `.xlsx` `.yaml` `.yml`	구조화 데이터 → 행/필드 단위 청킹
Images	`.png` `.jpg` `.tif` `.webp` 등	Vision Parser → OCR + 캡션 → 임베딩
Text & Markup	`.md` `.html` `.epub` `.txt` `.xml`	텍스트 → 청킹 → 임베딩

스캔본 PDF 도 Vision/Layout Parser 가 자동으로 OCR 하여 검색 가능 텍스트로 변환합니다. 단, Billing 의 Vision Parser 단가가 적용되므로 대량 스캔본은 비용을 사전에 견적하세요.

단계

Storage 업로드 (Add Directory 권장)

Storage 상세 → Upload → Add Directory 로 폴더 통째 업로드 (하위 구조 유지).

파일당 100 MiB 제한 — 큰 PDF 는 분할
경로 입력란에 prefix 지정 (예: research/2026-Q1/) → 후에 검색 필터·정리에 유리

Storage 임베딩 대기

Storage 상세의 Document Pipeline 진행률이 100% 가 될 때까지 대기. Failed 파일은 삭제 후 재업로드.

대량 임베딩 비용은 Billing → Inference · Vsync 에서 추적

에이전트 구성

Agent 생성:

Endpoints: 요약 품질이 중요한 경우 claude-opus-4.5, 비용 우선이면 gpt-oss-120b
Tables: 위 Storage 의 Table 선택
Tools: PostgreSQL (적재용), Slack (발행용) 등 필요한 MCP 도구 연결
System Prompt: 요약 형식·분류 카테고리·금칙어 명시 → System Prompt 가이드

배치 실행 — Flow Studio 또는 Team Control

수백 개 문서를 단일 채팅 컨텍스트에 넣지 않고 문서별로 분리 실행 합니다. 두 가지 경로 중 선택:(A) Flow Studio — 결정적 배치

노드 1: Storage list_files / search_documents — 대상 범위 선택
노드 2: Loop — 파일별 반복
노드 3: LLM 호출 — 요약 + JSON 스키마 출력
노드 4: PostgreSQL execute_query — 결과 적재 또는 파일로 저장

(B) Team Control — 자율 배치

Supervisor: 진행·검증
Worker 1: 문서 읽기·요약 (search_documents · LLM)
Worker 2: 적재 (PostgreSQL · Slack)
Autonomy = Approve 또는 Autonomous

결정적 처리(파일마다 동일 로직) 는 Flow Studio, 난이도가 다른 문서·복합 판단(예: 일부는 번역 필요, 일부는 스캔본) 은 Team Control 이 적합합니다.

결과 적재 / 발행

PostgreSQL MCP — INSERT INTO doc_summaries(file, summary, tags, category) VALUES (...) 형태로 적재. 후속 BI 도구·검색에 활용. → PostgreSQL 자동화
Slack MCP — 일/주 단위로 새 요약을 채널로 발행. → Slack 알림 자동화
CSV/JSON 다운로드 — 배치 결과를 파일로 받아 후속 분석

배치 실행 팁 (Flow Studio · Team Control)

출력 스키마를 명확히 정의 하면 PostgreSQL 적재가 매끄럽습니다. JSON Schema 형태로 System Prompt 에도 명시.
카테고리 목록을 미리 제공 — 자유 분류 대신 [기술/영업/HR/법무/기타] 처럼 enum 으로 한정해야 후속 집계가 쉬움.
부분 실패 허용 — 100 개 중 3 개가 실패해도 나머지를 진행. 실패 목록은 별도 보고.
샘플 5 개로 먼저 검증 — 전체 실행 전 출력 형식·품질 확인 후 본 배치.

프롬프트 예시

당신은 사내 지식 문서 분석 도우미입니다.
주어진 문서마다 아래 JSON 스키마로 요약하세요.

{
  "title": "문서 제목 (없으면 파일명)",
  "summary": "3문장 요약, 한국어",
  "tags": ["키워드 5개 이내"],
  "category": "기술|영업|HR|법무|운영|기타",
  "key_findings": ["핵심 발견 3개"],
  "source_file": "원본 파일명"
}

규칙:
- 추측 금지. 문서에 없으면 null.
- 민감 정보(개인정보·계약 단가) 는 마스킹.
- category 는 위 enum 만 사용.

변형·응용

다국어 요약 — 영어 문서를 한국어 요약으로 통합
변경 감지 — 정기적으로 동일 Storage 를 재인덱싱 → 신규/변경 문서만 요약
Q&A 페어 생성 — 요약 대신 FAQ 형 Q&A 자동 생성 → 챗봇 학습 데이터로
임베딩 클러스터링 — 요약 + 임베딩 벡터로 유사 문서 자동 그룹핑 → 토픽 모델링

주의 사항

비용 — 대량 처리는 LLM 호출 비용 + Vision/임베딩 비용이 합산됩니다. 100 개 문서 × claude-opus-4.5 요약 = 수만 원 단위 가능. 샘플로 단가 추정 후 본 실행, 한도·요금은 Billing 참고.
컨텍스트 한도 — 단일 호출에 너무 큰 문서를 넣으면 모델 컨텍스트 한도 초과. Flow Studio 의 Loop 노드 로 청크 분할 활용.
민감 문서 — HR/계약/법무 문서를 외부 모델(Anthropic·OpenAI 클라우드) 로 보낼 때 데이터 처리 동의 정책 확인.
중복 요약 방지 — 같은 문서를 두 번 처리하지 않도록 PostgreSQL 적재 시 unique 제약 또는 ON CONFLICT DO NOTHING 사용.

Bulk document summarize

대량 문서 인덱싱·요약

구성 개요

시나리오 예시

요구 사항

지원 파일 형식

단계

배치 실행 팁 (Flow Studio · Team Control)

프롬프트 예시

변형·응용

주의 사항

관련 레시피

​대량 문서 인덱싱·요약

​구성 개요

​시나리오 예시

​요구 사항

​지원 파일 형식

​단계

​배치 실행 팁 (Flow Studio · Team Control)

​프롬프트 예시

​변형·응용

​주의 사항

​관련 레시피

대량 문서 인덱싱·요약

구성 개요

시나리오 예시

요구 사항

지원 파일 형식

단계

배치 실행 팁 (Flow Studio · Team Control)

프롬프트 예시

변형·응용

주의 사항

관련 레시피