Skip to main content

대량 문서 인덱싱·요약

요약: Storage 에 다양한 형식의 문서(Word·PDF·PPTX·이미지·HTML) 를 한꺼번에 업로드 → 스토리지 자동 임베딩 → Agent Chat 의 Analyze 패널로 주제별 요약/분류/태깅을 일괄 수행. 결과는 PostgreSQL 또는 Slack 으로 발행.

구성 개요

대량 문서 (Word, PDF, PPTX, 이미지, HTML)
        │ Drag & Drop / Add Directory

   Storage  ──자동 임베딩──► Vector Table (chunks)


   Agent (RAG + Tool 활성)
   ├─ search_documents    (벡터 검색)
   ├─ Flow Studio / Team (배치 요약·분류)
   ├─ PostgreSQL MCP       (요약·태그 메타 적재)
   └─ Slack MCP            (결과 발행)


   주제별 요약 / 키워드 / 태그 / 인사이트

시나리오 예시

시나리오입력출력
연구 논문 리뷰PDF 200 편주제별 클러스터링 + 핵심 발견 요약 + Notion DB 적재
고객 인터뷰 분석DOCX 50 건페인포인트 카테고리화 + 빈도 표 + Slack 주간 리포트
분기 보고서 통합 요약PPTX 30 개부서별 핵심 슬라이드 추출 + 임원 요약 1 페이지
법령 모음 정리PDF + DOCX 100+조항별 태깅 + 변경 이력 + PostgreSQL 적재
이미지 문서(스캔본)스캔 PDF / 이미지OCR(Vision Parser) → 텍스트 임베딩 → 검색 가능화

요구 사항

항목설정
Storage대상 문서 업로드 완료 (Drag & Drop 또는 Add Directory)
에이전트Storage 의 Table 연결 + Tool Call 가능한 LLM 선택
MCP 도구(선택) PostgreSQL — 메타·요약 적재 / Slack — 결과 발행
모델요약 품질 중시: claude-opus-4.5 / 비용 중시: gpt-oss-120b (Billing)

지원 파일 형식

Storage 의 Support Extension 에 정의된 37 개 형식이 모두 가능합니다.
카테고리주요 형식처리 방식
Documents.doc .docx .hwp .pdf .ppt .pptx .rtf문서 파서 → 텍스트 + 표 추출 → 청킹 → 임베딩
Data.csv .json .xlsx .yaml .yml구조화 데이터 → 행/필드 단위 청킹
Images.png .jpg .tif .webpVision Parser → OCR + 캡션 → 임베딩
Text & Markup.md .html .epub .txt .xml텍스트 → 청킹 → 임베딩
스캔본 PDF 도 Vision/Layout Parser 가 자동으로 OCR 하여 검색 가능 텍스트로 변환합니다. 단, Billing 의 Vision Parser 단가가 적용되므로 대량 스캔본은 비용을 사전에 견적하세요.

단계

1

Storage 업로드 (Add Directory 권장)

Storage 상세 → UploadAdd Directory 로 폴더 통째 업로드 (하위 구조 유지).
  • 파일당 100 MiB 제한 — 큰 PDF 는 분할
  • 경로 입력란에 prefix 지정 (예: research/2026-Q1/) → 후에 검색 필터·정리에 유리
2

Storage 임베딩 대기

Storage 상세의 Document Pipeline 진행률이 100% 가 될 때까지 대기. Failed 파일은 삭제 후 재업로드.
3

에이전트 구성

Agent 생성:
  • Endpoints: 요약 품질이 중요한 경우 claude-opus-4.5, 비용 우선이면 gpt-oss-120b
  • Tables: 위 Storage 의 Table 선택
  • Tools: PostgreSQL (적재용), Slack (발행용) 등 필요한 MCP 도구 연결
  • System Prompt: 요약 형식·분류 카테고리·금칙어 명시 → System Prompt 가이드
4

배치 실행 — Flow Studio 또는 Team Control

수백 개 문서를 단일 채팅 컨텍스트에 넣지 않고 문서별로 분리 실행 합니다. 두 가지 경로 중 선택:(A) Flow Studio — 결정적 배치
  • 노드 1: Storage list_files / search_documents — 대상 범위 선택
  • 노드 2: Loop — 파일별 반복
  • 노드 3: LLM 호출 — 요약 + JSON 스키마 출력
  • 노드 4: PostgreSQL execute_query — 결과 적재 또는 파일로 저장
(B) Team Control — 자율 배치
  • Supervisor: 진행·검증
  • Worker 1: 문서 읽기·요약 (search_documents · LLM)
  • Worker 2: 적재 (PostgreSQL · Slack)
  • Autonomy = Approve 또는 Autonomous
결정적 처리(파일마다 동일 로직) 는 Flow Studio, 난이도가 다른 문서·복합 판단(예: 일부는 번역 필요, 일부는 스캔본) 은 Team Control 이 적합합니다.
5

결과 적재 / 발행

  • PostgreSQL MCPINSERT INTO doc_summaries(file, summary, tags, category) VALUES (...) 형태로 적재. 후속 BI 도구·검색에 활용. → PostgreSQL 자동화
  • Slack MCP — 일/주 단위로 새 요약을 채널로 발행. → Slack 알림 자동화
  • CSV/JSON 다운로드 — 배치 결과를 파일로 받아 후속 분석

배치 실행 팁 (Flow Studio · Team Control)

  • 출력 스키마를 명확히 정의 하면 PostgreSQL 적재가 매끄럽습니다. JSON Schema 형태로 System Prompt 에도 명시.
  • 카테고리 목록을 미리 제공 — 자유 분류 대신 [기술/영업/HR/법무/기타] 처럼 enum 으로 한정해야 후속 집계가 쉬움.
  • 부분 실패 허용 — 100 개 중 3 개가 실패해도 나머지를 진행. 실패 목록은 별도 보고.
  • 샘플 5 개로 먼저 검증 — 전체 실행 전 출력 형식·품질 확인 후 본 배치.

프롬프트 예시

당신은 사내 지식 문서 분석 도우미입니다.
주어진 문서마다 아래 JSON 스키마로 요약하세요.

{
  "title": "문서 제목 (없으면 파일명)",
  "summary": "3문장 요약, 한국어",
  "tags": ["키워드 5개 이내"],
  "category": "기술|영업|HR|법무|운영|기타",
  "key_findings": ["핵심 발견 3개"],
  "source_file": "원본 파일명"
}

규칙:
- 추측 금지. 문서에 없으면 null.
- 민감 정보(개인정보·계약 단가) 는 마스킹.
- category 는 위 enum 만 사용.

변형·응용

  • 다국어 요약 — 영어 문서를 한국어 요약으로 통합
  • 변경 감지 — 정기적으로 동일 Storage 를 재인덱싱 → 신규/변경 문서만 요약
  • Q&A 페어 생성 — 요약 대신 FAQ 형 Q&A 자동 생성 → 챗봇 학습 데이터로
  • 임베딩 클러스터링 — 요약 + 임베딩 벡터로 유사 문서 자동 그룹핑 → 토픽 모델링

주의 사항

  • 비용 — 대량 처리는 LLM 호출 비용 + Vision/임베딩 비용이 합산됩니다. 100 개 문서 × claude-opus-4.5 요약 = 수만 원 단위 가능. 샘플로 단가 추정 후 본 실행, 한도·요금은 Billing 참고.
  • 컨텍스트 한도 — 단일 호출에 너무 큰 문서를 넣으면 모델 컨텍스트 한도 초과. Flow Studio 의 Loop 노드 로 청크 분할 활용.
  • 민감 문서 — HR/계약/법무 문서를 외부 모델(Anthropic·OpenAI 클라우드) 로 보낼 때 데이터 처리 동의 정책 확인.
  • 중복 요약 방지 — 같은 문서를 두 번 처리하지 않도록 PostgreSQL 적재 시 unique 제약 또는 ON CONFLICT DO NOTHING 사용.

관련 레시피