대량 문서 인덱싱·요약
요약: Storage 에 다양한 형식의 문서(Word·PDF·PPTX·이미지·HTML) 를 한꺼번에 업로드 → 스토리지 자동 임베딩 → Agent Chat 의 Analyze 패널로 주제별 요약/분류/태깅을 일괄 수행. 결과는 PostgreSQL 또는 Slack 으로 발행.구성 개요
시나리오 예시
| 시나리오 | 입력 | 출력 |
|---|---|---|
| 연구 논문 리뷰 | PDF 200 편 | 주제별 클러스터링 + 핵심 발견 요약 + Notion DB 적재 |
| 고객 인터뷰 분석 | DOCX 50 건 | 페인포인트 카테고리화 + 빈도 표 + Slack 주간 리포트 |
| 분기 보고서 통합 요약 | PPTX 30 개 | 부서별 핵심 슬라이드 추출 + 임원 요약 1 페이지 |
| 법령 모음 정리 | PDF + DOCX 100+ | 조항별 태깅 + 변경 이력 + PostgreSQL 적재 |
| 이미지 문서(스캔본) | 스캔 PDF / 이미지 | OCR(Vision Parser) → 텍스트 임베딩 → 검색 가능화 |
요구 사항
| 항목 | 설정 |
|---|---|
| Storage | 대상 문서 업로드 완료 (Drag & Drop 또는 Add Directory) |
| 에이전트 | Storage 의 Table 연결 + Tool Call 가능한 LLM 선택 |
| MCP 도구 | (선택) PostgreSQL — 메타·요약 적재 / Slack — 결과 발행 |
| 모델 | 요약 품질 중시: claude-opus-4.5 / 비용 중시: gpt-oss-120b (Billing) |
지원 파일 형식
Storage 의 Support Extension 에 정의된 37 개 형식이 모두 가능합니다.| 카테고리 | 주요 형식 | 처리 방식 |
|---|---|---|
| Documents | .doc .docx .hwp .pdf .ppt .pptx .rtf | 문서 파서 → 텍스트 + 표 추출 → 청킹 → 임베딩 |
| Data | .csv .json .xlsx .yaml .yml | 구조화 데이터 → 행/필드 단위 청킹 |
| Images | .png .jpg .tif .webp 등 | Vision Parser → OCR + 캡션 → 임베딩 |
| Text & Markup | .md .html .epub .txt .xml | 텍스트 → 청킹 → 임베딩 |
스캔본 PDF 도 Vision/Layout Parser 가 자동으로 OCR 하여 검색 가능 텍스트로 변환합니다. 단, Billing 의 Vision Parser 단가가 적용되므로 대량 스캔본은 비용을 사전에 견적하세요.
단계
Storage 업로드 (Add Directory 권장)
Storage 상세 → Upload → Add Directory 로 폴더 통째 업로드 (하위 구조 유지).
- 파일당 100 MiB 제한 — 큰 PDF 는 분할
- 경로 입력란에 prefix 지정 (예:
research/2026-Q1/) → 후에 검색 필터·정리에 유리
Storage 임베딩 대기
Storage 상세의 Document Pipeline 진행률이 100% 가 될 때까지 대기.
Failed 파일은 삭제 후 재업로드.- 대량 임베딩 비용은 Billing → Inference · Vsync 에서 추적
에이전트 구성
Agent 생성:
- Endpoints: 요약 품질이 중요한 경우
claude-opus-4.5, 비용 우선이면gpt-oss-120b - Tables: 위 Storage 의 Table 선택
- Tools: PostgreSQL (적재용), Slack (발행용) 등 필요한 MCP 도구 연결
- System Prompt: 요약 형식·분류 카테고리·금칙어 명시 → System Prompt 가이드
배치 실행 — Flow Studio 또는 Team Control
수백 개 문서를 단일 채팅 컨텍스트에 넣지 않고 문서별로 분리 실행 합니다. 두 가지 경로 중 선택:(A) Flow Studio — 결정적 배치
- 노드 1: Storage
list_files/search_documents— 대상 범위 선택 - 노드 2: Loop — 파일별 반복
- 노드 3: LLM 호출 — 요약 + JSON 스키마 출력
- 노드 4: PostgreSQL
execute_query— 결과 적재 또는 파일로 저장
- Supervisor: 진행·검증
- Worker 1: 문서 읽기·요약 (
search_documents· LLM) - Worker 2: 적재 (
PostgreSQL· Slack) - Autonomy = Approve 또는 Autonomous
결정적 처리(파일마다 동일 로직) 는 Flow Studio, 난이도가 다른 문서·복합 판단(예: 일부는 번역 필요, 일부는 스캔본) 은 Team Control 이 적합합니다.
결과 적재 / 발행
- PostgreSQL MCP —
INSERT INTO doc_summaries(file, summary, tags, category) VALUES (...)형태로 적재. 후속 BI 도구·검색에 활용. → PostgreSQL 자동화 - Slack MCP — 일/주 단위로 새 요약을 채널로 발행. → Slack 알림 자동화
- CSV/JSON 다운로드 — 배치 결과를 파일로 받아 후속 분석
배치 실행 팁 (Flow Studio · Team Control)
- 출력 스키마를 명확히 정의 하면 PostgreSQL 적재가 매끄럽습니다. JSON Schema 형태로 System Prompt 에도 명시.
- 카테고리 목록을 미리 제공 — 자유 분류 대신
[기술/영업/HR/법무/기타]처럼 enum 으로 한정해야 후속 집계가 쉬움. - 부분 실패 허용 — 100 개 중 3 개가 실패해도 나머지를 진행. 실패 목록은 별도 보고.
- 샘플 5 개로 먼저 검증 — 전체 실행 전 출력 형식·품질 확인 후 본 배치.
프롬프트 예시
변형·응용
- 다국어 요약 — 영어 문서를 한국어 요약으로 통합
- 변경 감지 — 정기적으로 동일 Storage 를 재인덱싱 → 신규/변경 문서만 요약
- Q&A 페어 생성 — 요약 대신 FAQ 형 Q&A 자동 생성 → 챗봇 학습 데이터로
- 임베딩 클러스터링 — 요약 + 임베딩 벡터로 유사 문서 자동 그룹핑 → 토픽 모델링
주의 사항
관련 레시피
- PostgreSQL 반복 쿼리 자동화 — 요약 결과 적재·집계
- 보고서 자동 발행 — 주간/월간 요약 리포트 자동 생성
- Slack 알림 자동화 — 신규 요약 Slack 푸시
- Slack 으로 문서 받아보기 — 사용자가 키워드로 요약 검색
- 레시피 목록