Here is a blog post tailored for My Core Pick.
땅 파기는 그만, 질문을 시작하세요: RAG가 기업의 비정형 데이터를 변화시키는 방법
한 가지 상황을 상상해 보십시오. 화요일 오후 2시입니다.
당신은 3년 전에 서명한 공급업체 계약서의 특정 조항을 찾고 있습니다.
그것이 존재한다는 것은 알고 있습니다. 이메일 체인도 기억납니다. 상사가 엄지손가락 이모티콘을 보냈던 Slack 메시지도 기억합니다.
하지만 찾을 수가 없습니다.
"공급업체 계약서"를 검색합니다. 도움이 되는 것은 없습니다. 공급업체 이름을 검색합니다. 400개의 결과가 나옵니다.
PDF 파일을 하나씩 열어봅니다. 보관된 이메일을 뒤집니다. 이미 가지고 있는 정보를 찾는 데만 45분을 낭비합니다.
이것이 바로 "땅 파기(Digging) 패러다임"입니다. 솔직히 말해서, 이것은 기업의 생산성을 갉아먹고 있습니다.
우리는 데이터의 홍수 속에 빠져 있지만, 정작 통찰력에는 굶주려 있습니다.
하지만 지금 변화가 일어나고 있습니다. 우리는 땅을 파는 것에서 질문하는 것으로 이동하고 있습니다.
이것은 RAG(검색 증강 생성, Retrieval-Augmented Generation)라고 불리며, 검색창(search bar) 등장 이후 기업 데이터 관리 분야에서 가장 중요한 발전입니다.
문제점: 비정형 데이터라는 빙산

여기 저를 밤잠 설치게 하는 통계가 하나 있습니다.
이상적으로 기업 데이터의 약 80%는 "비정형"입니다.
정형 데이터는 쉽습니다. 엑셀 시트, SQL 데이터베이스, CRM 필드에 존재합니다. 행과 열에 딱 들어맞습니다. 깔끔합니다.
비정형 데이터는 지저분합니다.
수면 아래에 있는 것들
비정형 데이터에는 PDF, 사내 위키, 긴 이메일 스레드, Slack 대화, 영상 대본, 슬라이드 덱 등이 포함됩니다.
이곳이 바로 실제 업무가 이루어지는 곳입니다. 맥락(context)이 살아 숨 쉬는 곳이죠.
하지만 기존의 검색 도구들은 이것을 읽는 데 형편없습니다.
표준적인 기업 검색은 키워드에 의존합니다. 문서에 있는 정확한 키워드를 입력하지 않으면 운이 따르지 않습니다.
마치 표지가 모두 뜯겨 나간 도서관에서 책을 찾으려는 것과 같습니다.
범용 AI의 한계
그렇다면, "그냥 ChatGPT를 쓰면 되지 않나?"라고 생각하실 수도 있습니다.
퍼블릭 거대 언어 모델(LLM)은 훌륭하지만, 비즈니스에는 치명적인 두 가지 결함이 있습니다.
첫째, 그들은 당신의 비밀을 모릅니다. 당신의 사내 메모나 독점 코드를 읽어본 적이 없습니다.
둘째, 그들은 환각(hallucinate)을 일으킵니다. 답을 모르면 당신을 기쁘게 하기 위해 답을 지어낼 수도 있습니다.
비즈니스 맥락에서 환각은 단순한 기벽이 아닙니다. 그것은 위험 요소(liability)입니다.
이 간극을 메워주는 것이 바로 RAG입니다.
RAG의 등장: "오픈북" 테스트

잠시 전문 용어는 치워둡시다.
RAG(검색 증강 생성)를 이해하려면 학창 시절을 떠올려 보십시오.
표준 LLM(범용 GPT-4 같은)을 사용하는 것은 기억력에 의존해 시험을 치르는 것과 같습니다.
학생은 똑똑합니다. 책도 많이 읽었습니다. 하지만 오늘 아침에 일어난 특정 사건에 대해 물어보면 알지 못합니다. 그들의 기억은 과거에 멈춰 있기 때문입니다.
AI에게 커닝 페이퍼(Cheat Sheet) 제공하기
RAG는 시험의 규칙을 바꿉니다.
RAG는 학생이 "오픈북"으로 시험을 치를 수 있게 해줍니다.
당신이 질문을 하면, AI는 단순히 훈련된 기억력에만 의존하지 않습니다.
대신, 잠시 멈춥니다. 회사의 비공개 파일 캐비닛으로 달려갑니다. 당신의 질문과 관련된 정확한 문서를 꺼냅니다.
그리고 즉시 그것들을 읽습니다.
마지막으로, 오직 그 문서들에 기반하여 답변을 작성합니다.
결과
답변은 당신의 데이터를 인용하므로 정확합니다.
5분 전에 업로드한 내용을 읽으므로 최신 상태입니다.
그리고 결정적으로, 더 이상 땅을 팔 필요가 없습니다. 문서를 찾을 필요가 없었습니다. 그저 질문만 하면 됩니다.
작동 원리: 내부 메커니즘

너무 기술적인 이야기는 하지 않겠다고 약속합니다. 하지만 메커니즘을 이해하면 가치를 알 수 있습니다.
RAG는 마법이 아닙니다. 3단계 워크플로우입니다.
1. 인덱싱 (벡터 데이터베이스)
먼저, 그 지저분한 비정형 데이터들(PDF, HTML 파일, 텍스트 문서)을 가져옵니다.
우리는 이것들을 작은 덩어리(chunk)로 잘라냅니다.
그런 다음 그 덩어리들을 "벡터"로 변환합니다.
벡터는 단순한 키워드가 아니라 텍스트의 의미를 나타내는 긴 숫자 목록입니다.
예를 들어, 키워드 검색은 "Car"와 "Automobile"을 다른 것으로 봅니다. 벡터 검색은 이것들이 의미론적으로 동일하다는 것을 이해합니다.
우리는 이 벡터들을 특수한 데이터베이스에 저장합니다.
2. 검색 (사냥)
이제 당신이 쿼리를 입력합니다: "계약직 직원의 원격 근무 정책은 무엇인가요?"
시스템은 당신의 질문을 벡터로 변환합니다.
데이터베이스에서 당신의 질문과 수학적으로 유사한 텍스트 덩어리들을 찾아냅니다.
그리고 회사 핸드북에서 가장 관련성 높은 3~5개의 단락을 검색해 옵니다.
3. 생성 (종합)
이 부분이 가장 멋진 부분입니다.
시스템은 LLM에게 다음과 같은 프롬프트를 보냅니다:
"사용자가 물었습니다: 원격 근무 정책은 무엇인가요? 데이터베이스에서 찾은 맥락은 다음과 같습니다: [검색된 단락 삽입]. 오직 이 맥락만을 사용하여 사용자에게 답변하세요."
LLM은 요약자이자 종합자 역할을 합니다.
종종 원본 PDF를 가리키는 인용과 함께 알기 쉬운 답변을 제공합니다.
왜 이것이 모든 것을 바꾸는가
저는 이 기술이 직원 경험을 근본적인 수준에서 변화시킨다고 믿습니다.
우리를 "검색하는 사람"에서 "아는 사람"으로 변화시킵니다.
여기 제가 현실 세계에서 일어날 것이라고 보는 세 가지 구체적인 변화가 있습니다.
1. "환각" 공포의 종말
기업의 AI 도입을 막는 가장 큰 장애물 중 하나는 신뢰입니다.
경영진은 AI가 재무 수치를 지어낼까 봐 두려워합니다.
RAG를 사용하면 AI가 과정을 보여주도록(show its work) 강제할 수 있습니다.
시스템이 검색된 문서에서 답을 찾을 수 없다면, 무언가를 지어내는 대신 "모르겠습니다"라고 말하도록 프로그래밍할 수 있습니다.
이러한 근거 기반(grounding)은 AI를 비즈니스에서 안전하게 사용할 수 있게 만듭니다.
2. 즉각적인 온보딩
첫 출근한 신입 사원을 상상해 보세요.
보통 그들은 몇 주 동안 동료들의 어깨를 두드리며 "휴가는 어떻게 신청하나요?" 또는 "VPN 설정은 어떻게 하나요?"라고 묻습니다.
RAG 기반 챗봇이 있다면, 그들은 시스템에 그냥 물어보면 됩니다.
시스템은 Confluence 페이지, 인사팀 PDF, IT 부서의 Slack 채널 기록에서 정보를 가져옵니다.
신입 사원은 즉각적인 답변을 얻습니다. 선임 엔지니어들은 방해받지 않습니다.
3. 획기적으로 강화된 고객 지원
당신의 지원 상담원들은 아마 문서의 홍수에 빠져 있을 것입니다.
고객이 복잡한 기술적 질문을 하면, 상담원은 매뉴얼을 뒤지기 위해 보통 통화 대기를 요청합니다.
RAG를 사용하면 상담원은 질문을 입력하기만 하면 됩니다. 시스템은 기술 매뉴얼, 릴리스 노트, 버그 리포트를 검색합니다.
그리고 몇 초 만에 제안된 답변을 생성합니다.
우리는 해결 시간을 50% 이상 단축하는 것에 대해 이야기하고 있는 것입니다.
시작하기: 한 번에 모든 것을 하려 하지 마세요
도입을 고려하고 있다면, 몇 가지 조언을 드리고 싶습니다.
한꺼번에 모든 것을 인덱싱하려고 하지 마십시오.
RAG는 강력하지만, "쓰레기가 들어가면 쓰레기가 나온다(Garbage In, Garbage Out)"는 원칙을 따릅니다.
가치가 높은 데이터부터 시작하세요
특정 도메인을 선택하세요. HR 정책은 시작하기 좋은 곳입니다. 아니면 특정 제품의 기술 문서도 좋습니다.
그 데이터를 정리하세요. 문서가 최신인지 확인하세요.
만약 시스템에 2019년 정책과 2024년 정책이 섞여서 입력되면, AI는 혼란스러워할 것입니다.
보안이 무엇보다 중요합니다
이것은 매우 중요한 문제입니다.
CEO의 비공개 이메일과 급여 스프레드시트를 인덱싱한 다음 인턴들에게 채팅 인터페이스를 제공한다면, 큰 문제가 생길 것입니다.
당신의 RAG 시스템은 접근 제어 목록(ACL)을 준수해야 합니다.
검색 단계에서는 해당 사용자가 볼 권한이 있는 문서만 가져와야 합니다.
이 단계를 절대 건너뛰지 마십시오.
미래는 대화형입니다
우리는 소프트웨어 인터페이스가 단순히 자연어(natural language)가 되는 세상으로 나아가고 있습니다.
메뉴를 탐색하지 않을 것입니다. 열(column)을 필터링하지 않을 것입니다. 고급 검색 구문을 사용하지 않을 것입니다.
우리는 그저 말할 것입니다.
"지난주 판매 추세를 3분기 예상치와 비교해서 보여줘."
"이 5개의 법적 계약서에 명시된 위험 요소를 요약해 줘."
"엔지니어링 팀의 업데이트를 바탕으로 지연을 설명하는 이메일 초안을 작성해 줘."
RAG는 이것을 가능하게 하는 엔진입니다.
이것은 먼지 쌓이고, 정형화되지 않은, 잊혀진 데이터를 살아 숨 쉬는 지식 베이스로 바꿉니다.
그러니 폴더를 뒤지는 것은 그만두세요. 한 문장을 찾기 위해 50페이지짜리 PDF를 읽는 것도 멈추세요.
질문을 시작하세요.
당신의 데이터는 대답할 준비가 되어 있습니다.