AI 시대 필수 문서중앙화 플랫폼 랩소디 학습데이터 관리

생성형 AI 학습데이터 관리

기업에서 ‘생성형 AI’ 학습데이터 관리를 위한
효과적인 방안은 무엇일까요?

생성형 AI 학습 방법 이해

최근 기업에서 생성 AI를 활용하여 프로세스 단축 등 업무 혁신을 달성하기 위해 다방면으로 노력 하고 있습니다.
기업에서 맞춤형 AI를 구축하기 위해서 범용 AI에 추가적으로 내부 데이터를 활용하여 데이터를 학습시키는 작업이 필요합니다.
학습 모델에는 Fine-Tuning Model과 Prompting Model이 존재하는데 이에 대해 알아보겠습니다.

Fine-Tuning Model

Fine-Tuning(미세 조정)이란 사전 훈련 모델(Pre-Trained Model)을 이용하여 필요한 과제에 맞게 모델을 다시 학습시키는 것을 말합니다.
처음부터 훈련하는 데 드는 막대한 비용이 없이도 추가된 데이터만을 학습함으로써 시간과 노동력 및 메모리를 절감할 수 있습니다.
나아가 양질의 결과를 얻을 수 있어 학습모델로 효과적으로 활용됩니다.
미세 조정의 장점은 구체적이고 전문적인 데이터에는 익숙하지 않은 일반 생성형 AI에서 사전 훈련 모델을 효과적으로 사용할 수 있게 한다는 것입니다.

Prompting Model

프롬프트는 생성형 AI에게 입력하는 문장이나 명령을 가르킵니다. 사용자가 원하는 결과를 출력하도록 하기 위해서는 당연히 명확하고 구체적인 명령을 내려야 합니다. 인공지능은 수많은 데이터를 학습했기 때문에 적절한 명령을 내리지 않으면 잘못된 결과를 낼 수 있습니다.
프롬프트 모델은 회사의 데이터를 직접 입력하여 답을 찾고자 하는 모델입니다.
회사에서 Fine-Tuning을 진행하기 위해서는 현재 많은 비용이 발생하기 때문에 프롬프트에 원하는 정보가 있을 법한 문서를 직접 넣어주고 원하는 응답을 얻는 아키텍처로 발전하고 있습니다. 이를 ‘검색증강생성’(Retrieval Augmented Generation, RAG)라고 부릅니다.

기업 내 생성형 AI 최신 학습 모델

앞에서 기업 전용의 생성형 AI 구축을 위해 데이터 학습 모델에 대해 알아 보았습니다. 최근에는 위 2가지 모델을 모두 활용하는 하이브리드 아키텍쳐 형태가 각광을 받고 있습니다. 전직원이 접근 가능한 기본적인 지식은 Fine Tuning을 통해 사전에 LLM에 학습 시키고 사용자별로 활용 가능한 문서는 벡터 DB화하여 사용자가 프롬프트에서 질의 시 이를 활용하게 하는 것입니다.

가장 중요한 것은 AI에 대응하기 위한 기업 데이터를 활용하여 DB화 하는 것입니다.
보고서, 매뉴얼, 회의록 등의 문서 자료가 핵심 데이터가 됩니다.

Chunking / Vector화

자연어 처리(NLP)에서 텍스트 데이터를 처리하기 위해 자주 사용되는 기술로 Chunking은 텍스트를 단어, 문장, 구절 또는 기타 의미 있는 단위로 나누는 작업입니다. 텍스트를 더 쉽게 이해하고 처리할 수 있도록 합니다. 예를 들어, 문장을 단어로 나누면 단어의 의미와 관계를 분석하는 것이 더 쉬워집니다.

Vector화는 텍스트를 숫자 벡터로 변환하는 작업입니다. 텍스트를 컴퓨터가 이해할 수 있는 형태로 변환합니다.

기업에서 고품질의 학습 데이터 준비의 어려움

생성형 AI 구축을 위해서는 기업 내 양질의 데이터, 나아가 비정형 형태의 문서가 가장 중요하다는 것을 이야기 했습니다.
하지만 기업에서 중요한 자산인 문서를 생성형 AI의 학습 데이터로 활용하기 위해 준비하는 과정은 많은 노력이 들어갑니다.
학습 데이터를 준비함에 있어 중요한 애로 사항에 대해 알아보도록 하겠습니다.

첫째, 개인들이 작성한 문서를 빠짐없이 다 모아서 DB화 해야 됩니다. 온라인상에 저장되어 있는 DB화된 데이터는 관리가 잘되어 활용이 쉬울 수 있지만 직원 개인이 작성한 문서의 관리가 되어 있지 않으면 학습 데이터로 활용하기 위해 수집하는데 상당한 시간과 비용이 발생할 수 밖에 없습니다.

둘째, 문서에 대한 접근 권한이 다르기 때문에 사용자에 따른 권한에 따라 접근이 관리되어야 합니다. 특정 사용자에게 접근이 허용되지 않은 문서가 노출될 경우에는 보안에 위협이 될 수 있기 때문에 권한 관리 또한 중요한 포인트입니다. 그리고 예전 데이터를 학습하여 잘못 보여 주면 안되기 때문에 최신 버전의 문서를 학습하여 답을 할 수 있도록 하여야 합니다.

셋째, 회사 내에 중복 데이터가 관리가 안되고 많을 경우 학습한 내용을 반복적으로 학습하게 되어 학습 효율이 저하될 수 있고, 모델 성능 저하, 중복 데이터가 많은 경우 AI 모델은 실제 데이터에 대한 적응력이 떨어져 모델 성능이 저하됩니다.

마지막으로 중복 데이터가 많은 경우 AI 모델은 실제 데이터의 편향을 반영한 결과를 생성할 수 있습니다.

Wrapsody를 이용한 효과적인 학습데이터 준비 및 적용

랩소디는 문서가상화 기술을 채택하여 생성형 AI 학습데이터를 효과적으로 생산 관리할 수 있는 플랫폼으로 진화하고 있습니다.
기업에서 향후 성공적인 생성형AI 구축을 위해 가장 필수적이고 어려운 고품질의 학습데이터 관리를 랩소디와 함께 지금부터 관리하면 비용 및 시간을 절감할 수 있다고 생각합니다.