자동차 산업을 위한 IT기술을 연구 합니다. Blog

Welcome

2026-01-15T00:00:00.000Z

Docusaurus blogging features are powered by the blog plugin.

Simply add Markdown files (or folders) to the blog directory.

Regular blog authors can be added to authors.yml.

The blog post date can be extracted from filenames, such as:

2019-05-30-welcome.md
2019-05-30-welcome/index.md

A blog post folder can be convenient to co-locate blog post images:

The blog supports tags as well!

And if you don't want a blog: just delete this directory, and use blog: false in your Docusaurus config.

What is this?

LLM 정리 5

2024-07-08T00:00:00.000Z

2. LLM은 어떻게 동작하는가

개요에서 언급한 것 처럼 LLM은 이전 토큰 세트를 기반으로 다음 토큰을 예측하도록 훈련되었습니다. 이는 생성기능을 활성화 하는 자동회귀 방식(autoregressive, 현재 생성된 토큰은 다음 토큰을 생성하기 위한 입력으로 거대언어모델에 재입력 됨)을 수행하여 생성을 가능하게 합니다.
첫 번째 단계에서 받은 프롬프트를 토큰화 하고 이를 임베딩으로 변환하는 작업이 수행 됩니다. 임베딩은 입력 텍스트의 벡터 표현입니다. 이러한 임베딩은 무작위로 초기화되어 입력 토큰의 비 의미론적인 벡터 형태를 나타냅니다. 그리고, 모델 훈련 과정에서 맥락화되는 학습이 수행됩니다.
다음으로, 레이어별 어텐션(attentation) 및 피드포워드 연산을 수행하여 최종적으로 어휘의 각 단어에 숫자 또는 로짓(logit)을 출력하거나(GPT-N, LLaMA 등의 디코더 모델) 의미론적 임베딩을 출력합니다(BERT와 같은 인코더 모델 및 RoBERTa, ELECTRA 등과 같은 변형 모델).
마지막으로 디코더 모델의 경우 다음 단계는 각 (정규화되지 않은) 로짓을 (정규화된) 확률 분포(Softmax 함수를 통해)로 변환하여 텍스트에서 다음에 올 단어를 결정하는 것입니다.
아래와 같이 단계를 더 자세히 살펴보겠습니다 :
1. 토큰화 :
  - LLM이 처리를 하기 전에 원시 입력 텍스트는 더 작은 단위(종종 하위 단어 또는 단어)로 토큰화 하여 모델이 인식할 수 있는 조각으로 입력을 나눕니다.
  - 모델에는 고정된 어휘목록(vocabulary)이 있습니다. 따라서, 토큰화 단계는 입력이 어휘목록과 일치하는 형식이 되도록 보장하기 때문에 매우 중요합니다.
  - GPT-3.5 및 GPT-4용 OpenAI 토크나이저는 여기에서 찾을 수 있습니다.
  - 자세한 내용은 토큰화에 대한 입문서를 참조하세요.
2. 임베딩 :
  - 각 토큰은 임베딩 매트릭스를 사용하여 고차원 벡터에 매핑됩니다. 이 벡터 표현은 토큰의 맥락적 의미를 포착하며 모델의 다음 레이어에 입력으로 사용됩니다.
  - 토큰의 순서에 대한 정보를 모델에 제공하기 위해 매핑된 임베딩에 위치 인코딩(positional encoding)이 추가됩니다. 이는 트랜스포머와 같은 모델이 고유한 순서 인식을 갖고 있지 않기 때문에 특히 중요합니다.
3. 트랜스포머 구조 :
  - 대부분의 최신 LLM의 핵심은 트랜스포머 구조입니다.
  - 트랜스포머는 여러 레이어로 구성되어 있으며, 각 레이어에는 두 가지 주요 구성 요소가 있습니다 : multi-head self-attention 메커니즘과 position-wise feed-forward network 입니다.
  - 자기 어텐션 메커니즘(self-attention mechanism)은 각 토큰들이 자신과 관련해 중요성을 갖는 다른 토큰들에게 가중치를 부여할 수 있게 합니다. 이는 본질적으로 주어진 토큰과 관련있는 특정 부분에 대해 모델이 "주의를 기울일" 수 있도록 합니다.
  - 어텐션 연산된 결과는, 각 위치에서 독립적으로 피드포워드 신경망으로 전달됩니다.
  - 자세한 내용은 트랜스포머 아키텍처에 대한 입문서를 참조하세요.
4. 잔차연결 (Residual Connection) :
  - 모델의 각 하위 계층(예: 자기 어텐션 또는 피드포워드 신경망)은 주변에 잔여 연결이 적용된 후 계층 정규화가 수행됩니다. 이는 활성화를 안정화하고 훈련 속도를 높이는 데 도움이 됩니다.
5. 출력 레이어 :
  - 모든 트랜스포머 레이어를 통과한 후, 각 토큰의 최종 표현은 모델의 어휘목록에 있는 각 단어에 대응하는 로짓 벡터로 변환됩니다.
  - 이러한 로짓은 어휘 목록의 각 단어들이 시퀀스의 다음 단어가 될 가능성을 설명합니다.
6. 확률분포 :
  - 로짓을 확률로 변환하기 위해 Softmax 함수가 적용됩니다. 이는 모두 0과 1 사이에 있고 합이 1이 되도록 로짓을 정규화합니다.
  - 어휘 목록의 단어들 중 확률이 가장 높은 단어가 시퀀스의 다음 단어로 선택될 수 있습니다.
7. 디코딩 (Decoding) :
  - 적용되는 상황에 따라 일관되고 문맥에 맞는 시퀀스를 생성하기 위하여, 그리디 디코딩(greedy decoding), 빔 검색(beam search), Top-K 샘플링(top-k sampling)과 같은 다양한 디코딩 전략이 사용됩니다.
  - 자세한 내용은 토큰 샘플링 방법에 대한 입문서를 참조하세요.
여러 단계의 프로세스를 통해, LLM은 인간과 유사한 텍스트를 생성하고, 맥락을 이해하고, 프롬프트에 대한 관련 응답이나 완성을 제공할 수 있습니다.

2.1. LLM 학습 단계

상위 수준에서, LLMs의 훈련에 포함되는 단계는 다음과 같습니다:
1. 문서(코퍼스, corpus) 준비 : 뉴스 기사, 소셜 미디어 게시물, 웹 문서 등 대규모 텍스트 데이터 모음을 수집합니다.
2. 토큰화 : 텍스트를 토큰이라고 하는 개별 단어 또는 하위 단어로 분할합니다.
3. 임베딩 생성 : 일반적으로 훈련을 처음 시작할 때 PyTorch의 nn.Embedding 클래스를 통해 랜덤하게 초기화된 임베딩 테이블을 사용합니다. 또한, Word2Vec, GloVe, FastText 등과 같은 사전 훈련된 임베딩도 사용할 수 있습니다. 이러한 임베딩은 입력 토큰의 맥락화되지 않은 벡터 형식을 나타냅니다.
4. 신경망 훈련 : 입력 토큰에 대한 신경망 모델을 훈련합니다.
  - BERT 및 그 변형과 같은 인코더 모델의 경우 모델은 마스킹된 특정 단어의 전후 맥락(주변 단어)을 예측하는 방법을 학습합니다.
  - BERT는 특히 마스킹된 단어를 예측하는 마스크드 언어 모델링 작업(Masked Language Modeling task 또는 Cloze task)과 다음 문장 예측 작업으로 훈련되었습니다; BERT 입문서에 설명되어 있습니다.
  - GPT-N, LLaMA 등과 같은 디코더 모델의 경우 주어진 이전 토큰들의 맥락을 고려하여 시퀀스의 다음 토큰을 예측하는 방법을 학습합니다.

2.2. 추론 (Reasoning)

LLM에서 추론이 어떻게 작동하는지 살펴보겠습니다; 우리는 추론을 “증거와 논리를 사용하여 추론하는 능력”으로 정의할 것입니다. (source)
추론에는 상식적 추론이나 수학적 추론과 같이 다양한 종류가 있습니다.
마찬가지로, 모델에서 추론을 이끌어내는 방법 또한 다양하며 그 중 하나는 여기에서 언급하는 생각의 사슬(chain-of-thought) 프롬프팅 입니다.
추론과 사실적 정보를 분리하여 최종 결과에 대한 기여도를 분석하는 것은 간단한 일이 아니기 때문에, LLM이 최종 예측을 위해 얼마나 많은 추론을 하는지 아직 알 수 없다는 점을 유의하는 것이 중요합니다.

LLM 정리 4

2024-07-07T00:00:00.000Z

2. LLM은 어떻게 동작하는가

개요에서 언급한 것 처럼 LLM은 이전 토큰 세트를 기반으로 다음 토큰을 예측하도록 훈련되었습니다. 이는 생성기능을 활성화 하는 자동회귀 방식(autoregressive, 현재 생성된 토큰은 다음 토큰을 생성하기 위한 입력으로 거대언어모델에 재입력 됨)을 수행하여 생성을 가능하게 합니다.
첫 번째 단계에서 받은 프롬프트를 토큰화 하고 이를 임베딩으로 변환하는 작업이 수행 됩니다. 임베딩은 입력 텍스트의 벡터 표현입니다. 이러한 임베딩은 무작위로 초기화되어 입력 토큰의 비 의미론적인 벡터 형태를 나타냅니다. 그리고, 모델 훈련 과정에서 맥락화되는 학습이 수행됩니다.
다음으로, 레이어별 어텐션(attentation) 및 피드포워드 연산을 수행하여 최종적으로 어휘의 각 단어에 숫자 또는 로짓(logit)을 출력하거나(GPT-N, LLaMA 등의 디코더 모델) 의미론적 임베딩을 출력합니다(BERT와 같은 인코더 모델 및 RoBERTa, ELECTRA 등과 같은 변형 모델).
마지막으로 디코더 모델의 경우 다음 단계는 각 (정규화되지 않은) 로짓을 (정규화된) 확률 분포(Softmax 함수를 통해)로 변환하여 텍스트에서 다음에 올 단어를 결정하는 것입니다.
아래와 같이 단계를 더 자세히 살펴보겠습니다 :
1. 토큰화 :
  - LLM이 처리를 하기 전에 원시 입력 텍스트는 더 작은 단위(종종 하위 단어 또는 단어)로 토큰화 하여 모델이 인식할 수 있는 조각으로 입력을 나눕니다.
  - 모델에는 고정된 어휘목록(vocabulary)이 있습니다. 따라서, 토큰화 단계는 입력이 어휘목록과 일치하는 형식이 되도록 보장하기 때문에 매우 중요합니다.
  - GPT-3.5 및 GPT-4용 OpenAI 토크나이저는 여기에서 찾을 수 있습니다.
  - 자세한 내용은 토큰화에 대한 입문서를 참조하세요.
2. 임베딩 :
  - 각 토큰은 임베딩 매트릭스를 사용하여 고차원 벡터에 매핑됩니다. 이 벡터 표현은 토큰의 맥락적 의미를 포착하며 모델의 다음 레이어에 입력으로 사용됩니다.
  - 토큰의 순서에 대한 정보를 모델에 제공하기 위해 매핑된 임베딩에 위치 인코딩(positional encoding)이 추가됩니다. 이는 트랜스포머와 같은 모델이 고유한 순서 인식을 갖고 있지 않기 때문에 특히 중요합니다.
3. 트랜스포머 구조 :
  - 대부분의 최신 LLM의 핵심은 트랜스포머 구조입니다.
  - 트랜스포머는 여러 레이어로 구성되어 있으며, 각 레이어에는 두 가지 주요 구성 요소가 있습니다 : multi-head self-attention 메커니즘과 position-wise feed-forward network 입니다.
  - 자기 어텐션 메커니즘(self-attention mechanism)은 각 토큰들이 자신과 관련해 중요성을 갖는 다른 토큰들에게 가중치를 부여할 수 있게 합니다. 이는 본질적으로 주어진 토큰과 관련있는 특정 부분에 대해 모델이 "주의를 기울일" 수 있도록 합니다.
  - 어텐션 연산된 결과는, 각 위치에서 독립적으로 피드포워드 신경망으로 전달됩니다.
  - 자세한 내용은 트랜스포머 아키텍처에 대한 입문서를 참조하세요.
4. 잔차연결 (Residual Connection) :
  - 모델의 각 하위 계층(예: 자기 어텐션 또는 피드포워드 신경망)은 주변에 잔여 연결이 적용된 후 계층 정규화가 수행됩니다. 이는 활성화를 안정화하고 훈련 속도를 높이는 데 도움이 됩니다.
5. 출력 레이어 :
  - 모든 트랜스포머 레이어를 통과한 후, 각 토큰의 최종 표현은 모델의 어휘목록에 있는 각 단어에 대응하는 로짓 벡터로 변환됩니다.
  - 이러한 로짓은 어휘 목록의 각 단어들이 시퀀스의 다음 단어가 될 가능성을 설명합니다.
6. 확률분포 :
  - 로짓을 확률로 변환하기 위해 Softmax 함수가 적용됩니다. 이는 모두 0과 1 사이에 있고 합이 1이 되도록 로짓을 정규화합니다.
  - 어휘 목록의 단어들 중 확률이 가장 높은 단어가 시퀀스의 다음 단어로 선택될 수 있습니다.
7. 디코딩 (Decoding) :
  - 적용되는 상황에 따라 일관되고 문맥에 맞는 시퀀스를 생성하기 위하여, 그리디 디코딩(greedy decoding), 빔 검색(beam search), Top-K 샘플링(top-k sampling)과 같은 다양한 디코딩 전략이 사용됩니다.
  - 자세한 내용은 토큰 샘플링 방법에 대한 입문서를 참조하세요.
여러 단계의 프로세스를 통해, LLM은 인간과 유사한 텍스트를 생성하고, 맥락을 이해하고, 프롬프트에 대한 관련 응답이나 완성을 제공할 수 있습니다.

2.1. LLM 학습 단계

상위 수준에서, LLMs의 훈련에 포함되는 단계는 다음과 같습니다:
1. 문서(코퍼스, corpus) 준비 : 뉴스 기사, 소셜 미디어 게시물, 웹 문서 등 대규모 텍스트 데이터 모음을 수집합니다.
2. 토큰화 : 텍스트를 토큰이라고 하는 개별 단어 또는 하위 단어로 분할합니다.
3. 임베딩 생성 : 일반적으로 훈련을 처음 시작할 때 PyTorch의 nn.Embedding 클래스를 통해 랜덤하게 초기화된 임베딩 테이블을 사용합니다. 또한, Word2Vec, GloVe, FastText 등과 같은 사전 훈련된 임베딩도 사용할 수 있습니다. 이러한 임베딩은 입력 토큰의 맥락화되지 않은 벡터 형식을 나타냅니다.
4. 신경망 훈련 : 입력 토큰에 대한 신경망 모델을 훈련합니다.
  - BERT 및 그 변형과 같은 인코더 모델의 경우 모델은 마스킹된 특정 단어의 전후 맥락(주변 단어)을 예측하는 방법을 학습합니다.
  - BERT는 특히 마스킹된 단어를 예측하는 마스크드 언어 모델링 작업(Masked Language Modeling task 또는 Cloze task)과 다음 문장 예측 작업으로 훈련되었습니다; BERT 입문서에 설명되어 있습니다.
  - GPT-N, LLaMA 등과 같은 디코더 모델의 경우 주어진 이전 토큰들의 맥락을 고려하여 시퀀스의 다음 토큰을 예측하는 방법을 학습합니다.

2.2. 추론 (Reasoning)

LLM에서 추론이 어떻게 작동하는지 살펴보겠습니다; 우리는 추론을 “증거와 논리를 사용하여 추론하는 능력”으로 정의할 것입니다. (source)
추론에는 상식적 추론이나 수학적 추론과 같이 다양한 종류가 있습니다.
마찬가지로, 모델에서 추론을 이끌어내는 방법 또한 다양하며 그 중 하나는 여기에서 언급하는 생각의 사슬(chain-of-thought) 프롬프팅 입니다.
추론과 사실적 정보를 분리하여 최종 결과에 대한 기여도를 분석하는 것은 간단한 일이 아니기 때문에, LLM이 최종 예측을 위해 얼마나 많은 추론을 하는지 아직 알 수 없다는 점을 유의하는 것이 중요합니다.

LLM 정리 3

2024-07-06T00:00:00.000Z

2. LLM은 어떻게 동작하는가

개요에서 언급한 것 처럼 LLM은 이전 토큰 세트를 기반으로 다음 토큰을 예측하도록 훈련되었습니다. 이는 생성기능을 활성화 하는 자동회귀 방식(autoregressive, 현재 생성된 토큰은 다음 토큰을 생성하기 위한 입력으로 거대언어모델에 재입력 됨)을 수행하여 생성을 가능하게 합니다.
첫 번째 단계에서 받은 프롬프트를 토큰화 하고 이를 임베딩으로 변환하는 작업이 수행 됩니다. 임베딩은 입력 텍스트의 벡터 표현입니다. 이러한 임베딩은 무작위로 초기화되어 입력 토큰의 비 의미론적인 벡터 형태를 나타냅니다. 그리고, 모델 훈련 과정에서 맥락화되는 학습이 수행됩니다.
다음으로, 레이어별 어텐션(attentation) 및 피드포워드 연산을 수행하여 최종적으로 어휘의 각 단어에 숫자 또는 로짓(logit)을 출력하거나(GPT-N, LLaMA 등의 디코더 모델) 의미론적 임베딩을 출력합니다(BERT와 같은 인코더 모델 및 RoBERTa, ELECTRA 등과 같은 변형 모델).
마지막으로 디코더 모델의 경우 다음 단계는 각 (정규화되지 않은) 로짓을 (정규화된) 확률 분포(Softmax 함수를 통해)로 변환하여 텍스트에서 다음에 올 단어를 결정하는 것입니다.
아래와 같이 단계를 더 자세히 살펴보겠습니다 :
1. 토큰화 :
  - LLM이 처리를 하기 전에 원시 입력 텍스트는 더 작은 단위(종종 하위 단어 또는 단어)로 토큰화 하여 모델이 인식할 수 있는 조각으로 입력을 나눕니다.
  - 모델에는 고정된 어휘목록(vocabulary)이 있습니다. 따라서, 토큰화 단계는 입력이 어휘목록과 일치하는 형식이 되도록 보장하기 때문에 매우 중요합니다.
  - GPT-3.5 및 GPT-4용 OpenAI 토크나이저는 여기에서 찾을 수 있습니다.
  - 자세한 내용은 토큰화에 대한 입문서를 참조하세요.
2. 임베딩 :
  - 각 토큰은 임베딩 매트릭스를 사용하여 고차원 벡터에 매핑됩니다. 이 벡터 표현은 토큰의 맥락적 의미를 포착하며 모델의 다음 레이어에 입력으로 사용됩니다.
  - 토큰의 순서에 대한 정보를 모델에 제공하기 위해 매핑된 임베딩에 위치 인코딩(positional encoding)이 추가됩니다. 이는 트랜스포머와 같은 모델이 고유한 순서 인식을 갖고 있지 않기 때문에 특히 중요합니다.
3. 트랜스포머 구조 :
  - 대부분의 최신 LLM의 핵심은 트랜스포머 구조입니다.
  - 트랜스포머는 여러 레이어로 구성되어 있으며, 각 레이어에는 두 가지 주요 구성 요소가 있습니다 : multi-head self-attention 메커니즘과 position-wise feed-forward network 입니다.
  - 자기 어텐션 메커니즘(self-attention mechanism)은 각 토큰들이 자신과 관련해 중요성을 갖는 다른 토큰들에게 가중치를 부여할 수 있게 합니다. 이는 본질적으로 주어진 토큰과 관련있는 특정 부분에 대해 모델이 "주의를 기울일" 수 있도록 합니다.
  - 어텐션 연산된 결과는, 각 위치에서 독립적으로 피드포워드 신경망으로 전달됩니다.
  - 자세한 내용은 트랜스포머 아키텍처에 대한 입문서를 참조하세요.
4. 잔차연결 (Residual Connection) :
  - 모델의 각 하위 계층(예: 자기 어텐션 또는 피드포워드 신경망)은 주변에 잔여 연결이 적용된 후 계층 정규화가 수행됩니다. 이는 활성화를 안정화하고 훈련 속도를 높이는 데 도움이 됩니다.
5. 출력 레이어 :
  - 모든 트랜스포머 레이어를 통과한 후, 각 토큰의 최종 표현은 모델의 어휘목록에 있는 각 단어에 대응하는 로짓 벡터로 변환됩니다.
  - 이러한 로짓은 어휘 목록의 각 단어들이 시퀀스의 다음 단어가 될 가능성을 설명합니다.
6. 확률분포 :
  - 로짓을 확률로 변환하기 위해 Softmax 함수가 적용됩니다. 이는 모두 0과 1 사이에 있고 합이 1이 되도록 로짓을 정규화합니다.
  - 어휘 목록의 단어들 중 확률이 가장 높은 단어가 시퀀스의 다음 단어로 선택될 수 있습니다.
7. 디코딩 (Decoding) :
  - 적용되는 상황에 따라 일관되고 문맥에 맞는 시퀀스를 생성하기 위하여, 그리디 디코딩(greedy decoding), 빔 검색(beam search), Top-K 샘플링(top-k sampling)과 같은 다양한 디코딩 전략이 사용됩니다.
  - 자세한 내용은 토큰 샘플링 방법에 대한 입문서를 참조하세요.
여러 단계의 프로세스를 통해, LLM은 인간과 유사한 텍스트를 생성하고, 맥락을 이해하고, 프롬프트에 대한 관련 응답이나 완성을 제공할 수 있습니다.

2.1. LLM 학습 단계

상위 수준에서, LLMs의 훈련에 포함되는 단계는 다음과 같습니다:
1. 문서(코퍼스, corpus) 준비 : 뉴스 기사, 소셜 미디어 게시물, 웹 문서 등 대규모 텍스트 데이터 모음을 수집합니다.
2. 토큰화 : 텍스트를 토큰이라고 하는 개별 단어 또는 하위 단어로 분할합니다.
3. 임베딩 생성 : 일반적으로 훈련을 처음 시작할 때 PyTorch의 nn.Embedding 클래스를 통해 랜덤하게 초기화된 임베딩 테이블을 사용합니다. 또한, Word2Vec, GloVe, FastText 등과 같은 사전 훈련된 임베딩도 사용할 수 있습니다. 이러한 임베딩은 입력 토큰의 맥락화되지 않은 벡터 형식을 나타냅니다.
4. 신경망 훈련 : 입력 토큰에 대한 신경망 모델을 훈련합니다.
  - BERT 및 그 변형과 같은 인코더 모델의 경우 모델은 마스킹된 특정 단어의 전후 맥락(주변 단어)을 예측하는 방법을 학습합니다.
  - BERT는 특히 마스킹된 단어를 예측하는 마스크드 언어 모델링 작업(Masked Language Modeling task 또는 Cloze task)과 다음 문장 예측 작업으로 훈련되었습니다; BERT 입문서에 설명되어 있습니다.
  - GPT-N, LLaMA 등과 같은 디코더 모델의 경우 주어진 이전 토큰들의 맥락을 고려하여 시퀀스의 다음 토큰을 예측하는 방법을 학습합니다.

2.2. 추론 (Reasoning)

LLM에서 추론이 어떻게 작동하는지 살펴보겠습니다; 우리는 추론을 “증거와 논리를 사용하여 추론하는 능력”으로 정의할 것입니다. (source)
추론에는 상식적 추론이나 수학적 추론과 같이 다양한 종류가 있습니다.
마찬가지로, 모델에서 추론을 이끌어내는 방법 또한 다양하며 그 중 하나는 여기에서 언급하는 생각의 사슬(chain-of-thought) 프롬프팅 입니다.
추론과 사실적 정보를 분리하여 최종 결과에 대한 기여도를 분석하는 것은 간단한 일이 아니기 때문에, LLM이 최종 예측을 위해 얼마나 많은 추론을 하는지 아직 알 수 없다는 점을 유의하는 것이 중요합니다.

LLM 정리 1

2024-07-05T00:00:00.000Z

0. 개요

LLM(Large Language Model)은 트랜스포머(transformer) 아키텍처를 활용하는 심층 신경망입니다. LLM은 엄청난 양의 비정형 데이터를 비지도 학습한 파운데이션 모델(foundation model)의 한 종류이며 파인튜닝(fine-tuning)을 통해 다향한 종류의 downstream task 모델로 변형될 수 있습니다.
트랜스포머 구조는 크게 인코더 모델(encoder 모델)과 디코더 모델(decoder model)로 구성됩니다. 두 모델을 구조적인 측면으로 바라보면 몇 가지 차이점을 제외하고는 거의 동일한 구조를 가지고 있습니다. (자세한 내용은 Transformer 입문과 Autoregressive vs. Autoencoder Models를 참조하세요)
아울러, 생성형 인공지능은 디코더 기반 모델이 주로 사용되고 있기 때문에, 본 글에서는 인코더 모델(예: BERT 및 그 변형) 보다는 디코더 모델(예: GPT-x)에 더 중점을 두려고 합니다. 이후 LLM이라는 용어는 디코더 모델을 지칭하고자 합니다.
주어진 텍스트(prompt)가 주어졌을 때, LLM이 본질적으로 하는 일은 해당 시스템이 알고 있는 모든 단어목록(vocabulary - 단어의 부분 또는 토큰)에 대한 확률 분포를 계산하는 것입니다. 단어목록은 사람이 설계하여 모델에 부여하기 때문에 단어목록은 모델마다 다를 수 있으며 GPT-3의 경우 약 50,000개 토큰으로 구성된 단어목록이 있습니다. (Source)
LLM은 여전히 환각현상(hallucination)이나 chain of thought(최근 개선이 있음)같은 수많은 제약 사항을 지니고 있지만, 해당 모델은 통계적 언어 모델링을 수행하도록 학습되었다는 점을 명심하는 것이 중요합니다.

1. 임베딩(Embedding)

자연어 처리(NLP)에서의 임베딩은 단어 또는 문장의 의미론적 및 구문론적 속성을 포착하는 단어나 문장의 밀집된 벡터 표현입니다. 이러한 임베딩은 일반적으로 대규모 텍스트 모음을 BERT 및 그 변형, Word2Vec, Glove 또는 FastText와 같은 모델의 학습을 통해 얻을 수 있으며, 텍스트 정보를 기계 학습 알고리즘이 처리할 수 있는 형식으로 변환하는 방법을 제공합니다. 간단히 말해서, 임베딩은 단어의 의미론적 의미(내부적으로 하나 이상의 토큰으로 표시됨) 또는 문장의 의미론적 및 구문론적 속성을 조밀한 저차원 벡터로 표현하여 캡슐화합니다.
임베딩은 의미론적(contextualized)과 비 의미론적(non-contextualized)으로 구분됩니다. 의미론적의 경우 “bank”와 같은 다의어 단어는 주변의 문맥에 따라서 “finance” 또는 “river”의 의미를 갖는 임베딩으로 변환되어야 합니다. 따라서 의미론적 임베딩은 입력 토근 주변의 다른 토큰들의 함수로 나타내어 집니다. 반면에 비 의미론적에서 각 토큰들의 임베딩은 주변 문맥과 관계없이 사전학습을 통해 정적으로 얻어지며 downstream 작업에 활용될 수 있습니다.
토큰에 대한 임베딩을 얻으려면 각 단어에 대해 훈련된 모델에서 학습된 가중치를 추출합니다. 이러한 가중치는 단어 임베딩을 형성하며, 해당 임베딩은 각 단어의 조밀한 벡터로 표현됩니다.

1.1. 의미론적 임베딩 vs. 비 의미론적 임베딩

BERT (Bidirectional Encoder Representations from Transformers)와 같은 트랜스포머 기반의 인코더 모델들은 의미론적 임베딩을 생성하도록 설계 되었습니다. 각 단어에 적정한 벡터를 할당하는 기존의 단어 임베딩(Word2Vec 또는 GloVe)과는 달리 이러한 모델들은 단어의 문맥(주변 단어들)을 고려합니다. 문맥 안에서 단어들이 어떻게 사용되는지에 따라 동일한 단어도 다른 뜻을 지니기 때문에 이러한 모델은 단어에 대한 더 풍부하고 미묘한 의미를 포착할 수 있습니다.

1.2. 임베딩의 사용 예시

임베딩을 통해 특정작업 수행에 필요한 다양한 산술연산을 할수 있습니다 :
1. 단어 유사도(Word similarity) : 두 단어의 임베딩을 비교하여 유사성을 이해할 수 있습니다. 유사성 비교를 위해 코사인 유사도를 주로 사용합니다. 이는 두 벡터사이를 이루는 각도의 코사인 값을 측정하는 방법입니다. 두 벡터 사이에 코사인 값이 높다는 것은 두 단어들의 사용법이나 의미적인 측면에서 유사도가 높다는 것은 나타냅니다.
2. 단어 유추(Word analogy) : 벡터연산은 단어 유추작업에도 사용할 수 있습니다. 예를 들어 "남자"와 "여자"가 주어지고 이와 유사한 기준으로 왕은 무엇과 대응하는 지를 유추하는 문제가 주어졌을 때 "왕" - "남자" + "여자"의 산술연산을 각 단어에 대응되는 임베딩벡터의 연산을 통해서 "여왕" 이라는 답을 얻을 수 있습니다.
3. 문장 유사도(Sentence similarity) : 두 문장 간의 유사성을 측정하려면 문장의 총 의미를 캡처하도록 설계된 BERT와 같은 모델에서 생성된 특수 [CLS] 토큰 임베딩을 사용할 수 있습니다.
  또는 각 문장에 있는 모든 토큰의 임베딩을 평균화하는 평균 벡터를 만들어 해당 벡터들을 비교할 수 있습니다. 하지만 문장 유사성과 같은 문장 수준 작업의 경우 BERT 모델을 수정한 Sentence-BERT(SBERT)가 더 나은 선택인 경우가 많습니다.
  SBERT는 의미 공간에서 직접적으로 비교할 수 있는 문장 임베딩을 생성하도록 특별히 훈련되었으며, 이는 일반적으로 문장 수준 작업에서 더 나은 성능을 제공합니다. SBERT에서는 두 문장이 동시에 모델에 입력되므로 각 문장의 맥락을 다른 문장과 관련하여 이해할 수 있으므로 더 정확한 문장 임베딩이 가능합니다.

1.3. 임베딩을 통한 유사도 검색

인코더 모델의 출력으로 의미론적 임베딩을 얻게 됩니다. 두 단어간의 유사성 이해, 단어 유추등과 같은 다양한 작업을 위해 임베딩에 대한 산술연산을 할수 있습니다.
단어 유사도 작업에서는 단어들에 대한 각각의 의미론적 임베딩을 사용할 수 있습니다. 반면에 문장 유사도 작업에서는 [CLS] 토근의 아웃풋(output)을 사용할 수 있고 또한 모든 단어 토큰들의 임베딩을 평균화한 임베딩벡터를 사용할 수 있습니다. 하지만 문장 유사도 작업에서 최상의 성능을 얻으려면 Sentence BERT 또는 그 변형 모델들이 선호됩니다.
단어/문장 유사도는 두 단어/문장의 의미가 의미적으로 동일한 정도를 측정한 것입니다.
다음은 단어/문장 유사도에 대한 가장 일반적인 두 가지 척도입니다.
(두 가지 모두 "거리 척도"는 아닙니다.)

1.3.1. 내적 유사도(Dot Product Similarity)

두 벡터 $u$ 와 $v$ 의 내적(dot product)은 다음과 같이 정의 됩니다.
$u \cdot v = ||u|| ||v|| cos\theta$
$||v||=1$ 일때 내적을 활용한 유사도의 측정을 아래의 그림처럼 나타내면 이해가 쉬울 수 있습니다(참고, $cos\theta = \frac{u \cdot v}{||u|| ||v||} = \frac{u \cdot v}{||u||}$ ). 그림에서 보면 내적은 $u$ 를 $v$ 방향으로 사영(projection)시킨 것이며 값의 크기는 $v$ 와 이루는 각도, 그리고 $u$ 의 크기(노름 norm)에 의존합니다.

$\theta = 0$ 일 때, $cos\theta = 1$ 이 되고 두 벡터는 동일 선상에 있고 내적은 각 벡터의 크기간의 곱이 됩니다. 그리고 $\theta$ 가 직각일 때, $cos\theta =0$ 이 되고 두 벡터는 직교하며 내적은 0이 됩니다. 일반적으로 $cos\theta$ 는 두 벡터방향의 유사성을 나타냅니다 ( $-1$ 일 때는 반대 방향을 나타냅니다). 이러한 특징은 차원이 증가해도 보존이 되기 때문에 다차원 공간에서 유사도 측정을 하는데 $cos\theta$ 가 중요하게 사용됩니다. 이것이 유사도 측정에 가장 일반적으로 사용하는 이유가 됩니다.

기하학적 직관

$u$ 와 $v$ 의 내적은 벡터 $u$ 가 벡터 $v$ 로 사영되고 (반대도 성립) $u$ 의 사영된 크기( $||u|| cos\theta$ )와 $v$ 의 크기( $||v||$ )를 곱한 값으로 나타납니다.
$v$ 를 고정한 상태에서 $u$ 의 가능한 모든 회전을 시각화하면 내적은 다음을 제공합니다.
- $u$ 와 $v$ 가 직교할 때 벡터 $u$ 가 벡터 $v$ 로 사영(projection)하면 크기가 0인 벡터가 됨으로 내적은 0이 됩니다. 이것은 직관적으로 유사도가 $0$ 인 것과 대응됩니다.
- $u$ 와 $v$ 가 같은 방향이면 내적은 가장 큰 값 $|u| |v|$ 를 갖습니다.
- $u$ 와 $v$ 가 반대 방향이면 내적은 가장 작은 값 $- |u| |v|$ 를 갖습니다.
$u \cdot v$ 를 $u$ 와 $v$ 의 크기 $||u|| ||v||$ 로 나누면 범위가 $[-1, 1]$ 로 제한되어 스케일이 불변이 되고 이것이 코사인 유사도를 선정하는 이유가 되기도 합니다.

1.3.2. 코사인 유사도(Cosine Similarity)

$CosineSimilarity(u,v) = \frac{u \cdot v}{||u|| ||v||} = \frac{ \Sigma^{n}_{1} u_i v_i }{ \sqrt{ \Sigma^n_1 u^2_i } \sqrt{ \Sigma^n_1 v^2_i } }$

여기서,
- $u$ 와 $v$ 는 비교하고자 하는 두개의 벡터들 입니다.
- 연산 $\cdot$ 는 내적(dot product)을 의미합니다.
- $||u||$ 와 $||v||$ 는 각 벡터들의 크기 (또는 노름, norm)으로 나타내고 $n$ 은 벡터의 차원을 나타냅니다.
앞서 언급을 했지만 길이 정규화 부분(즉, $u \cdot v$ 를 $u$ 와 $v$ 의 크기 $||u|| ||v||$ 로 나눔)은 범위를 $[-1,1]$ 로 제한하여 크기가 변하지 않게 만듭니다.

1.3.3. 코사인 유사도 vs. 내적 유사도

코사인 유사도와 내적 유사도는 모두 텍스트 문서, 사용자 선호도 등을 나타낼 수 있는 벡터 간의 유사성을 결정하는 데 사용되는 기술입니다. 둘 사이의 선택은 특정 사용 사례와 원하는 속성에 따라 달라집니다. 다음은 내적 유사도에 비해 코사인 유사도가 얻을 수 있는 장점을 비교한 것입니다.
- 크기 정규화(Magnitude Normalization) : 코사인 유사도는 크기를 무시하고 두 벡터 사이의 각도만 고려합니다. 이는 길이가 서로 다른 문서나 크기가 유사성을 나타내지 않는 벡터를 비교할 때 특히 유용합니다. 반면에 내적 유사도는 벡터의 크기에 영향을 받습니다. 특정 용어에 대한 언급이 많은 긴 문서는 관련 콘텐츠의 비율이 낮더라도 다른 문서와 높은 내적을 가질 수 있습니다. 동일한 크기를 갖도록 데이터를 정규화하면 두 데이터를 구별할 수 없습니다. 때로는 벡터의 크기를 무시하는 것이 바람직할 때가 있고 이런 경우는 코사인 유사도가 좋은 선택이 될 수 있습니다. 하지만 벡터의 크기가 중요한 역할을 한다면 내적 유사도가 더 좋을 것입니다. 다른 말로 하면 코사인 유사도는 크기를 정규화한 ( $\in [0,1]$ ) 벡터들의 단순한 내적으로 생각할 수 있습니다. 코사인 유사도는 크기가 불변임으로 자연스럽게 다양한 데이터 샘플에(즉, 다양한 길이) 적용될 수 있기 때문에 선호됩니다. 예를 들어 두 개의 문서 세트가 있고 각 세트 내에서 유사성을 계산한다고 가정해 보겠습니다. 그리고 각 세트 내의 문서의 내용은 유사하지만 세트 #1 문서는 세트 #2 문서보다 짧다고 가정하겠습니다. 이때 세트 #1, #2는 임베딩/특징의 크기가 다르게 나타날 수 있고 내적 유사도는 다른 값을 생성하지만 코사인 유사도는 비슷한 값을 생성합니다 (길이가 정규화 되었기 때문). 반면에, 일반 내적은 연산이 적기 때문에 (길이 정규화가 없음) "저렴" 합니다(복잡성과 구현 측면).
- 제한된 값(Bound Values) : 코사인 유사도는 음수가 아닌 차원을 가진 벡터에 대해 -1과 1 사이의 값을 반환하고, 특히 방향이 같은 모든 벡터들에 대해 0과 1 사이의 값을 반환합니다 (문서의 TF-IDF 표현의 경우처럼). 이런 제한된 특성은 해석을 더 쉽게 할수 있습니다. 내적 유사도는 값의 범위가 음의 무한대에서 양의 무한대이기 때문에 정규화 또는 임계값 설정을 더 어렵게 할수 있습니다.
- 높은 차원에서의 견고함(Robustness in High Dimensions) : 차원이 높은 경우 대다수의 벡터들은 거의 직교에 가까운 경향을 나타내고 이는 내적을 하면 거의 0에 가까워짐을 의미한다. 하지만 코사인 유사도는 여전히 의미 있는 차이값을 제공한다. 내적은 각 차원에 따라서 그 값이 매우 민감하고 특히, 차원이 높은 경우 그 영향을 더 많이 받습니다. 벡터가 음수가 아니고 크기가 텍스트 길이에 영향을 받을 수 있는 TF-IDF와 같은 모델로 텍스트를 표현할 때 코사인 유사도가 더 적합합니다.
- 일반적인 사용 사례(Common Use Cases) : 코사인 유사도는 텍스트 분석, 정보 검색 및 추천 시스템 영역에서의 효율성 때문에 해당 영역들에서 광범위하게 사용됩니다. 내적 유사도는 고유한 장점이 있지만 추가적인 정규화 없이는 이러한 사용 사례에 적합하지 않을 수 있습니다.
- 직관성(Intuitiveness) : 많은 시나리오에서 각도 측면에서 생각하는 것이 원시 투영을 고려하는 것보다 더 직관적일 수 있습니다. 예를 들어, 두 벡터가 크기에 관계없이 정확히 동일한 방향을 가리키는 경우 코사인 유사도는 1이며 이는 완벽한 유사성을 나타냅니다.
- 중심계산(Centroid Calculation) : 클러스터링과 같이 여러 벡터들의 중심(평균)을 계산하려고 할 때 중심은 코사인 유사도 하에서 의미 있는 상태로 유지됩니다. 벡터의 평균을 낸 다음 다른 벡터와 코사인 유사도를 사용하여 비교하면 벡터가 "평균" 벡터와 얼마나 유사한지를 측정할 수 있습니다. 내적 유사도의 경우는 반드시 그런 것은 아닙니다. 이러한 장점에도 불구하고 일부 응용 프로그램(특히 신경망과 딥러닝 분야에서는) 계산 속성과 학습된 임베딩의 특성 때문에 원시 내적(때로 정규화 단계가 뒤따름)이 선호된다는 사실을 주목할 가치가 있습니다. 따라서 위의 측정방법 중 선택을 할 때는 항상 특정 응용 프로그램과 데이터 속성을 고려해야 합니다.

LLM 정리 2

2024-07-05T00:00:00.000Z

2. LLM은 어떻게 동작하는가

개요에서 언급한 것 처럼 LLM은 이전 토큰 세트를 기반으로 다음 토큰을 예측하도록 훈련되었습니다. 이는 생성기능을 활성화 하는 자동회귀 방식(autoregressive, 현재 생성된 토큰은 다음 토큰을 생성하기 위한 입력으로 거대언어모델에 재입력 됨)을 수행하여 생성을 가능하게 합니다.
첫 번째 단계에서 받은 프롬프트를 토큰화 하고 이를 임베딩으로 변환하는 작업이 수행 됩니다. 임베딩은 입력 텍스트의 벡터 표현입니다. 이러한 임베딩은 무작위로 초기화되어 입력 토큰의 비 의미론적인 벡터 형태를 나타냅니다. 그리고, 모델 훈련 과정에서 맥락화되는 학습이 수행됩니다.
다음으로, 레이어별 어텐션(attentation) 및 피드포워드 연산을 수행하여 최종적으로 어휘의 각 단어에 숫자 또는 로짓(logit)을 출력하거나(GPT-N, LLaMA 등의 디코더 모델) 의미론적 임베딩을 출력합니다(BERT와 같은 인코더 모델 및 RoBERTa, ELECTRA 등과 같은 변형 모델).
마지막으로 디코더 모델의 경우 다음 단계는 각 (정규화되지 않은) 로짓을 (정규화된) 확률 분포(Softmax 함수를 통해)로 변환하여 텍스트에서 다음에 올 단어를 결정하는 것입니다.
아래와 같이 단계를 더 자세히 살펴보겠습니다 :
1. 토큰화 :
  - LLM이 처리를 하기 전에 원시 입력 텍스트는 더 작은 단위(종종 하위 단어 또는 단어)로 토큰화 하여 모델이 인식할 수 있는 조각으로 입력을 나눕니다.
  - 모델에는 고정된 어휘목록(vocabulary)이 있습니다. 따라서, 토큰화 단계는 입력이 어휘목록과 일치하는 형식이 되도록 보장하기 때문에 매우 중요합니다.
  - GPT-3.5 및 GPT-4용 OpenAI 토크나이저는 여기에서 찾을 수 있습니다.
  - 자세한 내용은 토큰화에 대한 입문서를 참조하세요.
2. 임베딩 :
  - 각 토큰은 임베딩 매트릭스를 사용하여 고차원 벡터에 매핑됩니다. 이 벡터 표현은 토큰의 맥락적 의미를 포착하며 모델의 다음 레이어에 입력으로 사용됩니다.
  - 토큰의 순서에 대한 정보를 모델에 제공하기 위해 매핑된 임베딩에 위치 인코딩(positional encoding)이 추가됩니다. 이는 트랜스포머와 같은 모델이 고유한 순서 인식을 갖고 있지 않기 때문에 특히 중요합니다.
3. 트랜스포머 구조 :
  - 대부분의 최신 LLM의 핵심은 트랜스포머 구조입니다.
  - 트랜스포머는 여러 레이어로 구성되어 있으며, 각 레이어에는 두 가지 주요 구성 요소가 있습니다 : multi-head self-attention 메커니즘과 position-wise feed-forward network 입니다.
  - 자기 어텐션 메커니즘(self-attention mechanism)은 각 토큰들이 자신과 관련해 중요성을 갖는 다른 토큰들에게 가중치를 부여할 수 있게 합니다. 이는 본질적으로 주어진 토큰과 관련있는 특정 부분에 대해 모델이 "주의를 기울일" 수 있도록 합니다.
  - 어텐션 연산된 결과는, 각 위치에서 독립적으로 피드포워드 신경망으로 전달됩니다.
  - 자세한 내용은 트랜스포머 아키텍처에 대한 입문서를 참조하세요.
4. 잔차연결 (Residual Connection) :
  - 모델의 각 하위 계층(예: 자기 어텐션 또는 피드포워드 신경망)은 주변에 잔여 연결이 적용된 후 계층 정규화가 수행됩니다. 이는 활성화를 안정화하고 훈련 속도를 높이는 데 도움이 됩니다.
5. 출력 레이어 :
  - 모든 트랜스포머 레이어를 통과한 후, 각 토큰의 최종 표현은 모델의 어휘목록에 있는 각 단어에 대응하는 로짓 벡터로 변환됩니다.
  - 이러한 로짓은 어휘 목록의 각 단어들이 시퀀스의 다음 단어가 될 가능성을 설명합니다.
6. 확률분포 :
  - 로짓을 확률로 변환하기 위해 Softmax 함수가 적용됩니다. 이는 모두 0과 1 사이에 있고 합이 1이 되도록 로짓을 정규화합니다.
  - 어휘 목록의 단어들 중 확률이 가장 높은 단어가 시퀀스의 다음 단어로 선택될 수 있습니다.
7. 디코딩 (Decoding) :
  - 적용되는 상황에 따라 일관되고 문맥에 맞는 시퀀스를 생성하기 위하여, 그리디 디코딩(greedy decoding), 빔 검색(beam search), Top-K 샘플링(top-k sampling)과 같은 다양한 디코딩 전략이 사용됩니다.
  - 자세한 내용은 토큰 샘플링 방법에 대한 입문서를 참조하세요.
여러 단계의 프로세스를 통해, LLM은 인간과 유사한 텍스트를 생성하고, 맥락을 이해하고, 프롬프트에 대한 관련 응답이나 완성을 제공할 수 있습니다.

2.1. LLM 학습 단계

상위 수준에서, LLMs의 훈련에 포함되는 단계는 다음과 같습니다:
1. 문서(코퍼스, corpus) 준비 : 뉴스 기사, 소셜 미디어 게시물, 웹 문서 등 대규모 텍스트 데이터 모음을 수집합니다.
2. 토큰화 : 텍스트를 토큰이라고 하는 개별 단어 또는 하위 단어로 분할합니다.
3. 임베딩 생성 : 일반적으로 훈련을 처음 시작할 때 PyTorch의 nn.Embedding 클래스를 통해 랜덤하게 초기화된 임베딩 테이블을 사용합니다. 또한, Word2Vec, GloVe, FastText 등과 같은 사전 훈련된 임베딩도 사용할 수 있습니다. 이러한 임베딩은 입력 토큰의 맥락화되지 않은 벡터 형식을 나타냅니다.
4. 신경망 훈련 : 입력 토큰에 대한 신경망 모델을 훈련합니다.
  - BERT 및 그 변형과 같은 인코더 모델의 경우 모델은 마스킹된 특정 단어의 전후 맥락(주변 단어)을 예측하는 방법을 학습합니다.
  - BERT는 특히 마스킹된 단어를 예측하는 마스크드 언어 모델링 작업(Masked Language Modeling task 또는 Cloze task)과 다음 문장 예측 작업으로 훈련되었습니다; BERT 입문서에 설명되어 있습니다.
  - GPT-N, LLaMA 등과 같은 디코더 모델의 경우 주어진 이전 토큰들의 맥락을 고려하여 시퀀스의 다음 토큰을 예측하는 방법을 학습합니다.

2.2. 추론 (Reasoning)

LLM에서 추론이 어떻게 작동하는지 살펴보겠습니다; 우리는 추론을 “증거와 논리를 사용하여 추론하는 능력”으로 정의할 것입니다. (source)
추론에는 상식적 추론이나 수학적 추론과 같이 다양한 종류가 있습니다.
마찬가지로, 모델에서 추론을 이끌어내는 방법 또한 다양하며 그 중 하나는 여기에서 언급하는 생각의 사슬(chain-of-thought) 프롬프팅 입니다.
추론과 사실적 정보를 분리하여 최종 결과에 대한 기여도를 분석하는 것은 간단한 일이 아니기 때문에, LLM이 최종 예측을 위해 얼마나 많은 추론을 하는지 아직 알 수 없다는 점을 유의하는 것이 중요합니다.

LLM 정리 0

2024-06-20T00:00:00.000Z

Blog posts support Docusaurus Markdown features, such as MDX.

tip

Use the power of React to create interactive blog posts.

<button onClick={() => alert('button clicked!')}>Click me!</button>

자동차 산업을 위한 IT기술을 연구 합니다. Blog

Welcome

LLM 정리 5

2. LLM은 어떻게 동작하는가​

2.1. LLM 학습 단계​

2.2. 추론 (Reasoning)​

LLM 정리 4

2. LLM은 어떻게 동작하는가​

2.1. LLM 학습 단계​

2.2. 추론 (Reasoning)​

LLM 정리 3

2. LLM은 어떻게 동작하는가​

2.1. LLM 학습 단계​

2.2. 추론 (Reasoning)​

LLM 정리 1

0. 개요​

1. 임베딩(Embedding)​

1.1. 의미론적 임베딩 vs. 비 의미론적 임베딩​

1.2. 임베딩의 사용 예시​

1.3. 임베딩을 통한 유사도 검색​

1.3.1. 내적 유사도(Dot Product Similarity)​

기하학적 직관​

1.3.2. 코사인 유사도(Cosine Similarity)​

1.3.3. 코사인 유사도 vs. 내적 유사도​

LLM 정리 2

2. LLM은 어떻게 동작하는가​

2.1. LLM 학습 단계​

2.2. 추론 (Reasoning)​

LLM 정리 0

2. LLM은 어떻게 동작하는가

2.1. LLM 학습 단계

2.2. 추론 (Reasoning)

2. LLM은 어떻게 동작하는가

2.1. LLM 학습 단계

2.2. 추론 (Reasoning)

2. LLM은 어떻게 동작하는가

2.1. LLM 학습 단계

2.2. 추론 (Reasoning)

0. 개요

1. 임베딩(Embedding)

1.1. 의미론적 임베딩 vs. 비 의미론적 임베딩

1.2. 임베딩의 사용 예시

1.3. 임베딩을 통한 유사도 검색

1.3.1. 내적 유사도(Dot Product Similarity)

기하학적 직관

1.3.2. 코사인 유사도(Cosine Similarity)

1.3.3. 코사인 유사도 vs. 내적 유사도

2. LLM은 어떻게 동작하는가

2.1. LLM 학습 단계

2.2. 추론 (Reasoning)