본문 바로가기
AI/RAG 이론

Embedding : Word2Vec, 임베딩 기법의 근본적인 성립 조건

by 데이터 쿡북 2025. 7. 10.

 

[ chatGPT를 이용해 생성한 답변을 참고합니다. ]

질문 :  "king", "queen", "prince"는 모두 비슷한 문맥에서 등장" 하기 때문에 알 수 있다고 하나, 비슷한 문맥에서 등장을 한다는 보장이 없다면 비슷한 백터라고 하기 어려울 것 같은데 어떻게 알 수 있는가?

 

아주 훌륭한 질문이에요.
Word2Vec, 아니 전체 임베딩 기법의 근본적인 성립 조건에 대한 본질을 짚으셨어요.
당신이 지적한 대로,

"비슷한 문맥에서 등장한다는 전제가 틀리면, 임베딩은 제대로 작동하지 않는다."

그렇습니다. Word2Vec을 포함한 모든 분산 표현(distributed representation)은 이 전제 위에서 작동합니다.


🔹 핵심 개념: Distributional Hypothesis (분포 가설)

단어의 의미는 그 단어가 사용되는 문맥에 의해 정의된다.
(You shall know a word by the company it keeps.) — Firth (1957)

이게 Word2Vec을 포함한 모든 단어 임베딩 모델의 철학적 기반이에요.

예:

  • "king", "queen", "prince"는 실제로 뉴스, 책, 위키 등 방대한 말뭉치에서같은 비슷한 문맥에서 반복적으로 등장합니다.
  • "The ___ ruled the kingdom" "The ___ married the princess" "The ___ was crowned yesterday"

이러한 대규모 말뭉치 (corpus)자연 언어의 통계적 패턴을 잘 반영한다면,
의미가 비슷한 단어는 실제로 비슷한 문맥에 나타나는 경향이 있다는 것이 관찰됩니다.


🔹 그럼 만약, 문맥이 비슷하게 등장하지 않는다면?

1. 그 단어는 잘 학습되지 않거나, 의미가 잘못 추론될 수 있습니다.

예:

  • "koala"라는 단어가 말뭉치에 거의 안 나오면
  • "kangaroo"와 같은 문맥에서 등장하지 않고
  • 결국 "koala"의 벡터는 무작위처럼 남을 수 있습니다.

2. 말뭉치가 편향되면 벡터도 편향됩니다.

예:

  • "doctor"는 항상 남성과 함께,
  • "nurse"는 여성과 함께 등장했다면,
  • 벡터 간 연산에서 성별 편향이 나타납니다.

🔹 그렇다면 Word2Vec은 왜 그럼에도 잘 작동하는가?

  • Word2Vec은 몇 문장이 아니라 수십억 개의 문장을 학습합니다.
  • 실제로 인간이 사용하는 언어는 놀랍도록 반복적인 통계적 패턴을 갖고 있습니다.

즉, 다음과 같은 전제들이 현실에서 꽤 잘 맞아떨어지기 때문입니다:

전제 현실에서 맞는가?
비슷한 의미의 단어는 비슷한 문맥에 등장한다 ✔ 대부분 참
충분한 말뭉치를 모으면 패턴이 드러난다 ✔ 참
문맥을 통해 의미를 유추할 수 있다 ✔ 참

🔍 요약: 당신의 질문의 핵심에 대한 정답

질문 답변
"비슷한 문맥에서 등장한다는 보장이 있나?" 절대적인 보장은 없지만, 자연어 말뭉치는 그 경향을 강하게 가지고 있음
"그렇지 않다면 벡터도 비슷하지 않을 것 아닌가?" 맞습니다. 문맥이 다르면 벡터는 다릅니다. Word2Vec은 통계적 경향성을 전제로 함
"이건 데이터에 전적으로 의존하는가?" 맞습니다. 말뭉치의 크기, 품질, 다양성이 모델 성능의 핵심입니다

🔧 그래서 실무에서 어떻게 보완할까?

  • 말뭉치 정제: 불균형한 문장을 제거
  • 정규화 / 표제어 처리: 다양한 표현을 같은 의미로 통일
  • 사전학습 모델 사용: 이미 수십억 단어로 학습된 모델 사용 (ex. GloVe, FastText, OpenAI embedding)

 

공감 버튼이 큰 힘이 됩니다.

댓글