$$ \underset{x}{\operatorname{argmax}}~\Psi(x,y)\tag{1.1.1} $$
모든 확률 변수가 독립이라고 가정하여 다음 상태 예측
단어 가방 $x$와 label $y$의 결합 확률은 $p(x,y)$로 표기한다. 이미 라벨링된 $N$개의 인스턴스 ${(x^{(i)},y^{(i)})}_{i=1}^N$을 가지고 있다고 하자.
Bag of Words란 특정 단어의 출현 횟수를 바탕으로 문서를 표현하는 모델을 말한다. 다중 클래스 분류를 예시로 들어보자. 다중 클래스 분류를 위해 문서 벡터 $x$ 와 label $y$간의 적합도를 반환하는 함수 $\Psi(x,y)$는 다음과 같이 쓸 수 있다:
$$ \Psi(x, y)=\theta \cdot f(x,y) = \theta^{T} f(x, y)\tag{1.4.1} $$
여기서 $f$는 feature vector로 각 label에 대한 BoW를 나타낸다. 즉, $|f|=|K \times V|$이다. 가능한 label의 집합을 $K$이라고 한다면 $y \in K$ 이고 $f(x,y)$는 label이 $y$인 문서들의 BoW이다.
$$ \begin{align*}f(x, y=1)&=[x;\underbrace{0;0;\dots;0}{(K-1) \times V}]\\f(x, y=2)&=[\underbrace{0;0;\dots;0}{V};x;\underbrace{0;0;\dots;0}{(K-2) \times V}] \\&\vdots \\f(x, y=K)&=[\underbrace{0;0;\dots;0}{(K-1) \times V};x]\end{align*} $$
일반적으로 $x$의 끝에 offset feature 1을 추가하고 나머지 label의 BoW에 0을 추가해준다. 따라서
$$ |f|=|(V+1) \times K| $$