https://ieeexplore.ieee.org/abstract/document/8269806
Multimodal Machine Learning: A Survey and Taxonomy
Our experience of the world is multimodal - we see objects, hear sounds, feel texture, smell odors, and taste flavors. Modality refers to the way in which something happens or is experienced and a research problem is characterized as multimodal when it inc
ieeexplore.ieee.org
2025.04.05 - [[CoIn]] - [CoIn] 논문 리뷰 | Multimodal Machine Learning:A Survey and Taxonomy
[CoIn] 논문 리뷰 | Multimodal Machine Learning:A Survey and Taxonomy
https://ieeexplore.ieee.org/abstract/document/8269806 Multimodal Machine Learning: A Survey and TaxonomyOur experience of the world is multimodal - we see objects, hear sounds, feel texture, smell odors, and taste flavors. Modality refers to the way in wh
hw-hk.tistory.com
4. Translation
멀티모달 머신러닝의 큰 부분중 하나는 한 모달리티에서 다른 모달리티로 변환(매핑) 하는 것입니다. 예를 들어 어떤 모달리티에 있는 entity를 주면, 그것과 같은 entity를 다른 모달리티로 생성하는 것이 과제입니다. 예를 들어, 이미지를 주고 그 이미지를 설명하는 문장을 생성하거나, 문장 설명을 주고 그에 맞는 이미지를 생성하는 것이 이에 해당합니다.
멀리모달 변환(multimodal translation)은 오래전부터 연구되어 온 문제로, 초기의 연구로는 다음과 같은 것들이 있습니다:
- 음성 합성(speech synthesis)
- 시각적 음성 생성(visual speech generation)
- 비디오 설명(video description)
- 크로스 모달 검색(cross-modal retrieval)
최근에는 컴퓨터 비전과 자연어 처리 커뮤니티의 협력 및 대규모 멀티모달 데이터셋의 등장 덕분에 멀티모달 변환이 다시 주목받고 있습니다. 특히 인기 있는 문제는 시각적 장면 설명(visual scene description)으로, 이미지 캡셔닝(image captioning) 및 비디오 캡셔닝(video captioning)입니다. 이는 컴퓨터 비전과 NLP의 여러 문제를 시험할 수 있는 훌륭한 테스트베드이기도 합니다.
이런 task를 해결하기 위해서는:
- 시각적 장면을 완전히 이해하고
- 중요한 부분(salient parts)을 식별하며
- 문법적으로 올바르고, 포괄적이면서 간결한 문장을 생성해야 합니다.
멀티모달 변환에 대한 접근 방식은 매우 다양하며 종종 모달리티에 따라 특화되어 있지만, 공통된 요소가 존재합니다. 해당 논문에서는 두 가지 유형으로 이를 분류합니다:
- 예시 기반(example-based)
- 생성 기반(generative)
예시 기반 모델은 변환할 때 사전(dictionary)을 사용합니다. 반면 생성 기반 모델은 스스로 변환을 생성할 수 있는 모델을 구축합니다. 이 구분은 비모수(non-parametric) vs. 모수(parametric) 머신러닝 접근 방식의 구분과 유사하며 fig. 2에서 그림으로 나타내고 있습니다.
일반적으로 생성 기반 모델의 구축이 더 어렵습니다. 왜냐하면 신호나 기호(예: 문장)의 시퀀스를 생성하는 능력이 필요하기 때문입니다. 이는 시각, 음향, 언어 등 어떤 모달리티에서도 어려운 작업입니다. 특히, 시간적(temporal) 및 구조적(structural) 일관성을 유지하면서 시퀀스를 생성해야할 때 더욱 어렵습니다.
이러한 이유로 초기 멀티모달 변환 시스템들은 대부분 예시 기반 번역(example-based translation)에 의존했습니다. 하지만 최근에는 이미지 생성, 음성 생성, 텍스트 생성이 가능한 딥러닝 모델의 등장으로 이 상황이 변화하고 있습니다.
4.1 예시 기반 (Example-Based)
예시 기반 알고리즘은 훈련 데이터(즉, 사전)에 의해 제약을 받습니다. *당연히! 사전에 기반해서 검색하기 때문에 사전의 퀄리티가 좋아야합니다. 해당 논문에서는 이를 검색 기반과 조합 기반 두 가지고 구분합니다. (1) 검색 기반 모델은 검색된 번역 결과를 수정 없이 그대로 사용합니다. (2) 반면 조합 기반 모델은 여러 검색 결과를 기반으로 번역을 생성하는 더 복잡한 규칙을 사용합니다.
검색 기반 모델은 아마도 가장 단순한 형태의 멀티모달 번역 방식일 것입니다. 사전(dictionary)에서 가장 가까운 샘플을 찾아 번역 결과로 사용하는데, 이 검색은 단일 모달리티 공간(검색 기반 모델) 또는 중간 의미 공간(조합 기반 모델)에서 수행할 수 있습니다.
단일 모달리티 검색(unimodal retrieval)은 입력 모달리티(예: 이미지의 시각적 특징 공간)에서 가장 가까운 예시를 찾습니다. 이는 다음의 예시에 적용된 바가 있습니다:
- 시각적 음성 합성(visual speech synthesis)나 텍스트-음성 변환 시스템
- Ordonez et al. 은 글로벌 이미지 특징을 이용해 캡션 후보를 검색하거나, Yagcioglu et al. 은 CNN 기반 이미지 표현으로 비슷한 이미지를 검색하는 방법을 제안했습니다.
- Devlin et al. 은 간단한 k-NN만으로도 복잡한 생성 모델과 경쟁할 수 있는 번역 성능을 보여줬습니다.
https://jeongwooyeol0106.tistory.com/169?category=1000515
[논문] VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic Voice Over
https://arxiv.org/abs/2110.03342 VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic Voice OverIn this paper, we formulate a novel task to synthesize speech in sync with a silent pre-recorded video, denoted as automatic voice over (AVO).
jeongwooyeol0106.tistory.com
(visual speech synthesis 관련 논문, 해당 논문은 단일 모달 검색은 아님.)
*단일 모달 검색의 경우는 입력 모달리티에 대한 임베딩만 수행합니다. 입력 모달리티의 특징 공간 상에서의 거리를 기반으로 유사성(예: L2, 코사인 distance)을 판단하여 가장 유사한 입력 모달리티에 대한 벡터를 검색, 해당 벡터에 연결된 출력을 결과로 반환합니다.
단일 모달 검색은 오직 하나의 모달리티 표현만 이용해서 검색을 수행할 수 있다는 점입니다. 하지만 단일 모달 검색은 추가적인 멀티모달 후처리(예: 검색 결과 재정렬)가 필요합니다. 이는 단일 모달리티 공간에서 비슷하게 보여도 실제로는 좋은 번역이 아닐 수 있다는 한계를 드러냅니다. 이에 대한 대안으로 중간 의미 공간(semantic space)을 활용하는 검색이 있습니다.
중간 의미 공간이 사용된 예는 다음과 같습니다:
- Farhadi et al. 은 수작업으로 만든 의미 공간(예: <object, action, secene>)을 사용했습니다.
- Socher et al. 은 문장과 CNN 이미지 특징을 조정된 공간으로 학습해 쌍방향 번역(text-to-image, image-to-text)을 가능하게 했습니다.
- Xu et al., Jiang and Li, Cao et al., Hodosh et al. 등은 다양한 방법(cross-modal hashing, KCCA 등)을 통해 이미지-문장 검색을 수행했습니다.
의미 공간 기반 검색은 단일 모달 검색보다 더 의미 있는 공간에서 이뤄지므로 성능이 좋고, 양방향 번역도 가능합니다. 하지만, 의미 공간을 수작업으로 만들거나 이를 학습시키는 데에는 대규모의 학습 데이터가 필요합니다.
조합 기반 모델은 검색 기반 방법을 한 단계 확장한 것입니다. 이는 사전에서 예시를 검색해오는 것에 그치지 않고, 이들을 의미 있게 조합하여 더 나은 번역을 생성하는 방법입니다. 이때 조합에 사용하는 대부분의 규칙들은 수작업이거나, 휴리스틱하게 설정된 것들입니다.
- Kuznetsova et al. 은 시각적으로 비슷한 이미지들에서 구문들을 검색한 후, 정수 선형 계획법(Integer Linear Programing)과 수작업 규칙들을 적용하여 새로운 설명을 생성했습니다.
- Gupta et al. 은 k개의 비슷한 이미지들을 검색한 후 검색된 이미지들의 캡션들을 추출해 target sentence를 생성하는 방법을 사용했습니다.
- Lebret et al. 은 CNN 기반의 이미지 표현을 사용해 구문을 추론했는데, 이는 trigram constrained language model을 사용했습니다.
예시 기반 번역은 저체 사전이 모델이기 때문에 추론 속도가 매우 느리고 최적화 하기가 매우 어렵습니다(예: 해싱). 또한 완벽한 translation이 항상 사전에 존재한다고 기대하는 것은 비현실적입니다. *심지어 매우 작은 태스크에서 매우 큰 사전을 사용한다고 하더라도... 조합 모델은 더 복잡한 구조를 생성할 수 있긴 하지만, 단방향 translation만 가능하다는 한계가 있습니다. *하지만 뭐.. 공간 기반 검색 모델은 양방향 번역이 가능하긴합니다.
4.2 생성 기반 접근법 (Generative Approaches)
생성 기반 접근법은 단일 모달 source instance가 주어졌을 때 멀티모달 translation을 수행할 수 있는 모델을 구성합니다. 이 문제는 입력 모달리티를 이해하고, 출력 모달리티의 시퀀스 또는 신호를 생성하는 능력을 요구하기 때문에 매우 도전적인 문제입니다. 또한 가능한 정답 공간이 매우 크기 때문에 이러한 방법들의 평가 역시 훨씬 더 어렵습니다.
해당 논문에서는 생성 기반 모델을 세 가지 주요 범주로 분류합니다:
- 문법 기반(grammer-based)
- 인코더-디코더(encoder-decoder)
- 연속 생성 모델(continuous generation models)
문법 기반 모델은 문법을 사용하여 목표 도메인을 제한함으로써 작업을 단순화 시키는 것입니다. 예를 들어 이미지에 대한 설명을 생성하는 태스크에서 출력의 템플릿은 <주어, 목적어, 동사>로 제한하여 생성합니다. 인코더-디코더 모델은 입력 모달리티를 latent representation으로 인코딩한 후, 이를 디코더가 사용하여 출력을 생성합니다. 연속 생성 모델은 입력 모달리티의 stream을 기반으로 연속적으로 출력 모달리티를 생성하며, 주로 텍스트-음성 변환 같은 시퀀스 간 translation에 적합합니다.
4.2.1 문법 기반 모델
문법 기반 모델은 특정 모달리티를 생성하기 위해 미리 정의된 문법에 의존합니다. 이들은 입력 모달리티(예: 이미지, 비디오)로부터 객체나 동작과 같은 고수준의 개념을 감지하고, 이 감지 결과를 미리 정의된 문법을 이용한 생성 절차에 의해 출력 모달리티를 생성합니다.
(다양한 논문들 제시. 자세한 내용은 논문 참조)
이런 문법 기반 방법은 미리 정의된 템플릿과 제한된 문법을 사용하므로 문법적 또는 논리적으로 올바른 출력을 생성할 가능성이 높습니다. 하지만 창의적인 번역이 어렵고, 개념 감지를 위한 복잡한 파이프라인이 필요하며 *당연한것이 이미지의 인식 결과를 문법에 끼워맞추는 과정이 매우 복잡할 수밖에 없다. 각 개념마다 별도의 모델과 학습 데이터셋이 요구됩니다.
4.2.2 인코더-디코더 모델
end-to-end로 학습된 신경망 기반 인코더-디코더 모델은 현재 멀티모달 번역에서 가장 인기 있는 기법 중 하나입니다. 이 모델의 핵심 아이디어는 소스 모달리티를 벡터 표현으로 인코딩하고, 이를 디코더 모듈을 사용해 타겟 모달리티를 생성하는 것입니다. 원래 이는 기계번역에 사용되었지만, 이후 이미지 캡셔닝, 비디오 설명 등에 성공적으로 사용되었습니다.
음향신호를 인코딩하는 대표적인 모델은 RNN과 DBN입니다. 단어 및 문장을 인코딩하는 데는 분포 의미론(distributional sementics, 예: word2vec)이나 RNN의 변형을 사용합니다. 이미지를 인코딩하는 대표적인 모델은 CNN이며, 비디오의 경우는 비디오 학습 방법들이나 hand-crafted방식을 여전히 사용합니다. 각각의 소스 모달리티에 대한 표현을 인코딩하는데 사용할 수도 있지만 더 나은 결과를 위해 Section 3.2에서 본 coordinated representation을 사용하기도 합니다.
디코딩은 주로 RNN이나 LSTM을 사용하며, 인코딩된 표현을 초기 hidden state로 사용합니다. 이때 LSTM을 사용하면 time step이 지나면 지날수록 이미지에 대한 정보를 잃어버릴 수 있기 때문에 디코딩에서의 생성과 이미지를 더 밀접하게 연결시키기 위해 guide vector를 사용하기도 합니다. *guide vector는 각 timestep에서의 LSTM모듈에 이미지 벡터를 추가적으로 넣어주어서 그때 그때의 이미지를 기억하도록 하는 방법입니다.
앞서 말했듯 이미지나 문장, 비디오를 하나의 벡터로만 요약하는 것은 긴 시퀀스를 생성할 때 입력 정보를 잊어버리는 경향이 있을 수 있습니다. 이를 해결하기 위해 인코딩된 정보를 디코딩의 모든 단계에 주입하거나(예: guide vector), Attention모델을 사용할 수 있습니다(section 5.2). 생성적 어텐션 기반 RNN은 문장에서 이미지를 생성하는 데에도 사용되었으나, 아직 사실적인 품질은 부족합니다. *최근에는 RNN대신 GAN을 이용한 텍스트-이미지 생성이 활발히 연구되고 있습니다.
2) Generative Adversarial Networks (GANs)
## Background GAN은 2014년, Ian Goodfellow의 "Generative Adversarial Network"라는 논문에서 처음 제시되었습니다. CNN의 …
wikidocs.net
하지만 인코더-디코더 모델의 경우 신경망이 실제로 이해를 하는 것이 아니라 단순히 학습 데이터를 암기하는 것일 수도 있습니다. Devlin et al.에 따르면 k-NN알고리즘을 활용한 모델과 생성에 기반한 모델이 비슷한 성능을 냈기 때문입니다. 또한 이러한 모델들은 훈련에 대규모 데이터가 필요하다는 문제도 존재합니다.
4.2.3 연속 생성 모델 (Continuous Generation Models)
연속 생성 모델은 시퀀스 번역에 적합하며, 각 timestep마다 출력을 생성합니다. 이런 모델들은 텍스트-음성, 음성-텍스트, 비디오-텍스트 번역에서 유용하게 사용되어왔습니다. 여기에도 정말 많은 방법론들이 존재하며, 초기에는 그래픽 모델이나 잠재 변수 모델이 주로 사용되었습니다.
(이에 활용된 논문들 소개...)
최근에는 연속형 인코더-디코더 모델이 주목을 받는 중입니다. 하지만 여기에서 발생할 수 있는 추가적인 문제로는 서로 다른 모달리티 간의 시간적 일관성 문제가 있습니다.
4.3 모델 평가 및 논의 (Model Evaluation and Discussion)
멀티 모달 번역 방법이 직면한 주요 도전 과제 중 하나는, 이를 평가하는 것이 매우 어렵다는 점입니다. 음성 인식(speech recognition)과 같은 일부 작업에서는 단일한 정답이 존재하지만, 음성 합성(speech synthesis)이나 미디어 설명(media description)과 같은 작업에서는 그렇지 않습니다. 때때로 언어 번역처럼, 여러 답변이 모두 정답일 수 있으며 어떤 번역이 더 나은지를 결정하는 것은 종종 주관적입니다.
다행히도, 모델 평가를 돕기 위한 몇 가지 근사적인 자동 평가 기준이 존재하긴 합니다. 주관적인 작업을 평가하는 가장 이상적인 방법은 "사람의 판단"입니다. (1) 이때는 리커트 척도(Likert scale)를 사용해 특정 기준에 따라 translation을 평가할 수 있습니다. 예를 들어:
- 음성 합성의 자연스러움 및 평균 의견 점수(mean opinion score)
- 시각적 음성 합성의 사실성(realism)
- 미디어 설명의 문법적/의미적 정확성, 관련성, 순서, 세부사항
(2) 또 다른 방법으로는 선호도 조사를 수행할 수 있습니다. 예를 들어 참가자에게 두 개(또는 그 이상의) tranlsation 결과를 제시하고 어던 것을 선호하는지 비교하도록 합니다.
하지만 이런 사용자 연구(user study)는 인간 판단과 가장 가까운 평가 결과를 제공하는 반면, 시간이 오래 걸리고 비용이 많이 들며, 유창성이나 연령, 성별, 문화적 편향을 피하기 위해서는 신중하게 설계하고 수행해야합니다. 결과적으로는 인간 연구가 평가의 gold standard이긴 하지만, 미디어 설명 작업과 같은 태스크를 위해서는 자동 대체 방법들도 제안되었습니다:
- BLEU
- ROUGE
- METEOR
- CIDEr
그러나 이들 지표는 많은 비판들을 받아왔고, 인간 판단과는 약한 상관관계만을 보이는 것으로 나타났습니다. 이에 Hodosh et al. 은 이미지 캡셔닝 평가를 위해 "검색"을 대체 방법으로 사용할 것을 제안하기도 했습니다. 캡션을 생성하는 대신, 검색 기반 시스템이 이미지에 가장 잘 맞는 기존 캡션들의 순위를 매깁니다. 그리고 정답 캡션이 높은 순위에 위치하는지를 평가하는 것입니다.
한편 시각적 질문 응답(Visual Question Answering, VQA)과제는 이미지 캡셔닝 평가의 어려움을 해결하기 위해 부분적으로 제안되었습니다. VQA는 이미지와 그에 대한 질문이 주어졌을 때 시스템이 정답을 제공해야하는 과제입니다. 정답이 존재하기 때문에 평가가 더 쉬워지며, 번역 작업이라기 보다는 멀티모달 융합(multimodal fusion, section 6) 과제로 변환됩니다.
이미지 공동 참조(image co-reference) 과제 또한 이러한 모호성을 해결하기 위해 제안되었으며, 이 과제를 멀티모달 정렬(multimodal alignment, section 5) 문제로 재구성했습니다. 해당 논문의 저자는 평가 문제를 해결하는 것이 멀티 모달 tranlsation 시스템의 성공에 필수적이라고 주장합니다. 이는 접근 방법들 간의 더 나은 비교를 가능하게 할 뿐만 아니라, 최적화할 더 나은 목표들을 제공할 수 있기 때문입니다.
5. Alignment
multimodal alignment는 두 개 이상의 모달리티의 sub-components들 사이의 상응하는 관계를 찾는 문제입니다. 예를 들어 임의의 이미지의 부분들 중 캡션에 해당하는 부분이 어디인지 맞추는 것입니다. 혹은 영화가 주어졌을 때 해당 스크립트에 해당하는 부분이 어디인지 찾는 문제도 이에 해당합니다.
해당 논문에서는 multimodal alignment를 implicit과 explicit alignment로 구분합니다. explicit의 경우 모달리티의 sub-components간의 alignment를 다룹니다. 예를 들어 요리 설명 영상에서 해당 레시피 부분에 해당하는 장면을 찾는 문제가 있습니다. implicit의 경우 중간 단계로서 사용됩니다. 예를 들어 텍스트 설명에 기반한 이미지 검색은 내부에서 이미지와 텍스트의 alignment를 다룹니다.
5.1 Explicit Alignment
두 개 이상의 모달리티의 sub-components들 사이의 alignment가 주요 모델링 목적인 경우입니다. explicit alignment의 가장 중요한 점은 similarity metric입니다. 대부분의 접근 방법들은 sub-components들 사이의 유사도를 측정하는 것이 매우 중요한 building block입니다. 이런 유사도 측정은 unsupervised와 (weakly) supervised방식이 있습니다.
5.1.1 Unsupervised alignment
Unsupervised multimodal alignment는 직접적인 alignment label을 필요로하지 않습니다. 여기에서의 대부분의 접근 방법들은 초기의 통계적 기계 번역과 유전자 배열 alignment에서 영감을 받았습니다. 이런 접근 방법을 쉽게 하기 위해서 alignment에 특정한 제약을 가정하는데, 예를 들어 sequenced의 시간적 배열이나 존재하는 두 모달리티간의 유사도 측정 metric이 있습니다.
Dynamic time warping (DTW)는 동적 프로그래밍 접근 중 하나로, 두 시계열을 alignment할 때 광범위하게 사용합니다. DTW는 두 sequence간의 유사도를 측정하여 시간이 흐름에 따라 두 sequence간의 최적의 match를 찾아내는 것을 말합니다.
https://syj9700.tistory.com/58
DTW(Dynamic Time Warping)
Dynamic Time Warping에서 와핑(warping)의 사전적의미는 뒤틀림, 휨 이라는 뜻을 가지고 있으며, 동적 시간 와핑은 이름과 같이 '속도 또는 길이에 따라 움직임이 다른 두 시계열간의 유사성(거리)을 측
syj9700.tistory.com
DTW는 멀티모달 alignment에 직접적으로 사용되는데, 예를 들어 Anguera et al. 은 graphemes와 phonemes의 유사도를 측정하는데 사용하였고, Tapaswi et al. 은 TV show와 plot synopses 사이의 alignment를 통해 등장 인물의 등장을 구하고, 이를 기반으로 visual scene과 sentence사이의 유사도를 구했습니다. DTW류의 접근 방식은 text-to-speech나 text-to-video 태스크에 주로 사용됩니다.
원래 DTW 공식에는 미리 정의된 유사도 metric이 필요합니다. 이를 CCA로 하여 모달리티들을 coordinated space에 매핑할 수도 있습니다. 이는 DTW를 통한 alignment와 CCA를 통한 매핑을 두 모달리티 stream에 대해 unsupervised한 방식으로 수행할 수 있습니다. 이때 DTW를 기반으로하는 CCA는
'[CoIn]' 카테고리의 다른 글
[CoIn] 논문 리뷰 | Multimodal Machine Learning:A Survey and Taxonomy (1) | 2025.04.05 |
---|