https://arxiv.org/abs/2005.14165 Language Models are Few-Shot LearnersRecent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fiarxiv.org2024.11.27 - [[Deep daiv.]/[Deep daiv.] NLP] - [Deep daiv.] NLP..
[Deep daiv.]/[Deep daiv.] NLP
https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org Abstract. 기존의 지배적인 transduction model들은 CNN 혹은 RNN기반이었습니다. 특히 가장 좋은 성능을 보이는..
https://arxiv.org/abs/1409.0473 Neural Machine Translation by Jointly Learning to Align and TranslateNeural machine translation is a recently proposed approach to machine translation. Unlike the traditional statistical machine translation, the neural machine translation aims at building a single neural network that can be jointly tuned to maximize the traarxiv.org Abstract. 기존의 통계적인 기계 번역기와 달리, ..
2024.09.09 - [[Deep daiv.]/[Deep daiv.] NLP] - [Deep daiv.] NLP, WIL - 9. ELMo and GPT (1) [Deep daiv.] NLP, WIL - 9. ELMo and GPT (1)https://chloamme.github.io/2021/12/08/illustrated-gpt2-korean.html#h-%EC%9E%85%EB%A0%A5-encoding [번역] 그림으로 설명하는 GPT-2 (Transformer Language Model 시각화)이 글은 Jay Alammar님의 글을 번역한 글입니다. [추가정보] Thishw-hk.tistory.com에서 이어지는 글입니다. Self-Attention 이 글의 앞 부분에서 단어 it을 처리하는 레..
https://chloamme.github.io/2021/12/08/illustrated-gpt2-korean.html#h-%EC%9E%85%EB%A0%A5-encoding [번역] 그림으로 설명하는 GPT-2 (Transformer Language Model 시각화)이 글은 Jay Alammar님의 글을 번역한 글입니다. [추가정보] This post is a translated version of The Illustrated GPT-2 (Visualizing Transformer Language Models) by Jay Alammar.chloamme.github.io을 기반으로 설명한 글입니다. 0. Word Embedding 머신 러닝 모델들이 단어를 처리하고 계산에 이용하기 위해서는, 이 단어들..
1. 데이터 준비 without Attention 학습 데이터로 프랑스어-영어 데이터를 가져옵니다.(* 데이터 출처: http://www.manythings.org/anki/) Tab-delimited Bilingual Sentence Pairs from the Tatoeba Project (Good for Anki and Similar Flashcard Applications)Introducing Anki If you don't already use Anki, vist the website at http://ankisrs.net/ to download this free application for Macintosh, Windows or Linux. About These Files Any flashcar..
0. 들어가기전 https://wikidocs.net/48558 08. 순환 신경망(Recurrent Neural Network)앞서 배운 피드 포워드 신경망은 입력의 길이가 고정되어 있어 자연어 처리를 위한 신경망으로는 한계가 있었습니다. 결국 다양한 길이의 입력 시퀀스를 처리할 수 있는 인공 신경망이 …wikidocs.net을 정리한 내용입니다. 1. 순환 신경망의 출현 배경 피드 포워드 신경망은 입력의 길이가 고정되어 있어 자연어 처리를 위한 신경망으로는 한계가 있었습니다.그리고 피드 포워드 신경망은 입력 -> 은닉 -> 출력층으로 이어지는 단방향 구조로써, 이전 스텝의 출력의 영향을 받지 않는다는 점이 시퀀스를 처리하기에는 한계가 있었습니다. 결국 다양한 길이의 입력 시퀀스를 처리할 수 있는 인공..
1. 임베딩(* Embedding) 워드 임베딩은 단어를 컴퓨터가 이해하고, 효율적으로 처리할 수 있도록 단어를 벡터화하는 기술입니다.워드 임베딩은 단어의 의미를 잘 표현해야만 하며, 현재까지도 많은 표현 방법이 연구되고 있는 분야입니다. 워드 임베딩을 거쳐 잘 표현된 단어 벡터들은 벡터 공간에서 계산이 가능하며, 모델 투입도 가능합니다. 2. 인코딩(* Encoding) 기계는 자연어(* 영어, 한국어)를 이해할 수 없기 때문에, 데이터를 기계가 이해할 수 있도록 숫자 등으로 변환해주는 작업이 필수적입니다. 이런 작업을 인코딩(* Encoding)이라고 합니다.텍스트 처리에서는 주로 정수 인코딩, 원 핫 인코딩을 사용합니다. 2.1 정수 인코딩 dictionary를 이용해서 정수 인코딩을 할 수 있습니..