[Deep daiv.]/[Deep daiv.] NLP

0. 시작하기 전 https://nlpinkorean.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/ Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)최근 10년 동안의 자연어 처리 연구 중에 가장 영향력이 컸던 3가지를 꼽는 서베이에서 여러 연구자들이 꼽았던 연구가 바로 2014년에 발표됐던 sequence-to-sequence (Seq2seq) + Attention 모델입니다 (Sutskevnlpinkorean.github.io다음의 글을 참고해서 작성했습니다. 1. Se..
0. 개요 토픽 모델링은 문서 집합에서 주제를 찾아내기 위한 기술입니다.토픽 모델링은 '특정 주제에 관한 문서에서는 특정 단어가 자주 등장할 것이다'라는 직관을 기반으로 합니다. 예를 들어, 주제가 '개'인 문서에서는 개의 품종, 개의 특성을 나타내는 단어가 다른 문서에 비해 많이 등장할 것입니다. 주로 사용되는 토픽 모델링 방법은 잠재 의미 분석(* LSA)와 잠재 디리클래 할당 기법(* LDA)이 있습니다. 1. 잠재 의미 분석(* Latent Semantic Analysis) 잠재 의미 분석(* LSA)은 주로 문서 색인의 의미 검색에 사용됩니다. 그래서 잠재 의미 인덱싱(* Latent Semantic Indexing, LSI)로도 알려져 있습니다. LSA의 목표는 문서와 단어의 기반이 되는 잠재..
0. 개요 사회 연결망 분석(* Social Network Analysis)는 분석 대상 및 분석 대상들간의 관계를 연결망 구조로 표현하고 이를 계량적으로 제시하는 분석 기법입니다. 사회 연결망 분석은 사람, 장소, 물품 등의 객체 간의 관계를 분석하는데 효과적이며 주로 친구 관계, 전력 공급 등을 분석하는데 사용합니다. 사회 연결망 분석 기법은 텍스트 내 단어의 관계에 적용한 것이 바로 의미 연결망 분석입니다.의미 연결망 분석에서는 일정한 범위 내에서 어휘가 동시에 등장하면 서로 연결된 것으로 간주, 이 연결 관계를 분석합니다. 1. n-gram nltk 라이브러리는 편하게 n-gram을 생성할 수 있는 함수를 제공합니다.먼저 nltk 의 'punkt' 를 다운받습니다.import nltknltk.do..
1. 군집 분석 군집 분석은 데이터의 특성에 따라 유사한 것끼리 묶어 분석하는 것을 의미합니다.다시 말해, 유사성을 기반으로 군집을 분류하고, 군집에 따라 유형별 특징을 분석하는 기법입니다. 텍스트에 대한 군집 분석에서는 군집으로 묶여진 텍스트끼리는 최대한 유사하고, 다른 군집으로 묶여진 텍스트들과는 최대한 유사하지 않도록 분류하는 것이 핵심입니다. 2. 유사? 텍스트 유사도를 계산하는 방식에는 여러 가지 방법이 있지만,지금은 자카드 유사도와 코사인 유사도를 사용하겠습니다.자카드 유사도(* Jaccard Similarity): 두 텍스트 문서 사이에 공통된 용어의 수와 해당 텍스트에 존재하는 총 고유 용어 수의 비율을 사용하는 유사도입니다.https://heytech.tistory.com/358 [NLP..
이전 글2024.08.09 - [[Deep daiv.] NLP] - [Deep daiv.] NPL - 1. 텍스트 처리 [Deep daiv.] NPL - 1. 텍스트 처리0. 텍스트 전처리 텍스트 전처리는 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업입니다. 요리를 할 때 재료를 제대로 손질하지 않으면, 요리가 엉망이 되는 것처럼 텍스트에hw-hk.tistory.com 1. 한국어 토큰화 한국어로 학습 데이터를 사용할 때는 언어의 특성으로 인해 추가로 고려해야 할 사항이 존재합니다.한국어는 띄어쓰기를 준수하지 않아도 의미가 전달되는 경우가 많아 띄어쓰기가 지켜지지 않을 가능성이 존재합니다.띄어쓰기가 지켜지지 않으면 정상적인 토큰의 분리가 이루어지지 않기 때문에, 한국어는 형태소라는 개념을..
0. 텍스트 전처리 텍스트 전처리는 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업입니다. 요리를 할 때 재료를 제대로 손질하지 않으면, 요리가 엉망이 되는 것처럼 텍스트에 제대로 전처리를 하지 않으면 뒤에서 배울 자연어 처리 기법들이 제대로 동작하지 않습니다. 1. 영어 처리 1.1 대소문자 통합 대소문자를 통합하지 않는다면 컴퓨터는 같은 단어를 다르게 받아들일 수 있습니다. 따라서 python 의 내장 함수 .lower() 와 .upper() 를 통해 간단하게 통합할 수 있습니다.s = 'AbCdEfGh'str_lower = s.lower()str_upper = s.upper()print(str_lower, str_upper)# abcdefgh ABCDEFGH 1.2 정규화 문자열에서 ..
건대다니는 컴공생
'[Deep daiv.]/[Deep daiv.] NLP' 카테고리의 글 목록 (3 Page)