분류 전체보기

https://arxiv.org/abs/2001.08361 Scaling Laws for Neural Language ModelsWe study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnituarxiv.org Abstract. 이 논문에서는 Language Model의 성능에 대한 경험적인 scaling law를 c..
https://arxiv.org/abs/2005.11401 Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksLarge pre-trained language models have been shown to store factual knowledge in their parameters, and achieve state-of-the-art results when fine-tuned on downstream NLP tasks. However, their ability to access and precisely manipulate knowledge is still limarxiv.org Abstract. 기존의 Pre-trained language ..
https://arxiv.org/abs/2201.11903 Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsWe explore how generating a chain of thought -- a series of intermediate reasoning steps -- significantly improves the ability of large language models to perform complex reasoning. In particular, we show how such reasoning abilities emerge naturally in suarxiv.org Abstract. 제시한 논문은 어떻게 chain of..
Timers SleepingAllows a process (or thread) to suspend execution for a period of timesleep(), nanosleep(), clock_nanosleep()TimerAllows a process to schedule a notification for itself to occur at some time in the futurealarm() → 주기적인 타이머를 사용하기에는 부적합Interval timer (itimer)POSIX timer Interval Timers int setitimer(int which, const struct itimerval *value, struct itimerval *ovalue)Provide more cont..
베이지안 분류기 분류기 학습 (훈련)에 사용하는 정보는 '훈련 집합'이라고 한다.훈련 집합 X = {(x1,t1), (x2,t2), ..., (xn, tn)}Xi = (x1, x2, ..., xd)는 특징 벡터Ti ∈ {w1, w2, ..., wm}은 분류 표지 (이진 분류기의 경우 M=2) 최소 오류 베이지안 분류기 주어진 특징 벡터 x에 대해 '가장 그럴듯한' 분류로 분류사후 확률, P(wi|x)을 이용 하지만 일반적으로 사후 확률을 직접 구할 수 없다. 그렇기 때문에 베이즈 정리를 이용해 사전 확률과 우도로 이를 구한다. 이때, 분모는 무시해도 된다. 상수니까사전 확률 계산:P(w1) = n1 / N, P(w2) = n2 / N ...정확한 값이 아니라 추정 (N이 커짐에 따라 실제 값에 가까워짐)..
마르코프 체인 마르코프 성질을 가진 이산시간 확률과정마르코프 성질:과거와 현재 상태가 주어졌을 때의 미래 상태의조건부 확률 분포가 과거 상태와는 독립적으로 현재 상태에 의해서만 결정됨오늘의 상태는 어제의 상태에 의해서만 결정되고, 내일의 상태는 오늘의 상태에 의해서만 결정됨이산시간 확률과정:이산적인 (뚜렷이 구분되는) 시간의 변화에 따라 확률이 변화하는 과정e.g., 아침 - 점심 - 저녁 마르코프 체인의 구성 요소 상태 집합S = {1,2,...,m}주식: S = {상승, 하락}날씨: S = {해, 비, 흐림, 눈, ....}상태 전이 확률 (조건부 확률)현재 상태 i에서 다음 상태 j로 변화할 확률Pij = P(다음상태 = j | 현재상태 = i) + 상태와 상태 전이 확률이 주어지면 상태 전이도로 ..
Low resolution sleeping unsigned int sleep(unsigned int seconds)Puts the invoking process to sleep for the number of seconds specified by secondsReturn valueNumber of seconds not slept (does not set errno)A seccessful call returns 0, but the function may return other values between 0 and secondsA signal interrupt the napIf sleeping the entire specified time is truly a concern (not a usual case):..
Time Wall time (real time)Actual time and data in the real worldUsed when interfacing with the user or timestamping an eventIdeal for measuring absolute timeE.g., Noon on 1 March 1919실제 세상의 시간정보입니다Monotonic timeThis time source is strictly linearly increasing이 시간은 Wall time과 달리, 선형적으로 증가하는 시간입니다 System's uptime (time since boot)Deterministic and unchangeable이 시간은 Wall time과 달리, 바뀔 수 없고, 결정적인 시간입..
건대다니는 컴공생
'분류 전체보기' 카테고리의 글 목록 (7 Page)