ML&DL/NLP(LLM)5 [Prompt Engineering] Automatic Prompt Optimization with "Gradient Descent" and Beam Search Paper Review 지난 포스팅에서 프롬프트 엔지니어링, 그리고 이의 확장된 개념인 프롬프트 최적화에 대해서 살펴보았다. 아직 이 글을 읽지 않았다면, 원활한 이해를 위해 먼저 읽고 오는 것을 추천한다.https://steady-programming.tistory.com/83 [NLP][Prompt Engineering] What is Prompt OptimizationPrompt Engineering바야흐로 LLM의 시대이다. chatgpt를 시작으로 llama, mistral, mixtral, claude 등 다양한 llm이 쏟아져나오고 있는 가운데, 자연스럽게 프롬프트 엔지니어링 기술이 주목을 받고 있다.프롬프steady-programming.tistory.com한마디로 parameter space가 자연어이고 ob.. 2024. 5. 24. [NLP][Code Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding pytorch 코드 리뷰 논문 링크 (98939회 인용)Motivationpre-trained 언어 모델을 사용하는 것은 많은 nlp task에서 효과적이라고 밝혀졌다.downstream task에 대해 pre-trained 언어 모델을 사용하는 것은 크게 feature-based와 fine tuning 방법이 있다.feature-based 접근법 (ELMo)task 마다 다른 구조를 사용하고 pre-trained representations을 추가적인 피쳐로 사용한다.pre-trained 모델의 파라미터는 고정한다.ELMo와 같은 모델은 LSTM을 사용하긴 하지만 forward/backward output을 단순히 concat하는 것이기 때문에 shallowly bidirectional 하다고 할 수 있다.fine-tunin.. 2024. 5. 6. [NLP][Prompt Engineering] What is Prompt Optimization Prompt Engineering바야흐로 LLM의 시대이다. chatgpt를 시작으로 llama, mistral, mixtral, claude 등 다양한 llm이 쏟아져나오고 있는 가운데, 자연스럽게 프롬프트 엔지니어링 기술이 주목을 받고 있다.프롬프트란, 인간이 컴퓨터와 대화하는 언어이고 필자는 프롬프트 엔지니어링은 인간이 llm과 얼마나 잘 대화를 나눌 수 있는지에 대한 기술이라고 생각한다. 똑같은 llm이라도 사람마다 llm과 대화하는 수준의 차이가 있다. 사람들끼리의 대화는 소통의 꽉 막힘에서 끝나겠지만 llm과의 대화는 이를 얼마나 잘 하느냐에 따라서 llm으로부터 양질의 정보를 얻을 수도, 그렇지 않을 수도 있다. 실제로 프롬프트를 잘 작성하는 인력을 고연봉에 채용하겠다는 회사도 많이 있다... 2024. 5. 3. [NLP][Code Review] Attention is all you need pytorch 코드 리뷰 논문링크(NIPS, 113405회 인용) Paper motivation RNN은 sequential한 데이터를 처리하는데 있어서 시간의 순서에 따른 hidden state인 $h_{t}$을 $h_{t-1}, t$의 함수로 만든다. 즉, 현재의 $h_t$을 만들기 위해 이전 hidden state인 $h_{t-1}$이 있어야 하고 이러한 순차적이고 의존적인 특성이 병렬 학습을 하는데 큰 걸림돌이 된다. 앞 시점의 연산이 끝나지 않은 경우, 그 뒤의 연산을 수행할 수 없기 때문이다. transformer는 이러한 recurrence 구조를 버리고 오직 attention 구조만 사용하여 input과 output의 global dependency를 학습하고자 한다. 또한 recurrence 구조의 순차적인 특징.. 2024. 3. 30. [Paper review][Inference Optimization] Efficient Memory Management for Large Language Model Serving with PagedAttention 논문 링크 Summary 본 논문은 operating system에서 쓰이는 대표적인 개념인 paging, virtual memory을 이용한 paged attention을 제안하고 이를 통해 LLM inference의 성능을 향상시키고자 한다. LLM은 기본적으로 transformer의 구조이고 transformer은 self-attention 연산으로 구성된다. autoregressive 구조를 가지는 LLM은 이러한 self-attention에서 비효율적인 메모리 관리 때문에 추론 성능이 떨어질 수 있다. paged attention은 이 병목현상을 해결하고자 개발되었다. 기본적인 아이디어는 self attention에서 사용되는 key, value matrix을 block 형태로 non-conti.. 2023. 9. 23. 이전 1 다음