Unified Language Model Pre-training for Natural Language Understanding and Generation

Author

  • 저자:
    • Li Dong∗ Nan Yang∗ Wenhui Wang∗ Furu Wei∗ † Xiaodong Liu Yu Wang Jianfeng Gao Ming Zhou Hsiao-Wuen Hon (Microsoft Research)

Who is an Author?

  • 일단 쓴 논문들에 대한 기본 인용수가 높다
  • 감성분석, MRC, Summarization 등 태스크를 가리지 않고, EMNLP, AAAI, ACL 등에 논문을 엄청 많이 냄.. 그냥 고수
  • 이 논문은 NeurIPS 2019
  • 191219 기준으로 인용수 26회

{: height=”50%” width=”50%”}

느낀점

  • NLG에서 SOTA를 꽤 찍었는데 방식이 좀 신기
  • shared param (같은 모델)로 NLU와 NLG를 할 수 있다는게 가장 큰 장점
  • masking으로 장난치면서(?) 모델을 발전시킨건 어쩌면 자연스러운 수순인듯
  • 1st segment에서 passage와 answer를 concat하거나 conversation history를 concat 방식으로 집어넣는데, 잘되는게 좀 신기하긴함
  • T5가 살아남을지 이 친구가 더 개량되서 살아남을지 궁금
  • seq2seq LM을 fine-tuning하는 방법이 좀 신선했음 당연히 left-to-right 방식으로 teacher forcing할줄 알았는데.. ㅎㅎ
자세히 보기

Distilling Task-Specific Knowledge from BERT into Simple Neural Networks

Author

  • 저자:
    • Raphael Tang∗, Yao Lu∗, Linqing Liu∗, Lili Mou, Olga Vechtomova, and Jimmy Lin (University of Waterloo)

Who is an Author?

  • ICASSP를 들고 있는 NLP 하던 분인 듯
  • 보통은 문서분류쪽 많이 한듯

{: height=”50%” width=”50%”}

느낀점

  • 아이디어는 간단함
  • Data Augmentation을 넣은건 좋았음
  • 그러나 성능이 좋아진게 Distillation 때문인지 Data Augmentation 때문인지를 정확히 다루지 않아서.. 이 부분이 이 논문의 최대 에러임
자세히 보기

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Author

  • 저자:
    • Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF (Hugging Face) (허깅페이스에서 일해보고 싶다)

Who is an Author?

  • AAAI를 들고 있는 NLP 하던 분인 듯
  • Thomas Wolf(huggingface)와 주로 작업하는 듯함
    {: height=”50%” width=”50%”}

느낀점

  • 일단 논문이 짧다. 좋아.
  • soft target probability로 CE한거랑, MLM, Cosine Embedding Loss만으로 좋은 성적을 얻음 (cosine embedding을 사용한건 기여할만함)
  • 최근 나왔던 MobileBERT처럼 Attention에 자체에 대해서 distillation하지 않아도 나쁘지 않은 결과가 나오는구나 싶긴함 물론 MobileBERT가 더 최신이니 Attention 자체에 대해서도 적용하면 좋겠지만.. 이건 BERT끼리만 가능한 approach니..
  • weight initialization을 teacher network 에서 가져오는것도 나쁘진 않았음(layer 차이가 나서 좀 다르긴하지만)
  • pre-train도 distillation 쓰고, fine-tune도 distillation 쓰면 잘되는건 알겠음.. 괜찮은 방법이긴한데 여러케이스가 존재할 수 있을것 같아 좀 더 비교가 필요해보임

Abstract

자세히 보기

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Author

  • 저자:
    • Zhenzhong Lan, Sebastian Goodman, Piyush Sharma Radu Soricut (Google Research)
    • Mingda Chen, Kevin Gimpel (Toyota Technological Institute at Chicago)

Who is an Author?

  • 원래는 CV를 위주로 하던 친구인데 이번에 NLP꺼도 해본듯 (CVPR도 들고 있고..)
  • 논문 인용수도 꽤 됨
  • Google VR팀에서도 인턴했었음
    {: height=”50%” width=”50%”}
    http://www.cs.cmu.edu/~lanzhzh/

느낀점

  • 간단한 아이디어인데 실험을 엄청 많이 해놔서 paper를 만든느낌
  • 실험이 의미는 있지만 직관적으로 예측가능한 결과임
  • 간단한 아이디어도 사실 예전부터 적용되어야 했음 (weight sharing, decomposition)
  • transformer 논문이 처음에 pretraining용이 아니다보니 당시 그 논문에서 빼먹었지만 당연히 앞으론 적용되었어야할 아이디어가 2년이 지나서야 적용된 느낌
  • SOP가 NSP보단 Good이다
  • SOP 할때 문장 단위가 아니라 textual segments로 한거 괜찮았음 (SEP도 그러면 segment단위로 넣겠네)
  • MLM 을 n-gram masking 한건 좀 신기하네 나쁘지 않음
  • transformer에서 dropout을 없애는게 pretraining할 때 진짜 좋은지는 좀 더 검증해봐야할 듯
  • 이 논문은 모델 그림이 없다(?)

Abstract

자세히 보기

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

Author

  • 저자:
    • Mikel Artetxe (University of the Basque Country (UPV/EHU))
    • Holger Schwenk (Facebook AI Research)

Who is an Author?

Mikel Artetxe 라는 친구인데 주로 번역쪽 태스크를 많이 한 것 같고 조경현 교수님하고도 co-author 이력이 있음. 페북에서 인턴할때 쓴 논문임.

author{: height=”50%” width=”50%”}

느낀점

  • 결국 이 논문도 parallel corpus가 필요하다고함. 이걸 통해 multilingual sentence embedding을 얻는 것임
  • Translation이 되게 학습시켜서 encoder를 훈련함
  • 대신에 그 양이 좀 적어도 다양한 언어에 대해서 얻을 수 있게 하는 것
  • 영어로만 transfer learning 시켰는데도 다른언어도 적용된다는 점은 의미있음
  • encoder가 BPE를 통해 language independent하게 모델링했다는게 좀 의미가 있긴한데 한편으로는 universal한 구조다보니 좀 개별언어에 대해서 성능이 최적화되진 않겠다는 생각(이지만 논문에선 결과가 괜찮음)
  • language ID로 decoder에 언어정보를 주는건 꽤 괜찮은 아이디어였다고 생각
  • parallel corpus alignment하는거 어떻게하니.. 고생이 눈에 훤함 (꼭 다할 필요가 없다고 했지만서도)
  • 이번 논문은 약간 Scaling 으로 승부한 케이스인것 같음 (제목 자체가 그렇지만)
  • Scaling을 키워서 실험할 줄 아는것도 결국 연구자의 역량..이라면 인프라가 중요하고 인프라가 중요하다면 configuration 잘하는건 기본이고, 실험비가 많거나 회사가 좋아야(?) 너무 스케일 싸움으로 가는것 같은 논문을 보면 왠지 모르게 아쉽고 씁쓸하다(?)
  • 보통 transfer랑 one-shot, few-shot 등의 용어가 나오는데 fine-tune 안한다고해서 zero-shot이라고 한듯
  • Language-Agnostic 라는 용어: 언어에 구애받지 않는다라는 뜻
  • BERT 등 최신 논문과도 비교했지만(1년이 지났으니 최신이라고 이제 할수있을지..) 본 논문의 기법 자체는 좀 옛날 기법이라는 생각이 듬
  • 논문의 설명이 잘나와있으나 몇가지 좀 생략되어있음 (은근 불친절한)
자세히 보기

Universal Language Model Fine-tuning for Text Classification (ULMFiT)

Author

  • 저자:Jeremy Howard, Sebastian Ruder (fast.ai University of San Francisco)

Who is an Author?

느낀점

  • pretrained model을 범용적으로 쓰려고 시도하려는 시기의 초기 논문인것 같다
  • 저자가 어필을 되게 많이 하는 듯
  • 각 레이어마다 feature가 다르니 다르게 finetune시켜줘야한다는 아이디어가 검증하긴 좀 어렵지만 직관적으론 꽤 설득력있었음. 한편으론 꼭 그래야되나 싶긴하면서도 나쁘지 않았던?
  • warm up등 테크닉이 여기서부터 점점 변형되면서 제안되는 듯

Abstract

자세히 보기

Stochastic Answer Networks for Natural Language Inference (SAN)

Author

  • 저자:Xiaodong Liu†, Kevin Duh and Jianfeng Gao (Microsoft Research, Johns Hopkins University)

Who is an Author?

Xiaodong Liu 라는 친구인데 꽤 꾸준히 연구활동을 하는 친구인것 같다.

author{: height=”50%” width=”50%”}

느낀점

  • turn의 정보를 반영하기에 attention은 필수
  • 하지만 5턴 이상 반영하는건 쉬운게 아님(여기서도 10개까지 했지만 5~6개가 best라고 했음)
  • multi turn을 위한 architecture를 pretrained model를 feature extractor로 써서 결합해서 쓰는게 앞으로의 연구 트렌드가 될 듯
자세히 보기

Improving Language Understanding by Generative Pre-Training (GPT)

Author

  • 저자:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever (Open AI, Open AI다! 부럽(?)다)

Who is an Author?

Alec Radford라는 친군데, GPT논문 인용수가 젤 많겠지 했는데 오히려 Vision쪽에서 한 Generative model 인용수가 넘사임.. 원래 유명한 친구였음

{: height=”50%” width=”50%”}

느낀점

  • 작은 변화가 큰 성능의 변화를 가져다줌
    • Add auxiliary objective
    • pre-training LM
자세히 보기

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

Author

Who is an Author?

{: height=”50%” width=”50%”}

장점

  • 언어에 상관없이 적용 가능
  • OOV 대처 가능
  • 적은 vocab size로 높은 성능기록
  • 빠름

Note

자세히 보기

BERT- Pre-training of Deep Bidirectional Transformers for Language Understanding

Author

  • 저자:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (Google AI Language, Google AI니 말다했지)

Who is an Author?

Jacob Devlin is a Senior Research Scientist at Google. At Google, his primary research interest is developing fast, powerful, and scalable deep learning models for information retrieval, question answering, and other language understanding tasks. From 2014 to 2017, he worked as a Principle Research Scientist at Microsoft Research, where he led Microsoft Translate’s transition from phrase-based translation to neural machine translation (NMT). He also developed state-of-the-art on-device models for mobile NMT. Mr. Devlin was the recipient of the ACL 2014 Best Long Paper award and the NAACL 2012 Best Short Paper award. He received his Master’s in Computer Science from the University of Maryland in 2009, advised by Dr. Bonnie Dorr.

{: height=”50%” width=”50%”}

느낀점

  • Masking 기반의 Language Model과 context 추출을 위한 문장 연관성 (NSP) Task를 동시에 학습시켜서 Rich representation을 얻는다는 아이디어가 참신했음. 두마리 토끼를 한번에..!
  • Bidirectional feature가 상당히 중요함
  • pre-train 중요함
  • NSP도 매우 중요함
  • 여기서도 Loss Masking이 중요함
  • CLS Loss와 LM Loss를 따로 떼서 계산해야함
  • gelu, masking scheme 썼을때와 안썼을때 성능차이가 꽤 남
  • segment embedding 처리하는게 은근 귀찮음, 전처리 할때 아예 생성해버리는게 편하긴함
  • CLS acc 올리기보다 LM acc 올리는게 더 쉬움
자세히 보기