Towards a Human-like Open-Domain Chatbot

Author

  • 저자:
    • Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le (Google Research, Brain Team)

Who is an Author?

{: height=”50%” width=”50%”}

느낀점

  • 일단 논문이 꽤 길다
  • 모델쪽보단 automatic evaluation metric을 제안했다는것에 은근 더 중점을 맞추는 느낌
  • 모델쪽 얘기는 Evolved Transformer논문을 더 봐야할듯
  • 뭐랄까.. 설명이 많고 장황한 논문이다. 새로운 개념을 정의하는게 많은 논문임. 제안하는 개념이 필요한 이유등을 주로 설명함.
  • Metric + large scale + tip이 본 논문의 주요 contribution인듯 modeling적인 부분은 별로 기술되어있지 않음
자세히 보기

Unified Language Model Pre-training for Natural Language Understanding and Generation

Author

  • 저자:
    • Li Dong∗ Nan Yang∗ Wenhui Wang∗ Furu Wei∗ † Xiaodong Liu Yu Wang Jianfeng Gao Ming Zhou Hsiao-Wuen Hon (Microsoft Research)

Who is an Author?

  • 일단 쓴 논문들에 대한 기본 인용수가 높다
  • 감성분석, MRC, Summarization 등 태스크를 가리지 않고, EMNLP, AAAI, ACL 등에 논문을 엄청 많이 냄.. 그냥 고수
  • 이 논문은 NeurIPS 2019
  • 191219 기준으로 인용수 26회

{: height=”50%” width=”50%”}

느낀점

  • NLG에서 SOTA를 꽤 찍었는데 방식이 좀 신기
  • shared param (같은 모델)로 NLU와 NLG를 할 수 있다는게 가장 큰 장점
  • masking으로 장난치면서(?) 모델을 발전시킨건 어쩌면 자연스러운 수순인듯
  • 1st segment에서 passage와 answer를 concat하거나 conversation history를 concat 방식으로 집어넣는데, 잘되는게 좀 신기하긴함
  • T5가 살아남을지 이 친구가 더 개량되서 살아남을지 궁금
  • seq2seq LM을 fine-tuning하는 방법이 좀 신선했음 당연히 left-to-right 방식으로 teacher forcing할줄 알았는데.. ㅎㅎ
자세히 보기

Distilling Task-Specific Knowledge from BERT into Simple Neural Networks

Author

  • 저자:
    • Raphael Tang∗, Yao Lu∗, Linqing Liu∗, Lili Mou, Olga Vechtomova, and Jimmy Lin (University of Waterloo)

Who is an Author?

  • ICASSP를 들고 있는 NLP 하던 분인 듯
  • 보통은 문서분류쪽 많이 한듯

{: height=”50%” width=”50%”}

느낀점

  • 아이디어는 간단함
  • Data Augmentation을 넣은건 좋았음
  • 그러나 성능이 좋아진게 Distillation 때문인지 Data Augmentation 때문인지를 정확히 다루지 않아서.. 이 부분이 이 논문의 최대 에러임
자세히 보기

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Author

  • 저자:
    • Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF (Hugging Face) (허깅페이스에서 일해보고 싶다)

Who is an Author?

  • AAAI를 들고 있는 NLP 하던 분인 듯
  • Thomas Wolf(huggingface)와 주로 작업하는 듯함
    {: height=”50%” width=”50%”}

느낀점

  • 일단 논문이 짧다. 좋아.
  • soft target probability로 CE한거랑, MLM, Cosine Embedding Loss만으로 좋은 성적을 얻음 (cosine embedding을 사용한건 기여할만함)
  • 최근 나왔던 MobileBERT처럼 Attention에 자체에 대해서 distillation하지 않아도 나쁘지 않은 결과가 나오는구나 싶긴함 물론 MobileBERT가 더 최신이니 Attention 자체에 대해서도 적용하면 좋겠지만.. 이건 BERT끼리만 가능한 approach니..
  • weight initialization을 teacher network 에서 가져오는것도 나쁘진 않았음(layer 차이가 나서 좀 다르긴하지만)
  • pre-train도 distillation 쓰고, fine-tune도 distillation 쓰면 잘되는건 알겠음.. 괜찮은 방법이긴한데 여러케이스가 존재할 수 있을것 같아 좀 더 비교가 필요해보임

Abstract

자세히 보기

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Author

  • 저자:
    • Zhenzhong Lan, Sebastian Goodman, Piyush Sharma Radu Soricut (Google Research)
    • Mingda Chen, Kevin Gimpel (Toyota Technological Institute at Chicago)

Who is an Author?

  • 원래는 CV를 위주로 하던 친구인데 이번에 NLP꺼도 해본듯 (CVPR도 들고 있고..)
  • 논문 인용수도 꽤 됨
  • Google VR팀에서도 인턴했었음
    {: height=”50%” width=”50%”}
    http://www.cs.cmu.edu/~lanzhzh/

느낀점

  • 간단한 아이디어인데 실험을 엄청 많이 해놔서 paper를 만든느낌
  • 실험이 의미는 있지만 직관적으로 예측가능한 결과임
  • 간단한 아이디어도 사실 예전부터 적용되어야 했음 (weight sharing, decomposition)
  • transformer 논문이 처음에 pretraining용이 아니다보니 당시 그 논문에서 빼먹었지만 당연히 앞으론 적용되었어야할 아이디어가 2년이 지나서야 적용된 느낌
  • SOP가 NSP보단 Good이다
  • SOP 할때 문장 단위가 아니라 textual segments로 한거 괜찮았음 (SEP도 그러면 segment단위로 넣겠네)
  • MLM 을 n-gram masking 한건 좀 신기하네 나쁘지 않음
  • transformer에서 dropout을 없애는게 pretraining할 때 진짜 좋은지는 좀 더 검증해봐야할 듯
  • 이 논문은 모델 그림이 없다(?)

Abstract

자세히 보기

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

Author

  • 저자:
    • Mikel Artetxe (University of the Basque Country (UPV/EHU))
    • Holger Schwenk (Facebook AI Research)

Who is an Author?

Mikel Artetxe 라는 친구인데 주로 번역쪽 태스크를 많이 한 것 같고 조경현 교수님하고도 co-author 이력이 있음. 페북에서 인턴할때 쓴 논문임.

author{: height=”50%” width=”50%”}

느낀점

  • 결국 이 논문도 parallel corpus가 필요하다고함. 이걸 통해 multilingual sentence embedding을 얻는 것임
  • Translation이 되게 학습시켜서 encoder를 훈련함
  • 대신에 그 양이 좀 적어도 다양한 언어에 대해서 얻을 수 있게 하는 것
  • 영어로만 transfer learning 시켰는데도 다른언어도 적용된다는 점은 의미있음
  • encoder가 BPE를 통해 language independent하게 모델링했다는게 좀 의미가 있긴한데 한편으로는 universal한 구조다보니 좀 개별언어에 대해서 성능이 최적화되진 않겠다는 생각(이지만 논문에선 결과가 괜찮음)
  • language ID로 decoder에 언어정보를 주는건 꽤 괜찮은 아이디어였다고 생각
  • parallel corpus alignment하는거 어떻게하니.. 고생이 눈에 훤함 (꼭 다할 필요가 없다고 했지만서도)
  • 이번 논문은 약간 Scaling 으로 승부한 케이스인것 같음 (제목 자체가 그렇지만)
  • Scaling을 키워서 실험할 줄 아는것도 결국 연구자의 역량..이라면 인프라가 중요하고 인프라가 중요하다면 configuration 잘하는건 기본이고, 실험비가 많거나 회사가 좋아야(?) 너무 스케일 싸움으로 가는것 같은 논문을 보면 왠지 모르게 아쉽고 씁쓸하다(?)
  • 보통 transfer랑 one-shot, few-shot 등의 용어가 나오는데 fine-tune 안한다고해서 zero-shot이라고 한듯
  • Language-Agnostic 라는 용어: 언어에 구애받지 않는다라는 뜻
  • BERT 등 최신 논문과도 비교했지만(1년이 지났으니 최신이라고 이제 할수있을지..) 본 논문의 기법 자체는 좀 옛날 기법이라는 생각이 듬
  • 논문의 설명이 잘나와있으나 몇가지 좀 생략되어있음 (은근 불친절한)
자세히 보기

Universal Language Model Fine-tuning for Text Classification (ULMFiT)

Author

  • 저자:Jeremy Howard, Sebastian Ruder (fast.ai University of San Francisco)

Who is an Author?

느낀점

  • pretrained model을 범용적으로 쓰려고 시도하려는 시기의 초기 논문인것 같다
  • 저자가 어필을 되게 많이 하는 듯
  • 각 레이어마다 feature가 다르니 다르게 finetune시켜줘야한다는 아이디어가 검증하긴 좀 어렵지만 직관적으론 꽤 설득력있었음. 한편으론 꼭 그래야되나 싶긴하면서도 나쁘지 않았던?
  • warm up등 테크닉이 여기서부터 점점 변형되면서 제안되는 듯

Abstract

자세히 보기

Stochastic Answer Networks for Natural Language Inference (SAN)

Author

  • 저자:Xiaodong Liu†, Kevin Duh and Jianfeng Gao (Microsoft Research, Johns Hopkins University)

Who is an Author?

Xiaodong Liu 라는 친구인데 꽤 꾸준히 연구활동을 하는 친구인것 같다.

author{: height=”50%” width=”50%”}

느낀점

  • turn의 정보를 반영하기에 attention은 필수
  • 하지만 5턴 이상 반영하는건 쉬운게 아님(여기서도 10개까지 했지만 5~6개가 best라고 했음)
  • multi turn을 위한 architecture를 pretrained model를 feature extractor로 써서 결합해서 쓰는게 앞으로의 연구 트렌드가 될 듯
자세히 보기

ML Basic - 머신러닝과 확률

Prior & Posterior

  • 사전 확률(prior probability):

    • 관측자가 관측을 하기 전에 시스템 또는 모델에 대해 가지고 있는 선험적 확률. 예를 들어, 남여의 구성비를 나타내는 p(남자), p(여자) 등이 사전확률에 해당한다.
    • 특정 사상이 일어나기 전의 확률을 뜻한다.
    • 선험적 확률은 베이즈 추론에서 관측자가 관측을 하기 전에 가지고 있는 확률 분포를 의미한다.
    • ex) 동전을 던져서 앞면이 나올 확률은 1/2, 특이한 동전은 1/3이다.
    • 사전 확률은 일반적으로 실험하는 대상에 대해 잘 알고 있는 전문가가 선택하거나(informative prior), 혹은 전문적인 정보가 없는 무정보적 분포(uninformative prior)로 주어진다.
  • 사후 확률(Posterior):

    • 사건이 발생한 후(관측이 진행된 후) 그 사건이 특정 모델에서 발생했을 확률
    • 사건 발생 후에 어떤 원인으로부터 일어난 것이라고 생각되어지는 확률
    • 조건부 확률을 통해 사후 확률을 표현할 수 있음
    • 사전 확률과 가능도(likelihood)가 주어졌을 때, 관측자는 관측값을 얻은 다음 베이즈 정리에 의해 사후 확률을 얻을 수 있음
    • ex) 물건이 불량품이 생산되었을때 A공장에서 생산되었을 확률
    • $posterior = {likelihood \times prior \over evidence}$

MLE & MAP 예시

  • MLE(Maximum Likelihood Estimation) 방법

    • MLE 방법은 남자에게서 그러한 머리카락이 나올 확률 p(z|남)과 여자에게서 그러한 머리카락이 나올 확률 p(z|여)을 비교해서 가장 확률이 큰, 즉 likelihood가 가장 큰 클래스(성별)를 선택하는 방법
  • MAP(Maximum A Posteriori) 방법

    • MAP 방법은 z라는 머리카락이 발견되었는데 그것이 남자것일 확률 p(남|z), 그것이 여자것일 확률 p(여|z)를 비교해서 둘 중 큰 값을 갖는 클래스(성별)를 선택하는 방법
    • 즉, 사후확률(posterior prabability)를 최대화시키는 방법으로서 MAP에서 사후확률을 계산할 때 베이즈 정리가 이용됨
  • 즉 MLE는 남자인지 여자인지를 미리 정해놓고 시작해서 비교하는거고 MAP는 남자인지 여자인지를 모르는 상태에서 그것이 정해지는 확률까지도 고려해서 비교하는 것임

  • MAP가 그래서 특정 경우가 정해지는 것에 대한 사전확률을 고려한다고 하는 것임

Maximum Likelihood Estimation (MLE)

Maximum a Posteriori Estimation (MAP)

자세히 보기