Document Expansion by Query Prediction

Author

  • 저자:
    • Rodrigo Nogueira, Wei Yang, Jimmy Lin, and Kyunghyun Cho
      (New York University, Facebook AI Research), 2019
  • 조경현 교수님과 co-work
  • 같은 년도에 쓴 Passage Re-ranking with BERT도 인용수가 높은 편 (4페이지 짜리인데도)
    {: height=”50%” width=”50%”}

느낀점

Abstract

  • 검색을 효과적으로 개선하는 방법중 하나는 문서 텀을 확장하는 것임
  • QA 시스템의 관점에서는 문서가 질문을 잠재적으로 포함한다고도 볼 수 있음
  • (query, relevant documents) pair 셋으로 seq2seq 모델 학습해서 query 예측하는 방법 제안
  • re-ranking component와 결합하면 two retrieval task에서 SOTA 결과 나옴

Introduction

자세히 보기

BERT-based Lexical Substitution

Author

  • 논문 매우 많이 씀
  • AAAI, ACL, ICLR 등 탑티어 컨퍼런스 논문냄
  • 마소에서 인턴했고 2021 fall 박사과정 자리 구하는중 (아직 석사라는 뜻)
  • 개인블로그 운영: https://michaelzhouwang.github.io/

{: height=”50%” width=”50%”} {: height=”30%” width=”30%”}

  • 저자:
    • Wangchunshu Zhou, Ke Xu (Beihang University)
    • Tao Ge, Furu Wei, Ming Zhou (Microsoft Research Asia)

Abstract

  • 이전 연구들은 lexical resources (e.g. WordNet)으로 부터 타겟의 동의어를 찾아서 substitute candidates를 얻어서 context를 보고 랭킹하는 식의 연구였음
  • 이런 연구들은 두가지 한계점이 있음
    • 타겟 단어의 synonyms 사전에 없는 good substitute candidates를 찾아내지 못함
    • substitution이 문장의 global context에 주는 영향을 고려하지 못함
  • 이 문제를 해결하기 위해, end-to-end BERT-based lexical substitution approach를 제안함
  • annotated data or manually curated resources 없이 만든 substitute candidates 제안하고 검증함
  • target word’s embedding 에 dropout 적용해서 target word’s semantics and contexts for proposing substitute candidates를 고려할 수 있게함
  • SOTA 찍음 (LS07, LS14 benchmark)

Introduction

자세히 보기

Deeper Text Understanding for IR with Contextual Neural Language Modeling"

목차

  • Author
  • Abstract
  • Introduction
  • Related Work
  • Document Search with BERT
  • Experimental Setup
  • Results and Discussion
  • Conclusion

Author

  • CMU 박사괴정 (https://www.cs.cmu.edu/~zhuyund/)
  • IR에 적용하는 Language Understanding쪽 연구
  • Three papers in deep retrieval and conversational search got accepted into SIGIR 2020!

{: height=”50%” width=”50%”}

Abstract

  • 뉴럴넷은 복잡한 언어 패턴과 query-document relation을 자동으로 학습할 수 있는 새로운 가능성을 제공하고 있음
  • Neural IR models은 query-document relevance pattern을 학습하는데 좋은 결과를 보여주지만, query 또는 document의 text content를 이해하는 것에 대한 연구는 많지 않았음 (?)
  • 본 논문에서는 최근에 제안되었던 contextual neural LM, BERT 등이 IR에서 deeper text understanding에 얼마나 효과 있는지를 알아보고함
  • 실험 결과는 전통적인 word embedding보다 BERT가 제공하는 contextual text representations이 더 효과있음을 보여주었음
  • BoW retrieval 모델에 비해 contextual LM은 더 나은 language structure를 사용하고, 자연어 형태의 query에 대해 큰 성능향상을 가져올 수 있음
  • text understanding ability를 search knowledge와 결합시키는 것은 제한적인 학습셋을 갖는 조건에서 search task를 Ptr BERT가 더 잘할 수 있게 해줌 (정확한해석은 아닌데 대략 이런의미)
자세히 보기

Unified Language Model Pre-training for Natural Language Understanding and Generation

Author

  • 저자:
    • Li Dong∗ Nan Yang∗ Wenhui Wang∗ Furu Wei∗ † Xiaodong Liu Yu Wang Jianfeng Gao Ming Zhou Hsiao-Wuen Hon (Microsoft Research)

Who is an Author?

  • 일단 쓴 논문들에 대한 기본 인용수가 높다
  • 감성분석, MRC, Summarization 등 태스크를 가리지 않고, EMNLP, AAAI, ACL 등에 논문을 엄청 많이 냄.. 그냥 고수
  • 이 논문은 NeurIPS 2019
  • 191219 기준으로 인용수 26회

{: height=”50%” width=”50%”}

느낀점

  • NLG에서 SOTA를 꽤 찍었는데 방식이 좀 신기
  • shared param (같은 모델)로 NLU와 NLG를 할 수 있다는게 가장 큰 장점
  • masking으로 장난치면서(?) 모델을 발전시킨건 어쩌면 자연스러운 수순인듯
  • 1st segment에서 passage와 answer를 concat하거나 conversation history를 concat 방식으로 집어넣는데, 잘되는게 좀 신기하긴함
  • T5가 살아남을지 이 친구가 더 개량되서 살아남을지 궁금
  • seq2seq LM을 fine-tuning하는 방법이 좀 신선했음 당연히 left-to-right 방식으로 teacher forcing할줄 알았는데.. ㅎㅎ
자세히 보기

Distilling Task-Specific Knowledge from BERT into Simple Neural Networks

Author

  • 저자:
    • Raphael Tang∗, Yao Lu∗, Linqing Liu∗, Lili Mou, Olga Vechtomova, and Jimmy Lin (University of Waterloo)

Who is an Author?

  • ICASSP를 들고 있는 NLP 하던 분인 듯
  • 보통은 문서분류쪽 많이 한듯

{: height=”50%” width=”50%”}

느낀점

  • 아이디어는 간단함
  • Data Augmentation을 넣은건 좋았음
  • 그러나 성능이 좋아진게 Distillation 때문인지 Data Augmentation 때문인지를 정확히 다루지 않아서.. 이 부분이 이 논문의 최대 에러임
자세히 보기

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Author

  • 저자:
    • Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF (Hugging Face) (허깅페이스에서 일해보고 싶다)

Who is an Author?

  • AAAI를 들고 있는 NLP 하던 분인 듯
  • Thomas Wolf(huggingface)와 주로 작업하는 듯함
    {: height=”50%” width=”50%”}

느낀점

  • 일단 논문이 짧다. 좋아.
  • soft target probability로 CE한거랑, MLM, Cosine Embedding Loss만으로 좋은 성적을 얻음 (cosine embedding을 사용한건 기여할만함)
  • 최근 나왔던 MobileBERT처럼 Attention에 자체에 대해서 distillation하지 않아도 나쁘지 않은 결과가 나오는구나 싶긴함 물론 MobileBERT가 더 최신이니 Attention 자체에 대해서도 적용하면 좋겠지만.. 이건 BERT끼리만 가능한 approach니..
  • weight initialization을 teacher network 에서 가져오는것도 나쁘진 않았음(layer 차이가 나서 좀 다르긴하지만)
  • pre-train도 distillation 쓰고, fine-tune도 distillation 쓰면 잘되는건 알겠음.. 괜찮은 방법이긴한데 여러케이스가 존재할 수 있을것 같아 좀 더 비교가 필요해보임

Abstract

자세히 보기

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Author

  • 저자:
    • Zhenzhong Lan, Sebastian Goodman, Piyush Sharma Radu Soricut (Google Research)
    • Mingda Chen, Kevin Gimpel (Toyota Technological Institute at Chicago)

Who is an Author?

  • 원래는 CV를 위주로 하던 친구인데 이번에 NLP꺼도 해본듯 (CVPR도 들고 있고..)
  • 논문 인용수도 꽤 됨
  • Google VR팀에서도 인턴했었음
    {: height=”50%” width=”50%”}
    http://www.cs.cmu.edu/~lanzhzh/

느낀점

  • 간단한 아이디어인데 실험을 엄청 많이 해놔서 paper를 만든느낌
  • 실험이 의미는 있지만 직관적으로 예측가능한 결과임
  • 간단한 아이디어도 사실 예전부터 적용되어야 했음 (weight sharing, decomposition)
  • transformer 논문이 처음에 pretraining용이 아니다보니 당시 그 논문에서 빼먹었지만 당연히 앞으론 적용되었어야할 아이디어가 2년이 지나서야 적용된 느낌
  • SOP가 NSP보단 Good이다
  • SOP 할때 문장 단위가 아니라 textual segments로 한거 괜찮았음 (SEP도 그러면 segment단위로 넣겠네)
  • MLM 을 n-gram masking 한건 좀 신기하네 나쁘지 않음
  • transformer에서 dropout을 없애는게 pretraining할 때 진짜 좋은지는 좀 더 검증해봐야할 듯
  • 이 논문은 모델 그림이 없다(?)

Abstract

자세히 보기

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

Author

  • 저자:
    • Mikel Artetxe (University of the Basque Country (UPV/EHU))
    • Holger Schwenk (Facebook AI Research)

Who is an Author?

Mikel Artetxe 라는 친구인데 주로 번역쪽 태스크를 많이 한 것 같고 조경현 교수님하고도 co-author 이력이 있음. 페북에서 인턴할때 쓴 논문임.

author{: height=”50%” width=”50%”}

느낀점

  • 결국 이 논문도 parallel corpus가 필요하다고함. 이걸 통해 multilingual sentence embedding을 얻는 것임
  • Translation이 되게 학습시켜서 encoder를 훈련함
  • 대신에 그 양이 좀 적어도 다양한 언어에 대해서 얻을 수 있게 하는 것
  • 영어로만 transfer learning 시켰는데도 다른언어도 적용된다는 점은 의미있음
  • encoder가 BPE를 통해 language independent하게 모델링했다는게 좀 의미가 있긴한데 한편으로는 universal한 구조다보니 좀 개별언어에 대해서 성능이 최적화되진 않겠다는 생각(이지만 논문에선 결과가 괜찮음)
  • language ID로 decoder에 언어정보를 주는건 꽤 괜찮은 아이디어였다고 생각
  • parallel corpus alignment하는거 어떻게하니.. 고생이 눈에 훤함 (꼭 다할 필요가 없다고 했지만서도)
  • 이번 논문은 약간 Scaling 으로 승부한 케이스인것 같음 (제목 자체가 그렇지만)
  • Scaling을 키워서 실험할 줄 아는것도 결국 연구자의 역량..이라면 인프라가 중요하고 인프라가 중요하다면 configuration 잘하는건 기본이고, 실험비가 많거나 회사가 좋아야(?) 너무 스케일 싸움으로 가는것 같은 논문을 보면 왠지 모르게 아쉽고 씁쓸하다(?)
  • 보통 transfer랑 one-shot, few-shot 등의 용어가 나오는데 fine-tune 안한다고해서 zero-shot이라고 한듯
  • Language-Agnostic 라는 용어: 언어에 구애받지 않는다라는 뜻
  • BERT 등 최신 논문과도 비교했지만(1년이 지났으니 최신이라고 이제 할수있을지..) 본 논문의 기법 자체는 좀 옛날 기법이라는 생각이 듬
  • 논문의 설명이 잘나와있으나 몇가지 좀 생략되어있음 (은근 불친절한)
자세히 보기

Universal Language Model Fine-tuning for Text Classification (ULMFiT)

Author

  • 저자:Jeremy Howard, Sebastian Ruder (fast.ai University of San Francisco)

Who is an Author?

느낀점

  • pretrained model을 범용적으로 쓰려고 시도하려는 시기의 초기 논문인것 같다
  • 저자가 어필을 되게 많이 하는 듯
  • 각 레이어마다 feature가 다르니 다르게 finetune시켜줘야한다는 아이디어가 검증하긴 좀 어렵지만 직관적으론 꽤 설득력있었음. 한편으론 꼭 그래야되나 싶긴하면서도 나쁘지 않았던?
  • warm up등 테크닉이 여기서부터 점점 변형되면서 제안되는 듯

Abstract

자세히 보기

Stochastic Answer Networks for Natural Language Inference (SAN)

Author

  • 저자:Xiaodong Liu†, Kevin Duh and Jianfeng Gao (Microsoft Research, Johns Hopkins University)

Who is an Author?

Xiaodong Liu 라는 친구인데 꽤 꾸준히 연구활동을 하는 친구인것 같다.

author{: height=”50%” width=”50%”}

느낀점

  • turn의 정보를 반영하기에 attention은 필수
  • 하지만 5턴 이상 반영하는건 쉬운게 아님(여기서도 10개까지 했지만 5~6개가 best라고 했음)
  • multi turn을 위한 architecture를 pretrained model를 feature extractor로 써서 결합해서 쓰는게 앞으로의 연구 트렌드가 될 듯
자세히 보기