2020-10-22 게시 됨2022-08-28 업데이트 됨paper6분안에 읽기 (약 948 단어)

Document Expansion by Query Prediction

Author

저자:
- Rodrigo Nogueira, Wei Yang, Jimmy Lin, and Kyunghyun Cho
  (New York University, Facebook AI Research), 2019
조경현 교수님과 co-work
같은 년도에 쓴 Passage Re-ranking with BERT도 인용수가 높은 편 (4페이지 짜리인데도)
{: height=”50%” width=”50%”}

느낀점

요즘엔 T5로 시도한 방법들이 결과가 좋다고 나오고 있음
DE (document expansion) 관련 논문들이 은근히 없다.. 다 QE (Query expansion)
BERT를 검색에 적용한 논문들은 거의 re rank 수준.. inverted index에 적용한건 거의 없고 약간 흑마법처럼 보이기도..
참고
- https://paperswithcode.com/paper/document-expansion-by-query-prediction
- https://github.com/castorini/docTTTTTquery

Abstract

검색을 효과적으로 개선하는 방법중 하나는 문서 텀을 확장하는 것임
QA 시스템의 관점에서는 문서가 질문을 잠재적으로 포함한다고도 볼 수 있음
(query, relevant documents) pair 셋으로 seq2seq 모델 학습해서 query 예측하는 방법 제안
re-ranking component와 결합하면 two retrieval task에서 SOTA 결과 나옴

Introduction

자세히 보기

2020-06-18 게시 됨2022-08-28 업데이트 됨paper10분안에 읽기 (약 1443 단어)

BERT-based Lexical Substitution

Author

논문 매우 많이 씀
AAAI, ACL, ICLR 등 탑티어 컨퍼런스 논문냄
마소에서 인턴했고 2021 fall 박사과정 자리 구하는중 (아직 석사라는 뜻)
개인블로그 운영: https://michaelzhouwang.github.io/

{: height=”50%” width=”50%”} {: height=”30%” width=”30%”}

저자:
- Wangchunshu Zhou, Ke Xu (Beihang University)
- Tao Ge, Furu Wei, Ming Zhou (Microsoft Research Asia)

Abstract

이전 연구들은 lexical resources (e.g. WordNet)으로 부터 타겟의 동의어를 찾아서 substitute candidates를 얻어서 context를 보고 랭킹하는 식의 연구였음
이런 연구들은 두가지 한계점이 있음
- 타겟 단어의 synonyms 사전에 없는 good substitute candidates를 찾아내지 못함
- substitution이 문장의 global context에 주는 영향을 고려하지 못함
이 문제를 해결하기 위해, end-to-end BERT-based lexical substitution approach를 제안함
annotated data or manually curated resources 없이 만든 substitute candidates 제안하고 검증함
target word’s embedding 에 dropout 적용해서 target word’s semantics and contexts for proposing substitute candidates를 고려할 수 있게함
SOTA 찍음 (LS07, LS14 benchmark)

Introduction

자세히 보기

2020-05-26 게시 됨2022-08-28 업데이트 됨paper14분안에 읽기 (약 2071 단어)

Deeper Text Understanding for IR with Contextual Neural Language Modeling"

목차

Author
Abstract
Introduction
Related Work
Document Search with BERT
Experimental Setup
Results and Discussion
Conclusion

Author

CMU 박사괴정 (https://www.cs.cmu.edu/~zhuyund/)
IR에 적용하는 Language Understanding쪽 연구
Three papers in deep retrieval and conversational search got accepted into SIGIR 2020!

{: height=”50%” width=”50%”}

Abstract

뉴럴넷은 복잡한 언어 패턴과 query-document relation을 자동으로 학습할 수 있는 새로운 가능성을 제공하고 있음
Neural IR models은 query-document relevance pattern을 학습하는데 좋은 결과를 보여주지만, query 또는 document의 text content를 이해하는 것에 대한 연구는 많지 않았음 (?)
본 논문에서는 최근에 제안되었던 contextual neural LM, BERT 등이 IR에서 deeper text understanding에 얼마나 효과 있는지를 알아보고함
실험 결과는 전통적인 word embedding보다 BERT가 제공하는 contextual text representations이 더 효과있음을 보여주었음
BoW retrieval 모델에 비해 contextual LM은 더 나은 language structure를 사용하고, 자연어 형태의 query에 대해 큰 성능향상을 가져올 수 있음
text understanding ability를 search knowledge와 결합시키는 것은 제한적인 학습셋을 갖는 조건에서 search task를 Ptr BERT가 더 잘할 수 있게 해줌 (정확한해석은 아닌데 대략 이런의미)

자세히 보기

2019-12-19 게시 됨2022-08-28 업데이트 됨paper21분안에 읽기 (약 3121 단어)

Unified Language Model Pre-training for Natural Language Understanding and Generation

Author

저자:
- Li Dong∗ Nan Yang∗ Wenhui Wang∗ Furu Wei∗ † Xiaodong Liu Yu Wang Jianfeng Gao Ming Zhou Hsiao-Wuen Hon (Microsoft Research)

Who is an Author?

일단 쓴 논문들에 대한 기본 인용수가 높다
감성분석, MRC, Summarization 등 태스크를 가리지 않고, EMNLP, AAAI, ACL 등에 논문을 엄청 많이 냄.. 그냥 고수
이 논문은 NeurIPS 2019
191219 기준으로 인용수 26회

{: height=”50%” width=”50%”}

느낀점

NLG에서 SOTA를 꽤 찍었는데 방식이 좀 신기
shared param (같은 모델)로 NLU와 NLG를 할 수 있다는게 가장 큰 장점
masking으로 장난치면서(?) 모델을 발전시킨건 어쩌면 자연스러운 수순인듯
1st segment에서 passage와 answer를 concat하거나 conversation history를 concat 방식으로 집어넣는데, 잘되는게 좀 신기하긴함
T5가 살아남을지 이 친구가 더 개량되서 살아남을지 궁금
seq2seq LM을 fine-tuning하는 방법이 좀 신선했음 당연히 left-to-right 방식으로 teacher forcing할줄 알았는데.. ㅎㅎ

자세히 보기

2019-12-10 게시 됨2022-08-28 업데이트 됨paper15분안에 읽기 (약 2193 단어)

Distilling Task-Specific Knowledge from BERT into Simple Neural Networks

Author

저자:
- Raphael Tang∗, Yao Lu∗, Linqing Liu∗, Lili Mou, Olga Vechtomova, and Jimmy Lin (University of Waterloo)

Who is an Author?

ICASSP를 들고 있는 NLP 하던 분인 듯
보통은 문서분류쪽 많이 한듯

{: height=”50%” width=”50%”}

느낀점

아이디어는 간단함
Data Augmentation을 넣은건 좋았음
그러나 성능이 좋아진게 Distillation 때문인지 Data Augmentation 때문인지를 정확히 다루지 않아서.. 이 부분이 이 논문의 최대 에러임

자세히 보기

2019-11-28 게시 됨2022-08-28 업데이트 됨paper16분안에 읽기 (약 2368 단어)

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Author

저자:
- Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF (Hugging Face) (~~허깅페이스에서 일해보고 싶다~~)

Who is an Author?

AAAI를 들고 있는 NLP 하던 분인 듯
Thomas Wolf(huggingface)와 주로 작업하는 듯함
{: height=”50%” width=”50%”}

느낀점

일단 논문이 짧다. 좋아.
soft target probability로 CE한거랑, MLM, Cosine Embedding Loss만으로 좋은 성적을 얻음 (cosine embedding을 사용한건 기여할만함)
최근 나왔던 MobileBERT처럼 Attention에 자체에 대해서 distillation하지 않아도 나쁘지 않은 결과가 나오는구나 싶긴함 물론 MobileBERT가 더 최신이니 Attention 자체에 대해서도 적용하면 좋겠지만.. 이건 BERT끼리만 가능한 approach니..
weight initialization을 teacher network 에서 가져오는것도 나쁘진 않았음(layer 차이가 나서 좀 다르긴하지만)
pre-train도 distillation 쓰고, fine-tune도 distillation 쓰면 잘되는건 알겠음.. 괜찮은 방법이긴한데 여러케이스가 존재할 수 있을것 같아 좀 더 비교가 필요해보임

Abstract

자세히 보기

2019-11-11 게시 됨2022-08-28 업데이트 됨paper33분안에 읽기 (약 5015 단어)

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Author

저자:
- Zhenzhong Lan, Sebastian Goodman, Piyush Sharma Radu Soricut (Google Research)
- Mingda Chen, Kevin Gimpel (Toyota Technological Institute at Chicago)

Who is an Author?

원래는 CV를 위주로 하던 친구인데 이번에 NLP꺼도 해본듯 (CVPR도 들고 있고..)
논문 인용수도 꽤 됨
Google VR팀에서도 인턴했었음
{: height=”50%” width=”50%”}
http://www.cs.cmu.edu/~lanzhzh/

느낀점

간단한 아이디어인데 실험을 엄청 많이 해놔서 paper를 만든느낌
실험이 의미는 있지만 직관적으로 예측가능한 결과임
간단한 아이디어도 사실 예전부터 적용되어야 했음 (weight sharing, decomposition)
transformer 논문이 처음에 pretraining용이 아니다보니 당시 그 논문에서 빼먹었지만 당연히 앞으론 적용되었어야할 아이디어가 2년이 지나서야 적용된 느낌
SOP가 NSP보단 Good이다
SOP 할때 문장 단위가 아니라 textual segments로 한거 괜찮았음 (SEP도 그러면 segment단위로 넣겠네)
MLM 을 n-gram masking 한건 좀 신기하네 나쁘지 않음
transformer에서 dropout을 없애는게 pretraining할 때 진짜 좋은지는 좀 더 검증해봐야할 듯
이 논문은 모델 그림이 없다(?)

Abstract

자세히 보기

2019-10-14 게시 됨2022-08-28 업데이트 됨paper25분안에 읽기 (약 3760 단어)

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

Author

저자:
- Mikel Artetxe (University of the Basque Country (UPV/EHU))
- Holger Schwenk (Facebook AI Research)

Who is an Author?

Mikel Artetxe 라는 친구인데 주로 번역쪽 태스크를 많이 한 것 같고 조경현 교수님하고도 co-author 이력이 있음. 페북에서 인턴할때 쓴 논문임.

author {: height=”50%” width=”50%”}

느낀점

결국 이 논문도 parallel corpus가 필요하다고함. 이걸 통해 multilingual sentence embedding을 얻는 것임
Translation이 되게 학습시켜서 encoder를 훈련함
대신에 그 양이 좀 적어도 다양한 언어에 대해서 얻을 수 있게 하는 것
영어로만 transfer learning 시켰는데도 다른언어도 적용된다는 점은 의미있음
encoder가 BPE를 통해 language independent하게 모델링했다는게 좀 의미가 있긴한데 한편으로는 universal한 구조다보니 좀 개별언어에 대해서 성능이 최적화되진 않겠다는 생각(~~이지만 논문에선 결과가 괜찮음~~)
language ID로 decoder에 언어정보를 주는건 꽤 괜찮은 아이디어였다고 생각
parallel corpus alignment하는거 어떻게하니.. 고생이 눈에 훤함 (꼭 다할 필요가 없다고 했지만서도)
이번 논문은 약간 Scaling 으로 승부한 케이스인것 같음 (제목 자체가 그렇지만)
Scaling을 키워서 실험할 줄 아는것도 결국 연구자의 역량..이라면 인프라가 중요하고 인프라가 중요하다면 configuration 잘하는건 기본이고, ~~실험비가 많거나 회사가 좋아야(?) 너무 스케일 싸움으로 가는것 같은 논문을 보면 왠지 모르게 아쉽고 씁쓸하다(?)~~
보통 transfer랑 one-shot, few-shot 등의 용어가 나오는데 fine-tune 안한다고해서 zero-shot이라고 한듯
Language-Agnostic 라는 용어: 언어에 구애받지 않는다라는 뜻
BERT 등 최신 논문과도 비교했지만(~~1년이 지났으니 최신이라고 이제 할수있을지..~~) 본 논문의 기법 자체는 좀 옛날 기법이라는 생각이 듬
~~논문의 설명이 잘나와있으나 몇가지 좀 생략되어있음 (은근 불친절한)~~

자세히 보기

2019-10-11 게시 됨2022-08-28 업데이트 됨paper10분안에 읽기 (약 1447 단어)

Universal Language Model Fine-tuning for Text Classification (ULMFiT)

Author

저자:Jeremy Howard, Sebastian Ruder (fast.ai University of San Francisco)

Who is an Author?

Google Scholar에 안나와서..
Author’s Twitter

느낀점

pretrained model을 범용적으로 쓰려고 시도하려는 시기의 초기 논문인것 같다
저자가 어필을 되게 많이 하는 듯
각 레이어마다 feature가 다르니 다르게 finetune시켜줘야한다는 아이디어가 검증하긴 좀 어렵지만 직관적으론 꽤 설득력있었음. 한편으론 꼭 그래야되나 싶긴하면서도 나쁘지 않았던?
warm up등 테크닉이 여기서부터 점점 변형되면서 제안되는 듯

Abstract

자세히 보기

2019-10-08 게시 됨2022-08-28 업데이트 됨paper12분안에 읽기 (약 1731 단어)

Stochastic Answer Networks for Natural Language Inference (SAN)

Author

저자:Xiaodong Liu†, Kevin Duh and Jianfeng Gao (Microsoft Research, Johns Hopkins University)

Who is an Author?

Xiaodong Liu 라는 친구인데 꽤 꾸준히 연구활동을 하는 친구인것 같다.

author {: height=”50%” width=”50%”}

느낀점

turn의 정보를 반영하기에 attention은 필수
하지만 5턴 이상 반영하는건 쉬운게 아님(여기서도 10개까지 했지만 5~6개가 best라고 했음)
multi turn을 위한 architecture를 pretrained model를 feature extractor로 써서 결합해서 쓰는게 앞으로의 연구 트렌드가 될 듯

자세히 보기