MRC
-
Transformer-XH: Multi-hop question answering with eXtra Hop attention
内容简介:解决多跳推理的MRC问题。提出Transformer-XH结构,即每个passage在建模时不仅考虑自己的内部信息,还考虑了其他和它有连边的passage节点信息。各passage节点之间的连边关系由wikipedia链接得到。该模型的优势在于考虑了文本的结构信息,而不是简单地把所有passage拼接起来看作一个序列。
数据集:HotpotQA
一点想法:看这篇论文的时候觉得这个点和蒋同学曾经的研究点很像。但之所以别人可以做出来,可以想到方案,我觉得自身的不足之处在于:1)基础知识不够,同时也导致了思路打不开;2)很多时候,课题下发下来之后,不清楚工作的边界在什么地方,也就导致了太关注和死盯着问题本身,思路无法发散。
-
Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension
内容简介:需要离散推理的阅读理解任务。预测question所需的推理类型(例如,排序、计数、算术运算),再根据模型预测的evidence span,结合推理类型得到最终答案。
数据集:DROP、MathQA
-
NeurQuRI: Neural Question Requirement Inspector for Answerability Prediction in Machine Reading Comprehension
内容简介:提出了一个判断question可回答性的模块,可以和现有RC模型一起使用。。思路是提取question中需要被满足的条件,再比较这些条件是否在RC模型预测的answer中被满足,以此判断是否是否可回答。
一点想法:感觉思想有点类似于机器翻译任务中的converage vector机制。后来在相关工作部分的确看到了作者对coverage机制的介绍。。感觉平时看完论文之后应该多思考一下,这样的idea也不是不能想到的。
-
Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation
内容简介:本文的任务是根据passage和answer生成question。先对passage信息和answer信息进行深度融合,得到passage中每个词的表示;以passage中每个词为节点构造图,图中的边可以根据依存关系分析或语义关系进行构建,然后进行GNN;根绝GNN的结果得到整个图的表示,再用LSTM进行解码生成question。另外作者还提出了使用额外的强化学习loss来增强生成文本的语法和语义有效性。
数据集:SQuAD
-
Learning to retrieve reasoning paths over wikipedia graph for question answering
内容简介:主要针对开放域多跳QA问题的evidence passage检索问题。。关键在于提出了新的检索出一系列evidence passage(即同时也可得到推理路径)的方法,该方法在检索过程中考虑了之前推理步的evidence passage。在RC阶段对得到的几个候选推理路径重打分,再从最佳推理路径中得到answer span。
预训练模型
-
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
内容简介:对bert预训练的改进。因为bert在预训练时,MLM任务只利用了15%的token计算loss,效率不够高。本文提出先用小一点的模型作为生成器进行MLM任务,对被mask掉的位置进行词的预测;然后再通过一个判别器,对每个位置的词预测是否是原始的词。训练结束后,丢弃掉生成器,只微调判别器用于下游任务。。实验结果表明,通常这样的方式,可以充分利用训练数据。而且从结果看,如果bert的MLM任务也使用所有位置的信息,应该性能还会上升。
-
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
内容简介:通过矩阵分解和每层参数共享减少参数量,其次把NSP预训练任务替换成setence-order prediction任务。
-
RoBERTa: A Robustly Optimized BERT Pretraining Approach
内容简介:本文是对bert进行的一项复制研究。对原始的BERT实验方式进行以下修改:1)对模型进行更长时间、更大批量、更多数据的训练;2)删除NSP预训练任务;3)对更长序列进行训练;4)动态改变应用于训练数据的masking模式。
-
StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
内容简介:对bert的预训练改进,想要显式地考虑句子的结构信息。设计的预训练任务包括:1)bert原有的MLM任务;2)同ALBERT,把NSP预训练任务替换成setence-order prediction任务;3)词序预测任务。
个人看法:根据ACL2019的一篇论文,对BERT学到的表示进行分析的结果来看,已经表明BERT可以学习到句子的结构(树状)。对于词序预测的预训练任务,从直观上看是对训练数据利用更充分,但不知道是否真的学到了句子的结构信息。
-
TinyBERT: Distilling BERT for Natural Language Understanding
内容简介:想要通过知识蒸馏,得到一个性能没有下降很多的小student模型。主要在于设计的两段式学习方法(预训练时的数据蒸馏和微调时的数据蒸馏),以及知识蒸馏时采用四部分的loss函数之和:1)embedding layer;2)每一层的attention matrix 和 输出;3)Prediction layer 。
-
Pretrained Encyclopedia:Weakly Supervised Knowledge-Pretrained Language Model
内容简介:类似于ERNIE,主要是想增强bert预训练模型中对实体知识的捕捉,从而提升与实体有关的下游任务的性能。作者设计的预训练目标是:1)5%的MLM;2)判别实体是否被替换的二分类任务(构造训练数据时,对部分实体找到其同类实体进行替换)
信息检索
-
Poly-encoders:Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring
内容简介:把预训练模型用到ranking任务上。本文提出了Poly-encoder模型,替代bi-encoder和cross-encoder,以在性能和速度之间做到均衡。所谓Poly-encoder,1)把Document通过预训练模型后第一个词[CLS]的表达作为文本表示;2)把query通过预训练模型后分别进行多个attentive-pooling得到多个全局特征表达,所有全局特征表达与文本表示进行attention,得到最终的query向量表示;3)拿文本表示和query表示计算点积,作为两者相似度。
-
Going beyond token-level pre-training for embedding-based large-scale retrieval
内容简介:提出了针对retrieval任务的预训练模型,并且针对的点是提高类似开放域QA这样的任务在前期retrieval阶段的召回率。。。针对retrieval任务,本文提出的预训练任务有:1)MLM;2)对维基百科文档的任一passage,随机选择一个句子作为query,passage其余部分加该文档的title作为document,构造一个正例对;3)从某一维基百科文档的第一段随机选择一个句子作为query,从该文档选择除第一段外的一个其他passage作为document,构造一个正例对;4)从某一维基百科文档的第一段随机选择一个句子作为query,从该文档的链接指向的文档中随机选择一个passage作为document,构造一个正例对。
对话
-
Low-Resource Knowledge-Grounded Dialogue Generation
内容简介:本文主要提出了对于对话模型中,只有少量具有Knowledge-grounded的样本,导致模型可能被训练的过拟合从而泛化能力差的问题。本文提出了分块训练模型的方法,来缓解这个问题。该方法简单且实用性强,值得借鉴,具有模型不可知和任务不可知性。
数据集:Wizard
-
Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue
内容简介:本文主要针对如何在对话任务中更好地选择背景知识,从而也进一步提高生成的response的性能。亮点在于对知识选择同时进行先验和后验建模,同时还考虑历史对话中背景知识的信息对当前对话的知识选择的影响。
数据集:Wizard
NMT
-
Incorporating bert into neural machine translation
内容简介:本文主要探讨了新的方法将bert预训练模型融入到NMT任务中。本文采用的方式是,使用不微调的BERT得到额外的句子表示,这些表示会融入到正常的encoder-decoder NMT模型的每一层。
其他
- Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity
- On Identifiability in Transformers ????
- A Theoretical Analysis of the Number of Shots in Few-Shot Learning