我们只用绿色的食品原料
半岛游戏零食加工厂,只为您的健康着想
尤其是BERT 是依靠浅层句法模式还是较深层知识知识来消除歧义是一个有趣的研究课题。
作者:Leyang Cui等
编辑:小舟、杜伟
转载请联系本民众号获得授权
转载请联系本民众号获得授权
预训练上下文化语言模型(例如 BERT)的乐成引发了研究人员探索此类模型中的语言知识以解释下游任务的庞大革新。只管先前的研究事情展示了 BERT 中的句法、语义和词义知识但在研究 BERT 如何解决知识问答(CommonsenseQA)任务方面做的事情还很少。
研究者举行实验来评估 MAC 对模型决议的孝敬以及 MAC 依赖与输出准确率之间的相关性。
实验中使用注意力权重和归因得分来丈量链接这是因为在思量模型预测时梯度会发挥作用。
首先视察未经微调的原始 BERT每一层的最大 MAW 准确率显着优于随机基准。这讲明 BERT 确实捕捉了知识知识。此外BERT 的平均 MAW 也显着优于随机基准(p 值 < 0.01)这讲明相关的问题观点无需微调即可在 BERT 编码中发挥很是重要的作用。
从形式上给定一个问题 q 和 5 个候选谜底 a1, ..., a5研究者对相应的 5 个候选句子 s1, ..., s5 举行比力。在每个候选句子中研究者凭据 ConceptNet 盘算了谜底观点到问题观点的链接权重。
研究者丈量了 BERT-FT 和 BERT-Probing(这是一个仅针对输出层举行微调的 BERT 变体)的 MAC 性能其中 BERT-Probing 是一个线性探测(linear probing)模型。
直观地讲如果线性分类器可以预测知识任务则未经微调的原始模型可能会编码富厚的知识知识。
任务和模型
在解说 BERT 的应用之前研究者首先简要先容了 CommonsenseQA 的相关知识。
CommonsenseQA
其次就平均 MAW 准确率和最大 MAW 准确率而言BERT-FT 均优于 BERT。这讲明对知识任务的监视训练可以增强结构化的知识知识。
研究者使用一种名为集成梯度(Integrated GradientSundararajan 等人 2017 年提出)的归因方法来解释 BERT 中的知识链接。
直观地讲集成梯度方法模拟剪枝特定注意力头的历程(从初始注意力权重α到零向量α')并盘算反向流传中的集成梯度值。
研究者进一步举行了一组实验来形貌知识链接与模型预测之间的相关性。目的是为了研究差别候选谜底观点到问题观点的链接权重是否会对这些候选谜底之间的模型决议造成影响。
基于 Talmor 等人(2019 年)的研究研究者将问题中的源观点称为问题观点(question concept)将谜底中的目的观点称为谜底观点(answer concept)。
此外对于所有试验来说归因得分的趋势与使用注意力权重丈量的效果保持一致。
直观地讲如果谜底观点到问题观点的链接权重高于谜底观点到其他疑问词的链接权重则 ConceptNet 中的知识知识是通过履历表现捕捉的。
下表 3 为 top Transformer 层中 12 个注意力头条件下MAC 和 MAS 的重叠率(overlapping rate):