0%

Motivation

本文主要针对在低维向量空间中嵌入多关系数据(Multi-relational data)的实体和关系信息的问题。

Multi-relational Data, 指节点形如 (head,label,tail)(head, label, tail) 的有向图,节点中的三元组分别代表头实体(head entity), 尾实体(tail entity)和头尾实体之间的关系(label)。本文的工作主要就关注于如何建模 Multi-relation data 的问题。

Modeling multi-relational data

多关系数据建模过程可以归结为实体之间的局部或全局关系模式的抽取过程,并根据观察到的关系模式泛化到所有实体之间进行预测。单一关系的局部性可能是纯粹结构性的,但也与实体类型相关。一般的关系数据则更加复杂,同时涉及关系和实体的类型。因此关系数据是异构的,需要更加泛化性的方法建模。

现存的方法大多基于隐式属性学习的框架,即通过学习实体和关系数据的隐藏表征进行建模。这些工作集中于增加模型的表现力和通用性,一般采用贝叶斯聚类框架或者基于能量的框架在低维向量空间学习实体的表征。这些模型的表现力的提升是以模型复杂度的增加作为代价,这导致其建模假设难以解释,同时带来计算成本的提高。

阅读全文 »

本文针对多跳 KGQA 问题,提出一种透明的框架提升多跳 KGQA 的效率和可解释性。现存的模型通常是通过预测多跳过程中的关系序列或者通过图神经网络提取知识图谱的隐式特征来解决多跳 KGQA 问题,前者由于推理路径的搜索空间太大而难以优化,后者则缺乏可解释性。本文作者提出的 TransferNet 则通过逐步计算,获取推理过程中每个节点激活的实体和关系解决 KGQA 问题,由于推理过程中的中间结果可以轻易被人类理解,具有较好的可解释性。

阅读全文 »

Motivition

CGEC

中文语法纠错,旨在自动检测纠正中文语句中的语法错误。

中文语法纠错需要的操作种类:

  • 替换,中文中常常出现同音字(拼音输入法)和错别字的错误。可以通过替换对应的字纠正
  • 删除和插入,分别应对文字的冗余和遗漏问题
  • 本地释义,有时语法错误要求通过重新排列等方式重新释义序列中的部分词

其中插入删除本地释义是变长操作,替换是定长操作

阅读全文 »

Motivation

一般的文本生成任务没有严格的格式限制,像宋词,十四行诗,歌词等文本由严格的格式或韵律控制,而关于受控格式的文本生成还未被充分研究过。

阅读全文 »

Introduction

RoBERTa是一种新的BERT训练方法,超过了所有的post-BERT方法的性能。

本文通过重复BERT的研究过程,发现BERT是严重欠训练的。本文旨在仔细评估超参数和训练集的大小对模型性能的影响。

RoBERTa对BERT做出的修改如下:

总体上,本文的贡献为:

  1. 展示了一系列BERT设计和训练的选择和策略,介绍了可以提高下游任务性能的选择
  2. 使用了一个新的数据集:CC-NEWS,确认了使用更多数据进行预训练能够进一步提高下游任务上的表现
  3. 实验证明了MLM在正确的设计下优于最近新提出的所有方法
阅读全文 »

Layer Normalization 是针对 Batch Normalization 提出的,两者都是深度神经网络中为解决训练困难而提出的归一化手段。

阅读全文 »

KBQA(Question Answering over Knowlegde Bases) 旨在根据结构化的知识图谱回答自然语言问题,该任务在现代的问答系统和信息检索系统中广泛应用。
由于自然语言问题与知识图谱中的推理链的不相容性,最近的 KBQA 方法更关注于图谱中的逻辑关系,忽略了图谱的节点和边上的文本语义信息。同时预训练模型虽然从大规模的语料中学习到了大量开放世界知识,但是这种知识是非结构化的,与结构化的知识图谱之间存在隔阂。为连接预训练语言模型与知识图谱,作者提出了三种关系学习任务来进行关系增强训练。经过这种训练,模型能够将自然语言表述与知识图谱中的关系对齐,同时能够跨过缺失的直接关系进行推理。

阅读全文 »

作者提出一种实体表征方法,通过在预训练 Transformer Encoder 模型时将实体看作独立的 token 来为实体生成表征。作者提出类似于 MLM 的预训练目标,首先将语料中的实体文本提取并放在语句末端,然后以一定的比例将实体替换为 [MASK]\text{[MASK]} ,并训练模型预测被遮罩的实体。为了提升效果,作者为放在语句末端的实体设计了特殊的实体 positional embedding,同时在 Encoder 模型的基础上添加 entity-aware self-attention mechanism 来增强模型对 token type(entity or word) 的感知。作者在多个数据集多个实体相关的任务上进行了实验。

阅读全文 »