Bert(Bidirectional Encoder Representations from Transformers)¶

Bert分两方面来理解，一方面是它是怎么来的，他解决了哪些问题;另一方面是从工程化的角度，bert到底怎么用。

bert到底是什么¶

bert是一个经过预训练的语言表达方法，也就是说，先通过一个很大的语料库，训练一个通用的语言理解模型，然后再用这个模型来做细分的NLP任务。bert比以往的方法都要好，因为它是第一个针对预训练NLP的无监督，深度双向系统。 bert的无监督体现在它完全是通过原始语料库训练来的，这其实非常重要，因为原始语料库在网络是非常容易获取的。

bert为了达到无监督和双向，使用了一个非常简单又巧妙的途径：屏蔽掉输入中15%的单词，然后在深度双向的transformer网络中运行整个句子，然后预测被屏蔽掉的单词。

为了能够学习句子之间的关系，也用一个简单的任务对此进行了训练，任务可以由任何单一语言语料库来生成。给定两个句子，A和B,B可能是A的下一句，也可能不是，然后进行大量的训练。

大致上，这就是bert

bert是一个经过预训练的神经网络。那么是不是可以认为，预训练的部分教会了它对语言的基本理解，剩下的是写作文，还是阅读理解，只需要根据具体任务进行fine-tuning就行了。当然预训练其实成本很高，但好处是一旦学会了就忘不掉了。

BERT拥有一个深而窄的神经网络。transformer的中间层有2048，BERT只有1024，但却有12层。因此，它可以在无需大幅架构修改的前提下进行双向训练。由于是无监督学习，因此不需要人工干预和标注，让低成本地训练超大规模语料成为可能。 BERT模型能够联合神经网络所有层中的上下文来进行训练。这样训练出来的模型在处理问答或语言推理任务时，能够结合上下文理解语义，并且实现更精准的文本预测生成。 BERT只需要微调就可以适应很多类型的NLP任务，这使其应用场景扩大，并且降低了企业的训练成本。BERT支持包括中文在内的60种语言，研究人员也不需要从头开始训练自己的模型，只需要利用BERT针对特定任务进行修改，在单个云TPU上运行几小时甚至几十分钟，就能获得不错的分数

BERT提供了简单和复杂两个模型BERT_base和BERT_large

类型	网络层数(Bert Model)	隐层大小	Attention的数量	参数总大小
BERT_base	L=12	H=768	A=12	110MB
BERT_large	L=24	H=1024	A=16	340MB

github地址 https://github.com/google-research/bert

Bert特点¶

NLP领域大有作为，只需要微调就可以适应很多类型的NLP任务
使用了Transformer 作为算法的主要框架
开源

模型¶

                               matmul
                                 ^
                                 |
                                 |
                            Pooler Dense
                                 ^
                                 |
                                 |
                    |--------------------------|
                    |        Add & Norm        |
                    |            ^             |
                    |            |             |
                    |        Feed Forward      |
                    |            ^             |
        BertModel   |            |             |   x12
                    |        Add & Norm        |
                    |            ^             |
                    |            |             |
                    |    Multi-Head Attention  |
                    |---------------------------
                                 ^
                                 |
                                 |
                            Layer Normal
                                 ^
                                 |
                                 |
 Position Embedding ----------> add <---------- Segment Embedding
                                 ^
                                 |
                                 |
                          Input Embedding

Bert获取前端输入的嵌入特征，然后通过Bert Model对特征进行处理，Bert Model 和 Transformer model 很相似，最后要通过特殊处理获得想要的结果，针对不同的细分应用，后续的处理会有不同。

forward¶

(模型输入，以MRPC为例，两句话，判定相关性) as input
note left
PCCW 's chief operating officer , Mike Butcher ,
and Alex Arena , the chief financial officer ,
will report directly to Mr So .

Current Chief Operating Officer Mike Butcher
and Group Chief Financial Officer Alex Arena
will report to So .
endnote

(FullTokenizer \n\n\
第一步通过load_vocab加载词典\n\
第二步BasicTokenizer去除空格等无意义字符，进行粗粒度分词\n\
第三步WordpieceTokenizer根据词典使用贪婪算法进行细粒度分词) as tk

(细粒度分词结果) as tokened

input --> tk
tk --> tokened
note left
[CLS] pc ##c ##w ' s chief operating officer ,
mike butcher , and alex arena , the chief
financial officer , will report directly to mr so .
[SEP] current chief operating officer mike
butcher and group chief financial officer
alex arena will report to so . [SEP]
endnote

(查找字典，获取字符编码,标记为input_ids) as InputIds
(把第一句所有字符标记为0，\n\
第二句所有字符标记为1，组成segment_ids) as SegmentIds
(强制编码句子中每个词的位置，组成position) as position
(根据句子最大编码长度，有效字符标记为1，\n\
未使用的标记为0，组成input_mask) as InputMask

tokened --> InputIds
tokened --> InputMask
tokened --> SegmentIds
tokened --> position

(Input Embedding\n\
查表) as ie
(Position Embedding) as pe
(Segment Embeddin\n\
one-hot) as se

InputIds --> ie
position --> pe
SegmentIds --> se

ie --> (add)
pe --> (add)
se --> (add)

BERT不直接处理单词，而是把WordPieces作为token。 BERT的输入的编码向量是3个嵌入特征的单位和，这三个词嵌入特征是：

WordPiece 嵌入：查找WordPiece嵌入的token词汇表。用##表示分词。 WordPiece是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡。如将‘playing’被拆分成了‘play’和‘ing’。在句子开头和结尾还会插入两个特殊符号[CLS]和[SEP]，其中[CLS]表示该特征用于分类模型，每个序列的第一个token始终是特殊分类嵌入（[CLS]）。对应于该token的最终隐藏状态（即，Transformer的输出）被用作分类任务的聚合序列表示。对于非分类任务，将忽略此向量。[SEP]表示分句符号，用于断开输入语料中的两个句子
位置嵌入（Position Embedding）：位置嵌入是指将单词的位置信息编码成特征向量，位置嵌入是向模型中引入单词位置关系的至关重要的一环
分割嵌入（Segment Embedding）：用于区分两个句子，例如B是否是A的下文（对话场景，问答场景等）。对于句子对，第一个句子的特征值是0，第二个句子的特征值是1

mask嵌入特征会在bert Model中使用，这和transformer一样

训练任务¶

Bert的训练任务可以分为Pretraining任务和Fine-Tuning。Pretraining任务实现了一个基础的Bert，在需要进行具体的任务时，还需要进行Fine-Tuning

Pretraining任务¶

BERT是一个多任务模型，它的任务是由两个自监督任务组成，即MLM(Masked Language Model)和NSP(Next Sentence Prediction)

MLM¶

所谓MLM是指在训练的时候随即从输入预料上mask掉一些单词，然后通过的上下文预测该单词。在BERT的实验中，15%的WordPiece Token会被随机Mask掉。在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后

80%时间：my dog is hairy -> my dog is [mask] 10%时间：my dog is hairy -> my dog is apple 10%时间：my dog is hairy -> my dog is hairy

MSP¶

Next Sentence Prediction（NSP）的任务是判断句子B是否是句子A的下文。如果是的话输出“IsNext”，否则输出“NotNext”。训练数据的生成方式是从平行语料中随机抽取的连续两句话，其中50%保留抽取的两句话，它们符合IsNext关系，另外50%的第二句话是随机从预料中提取的，它们的关系是NotNext的。这个关系保存在[CLS]符号中

Fine-Tuning¶

在海量单预料上训练完BERT之后，便可以将其应用到NLP的各个任务中了.对于其它任务来说，我们也可以根据BERT的输出信息作出对应的预测,它们只需要在BERT的基础上再添加一个输出层便可以完成对特定任务的微调

微调的任务包括

基于句子对的分类任务
基于单个句子的分类任务
问答任务
命名实体识别

基于句子对的分类任务¶

MNLI¶

给定一个前提 (Premise) ，根据这个前提去推断假设 (Hypothesis) 与前提的关系。该任务的关系分为三种，蕴含关系 (Entailment)、矛盾关系 (Contradiction) 以及中立关系 (Neutral)。所以这个问题本质上是一个分类问题，我们需要做的是去发掘前提和假设这两个句子对之间的交互信息

QQP¶

基于Quora，判断 Quora 上的两个问题句是否表示的是一样的意思。QNLI：用于判断文本是否包含问题的答案，类似于我们做阅读理解定位问题所在的段落。

STS-B¶

预测两个句子的相似性，包括5个级别。

MRPC¶

也是判断两个句子是否是等价的。

RTE¶

类似于MNLI，但是只是对蕴含关系的二分类判断，而且数据集更小。

SWAG¶

从四个句子中选择为可能为前句下文的那个。

基于单个句子的分类任务¶

SST-2¶

电影评价的情感分析。

CoLA¶

句子语义判断，是否是可接受的（Acceptable）。

问答任务¶

SQuAD v1.1¶

给定一个句子（通常是一个问题）和一段描述文本，输出这个问题的答案，类似于做阅读理解的简答题。如图 ©表示的，SQuAD的输入是问题和描述文本的句子对。输出是特征向量，通过在描述文本上接一层激活函数为softmax的全连接来获得输出文本的条件概率，全连接的输出节点个数是语料中Token的个数

命名实体识别¶

CoNLL-2003 NER¶

判断一个句子中的单词是不是Person，Organization，Location，Miscellaneous或者other（无命名实体）。微调CoNLL-2003 NER时将整个句子作为输入，在每个时间片输出一个概率，并通过softmax得到这个Token的实体类别。