Transformer-XL

tags: Transformers, NLP
paper: (Dai et al. 2019)

Architecture

This model uses relative positional embedding to enable using attention over longer contexts than the vanilla Transformer.

Parameter count

151M

Bibliography

Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov. June 2, 2019. June 2, 2019DOI.

Links to this note

T5
XLNet

Last changed 2022.07.27 | authored by Hugo Cisneros

Comments

Loading comments...

Back to Notes