當前位置：首頁>科技>正文

長序列時間序列預測（LSTF）

由大魚的小屋發表于科技2021-09-15

01簡介

在很多實際應用問題中，我們需要對長序列時間序列進行預測，例如用電使用規劃。長序列時間序列預測（LSTF）要求模型具有很高的預測能力，即能夠有效地捕捉輸出和輸入之間較精確的長程相關性耦合。最近的研究表明，Transformer具有提高預測能力的潛力。

然而，Transformer存在一些嚴重的問題，如：

二次時間複雜度、高記憶體使用率以及encoder-decoder體系結構的固有限制。

02背景

Intuition：Transformer是否可以提高計算、記憶體和架構效率，以及保持更高的預測能力？

原始Transformer的問題

本文提出的方案同時解決了上面的三個問題，我們研究了在self-attention機制中的稀疏性問題，本文的貢獻有如下幾點：

03方法

現有時序方案預測可以被大致分為兩類：

高效的Self-Attention機制

04方法Encoder + Decoder

1。 Encoder： Allowing for processing longer sequential inputs under the memory usage limitation

2。 Decoder： Generating long sequential outputs through one forward procedure

Loss Function

此處選用MSE 損失函式作為最終的Loss。

05實驗

1。實驗效果

從上表中，我們發現：

所提出的模型Informer極大地提高了所有資料集的推理效果（最後一列的獲勝計數），並且在不斷增長的預測範圍內，它們的預測誤差平穩而緩慢地上升。

query sparsity假設在很多資料集上是成立的；

Informer在很多資料集上遠好於LSTM和ERNN

2。引數敏感性

3。解耦實驗

從上表中我們發現，

ProbSparse self-attention機制的效果：ProbSparse self-attention的效果更好，而且可以節省很多記憶體消耗；

self-attention distilling：是值得使用的，尤其是對長序列進行預測的時候；

generative stype decoderL：它證明了decoder能夠捕獲任意輸出之間的長依賴關係，避免了誤差的積累；

4。計算高效性

在訓練階段，在基於Transformer的方法中，Informer獲得了較佳的訓練效率。

在測試階段，我們的方法比其他生成式decoder方法要快得多。

06小結

本文研究了長序列時間序列預測問題，提出了長序列預測的Informer方法。具體地：

設計了ProbSparse self-attention和提取操作來處理vanilla Transformer中二次時間複雜度和二次記憶體使用的挑戰。

generative decoder緩解了傳統編解碼結構的侷限性。

透過對真實資料的實驗，驗證了Informer對提高預測能力的有效性

標籤： Transformer 預測序列 SELF attention

上一篇：<<「給你無聊的生活精準一擊」

下一篇：YOLO v2演算法詳解>>