時(shí)序分析中的常用算法，都在這里了

沃卡惠
行業(yè)資訊
2023-12-12 09:41:08
494

時(shí)序分析就是利用過(guò)去一段時(shí)間內(nèi)某事件時(shí)間的特征來(lái)預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)該事件的特征。這是一類相對(duì)比較復(fù)雜的預(yù)測(cè)建模問(wèn)題，和回歸分析模型的預(yù)測(cè)不同，時(shí)間序列模型是依賴于事件發(fā)生的先后順序的，同樣大小的值改變順序后輸入模型產(chǎn)生的結(jié)果是不同的。

時(shí)序問(wèn)題都看成是回歸問(wèn)題，只是回歸的方式（線性回歸、樹模型、深度學(xué)習(xí)等）有一定的區(qū)別。

時(shí)序分析包括靜態(tài)時(shí)序分析（STA）和動(dòng)態(tài)時(shí)序分析。

以下為幾種常見的時(shí)序分析算法

1 深度學(xué)習(xí)時(shí)序分析

RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))

循環(huán)神經(jīng)網(wǎng)絡(luò)是指一個(gè)隨著時(shí)間的推移，重復(fù)發(fā)生的結(jié)構(gòu)。在自然語(yǔ)言處理（NLP），語(yǔ)音圖像等多個(gè)領(lǐng)域均有非常廣泛的應(yīng)用。RNN網(wǎng)絡(luò)和其他網(wǎng)絡(luò)最大的不同就在于RNN能夠?qū)崿F(xiàn)某種“記憶功能”，是進(jìn)行時(shí)間序列分析時(shí)最好的選擇。如同人類能夠憑借自己過(guò)往的記憶更好地認(rèn)識(shí)這個(gè)世界一樣。RNN也實(shí)現(xiàn)了類似于人腦的這一機(jī)制，對(duì)所處理過(guò)的信息留存有一定的記憶，而不像其他類型的神經(jīng)網(wǎng)絡(luò)并不能對(duì)處理過(guò)的信息留存記憶。

優(yōu)點(diǎn)：

具有時(shí)間記憶功能，適用于解決時(shí)間序列中間隔較短的問(wèn)題；

缺點(diǎn)：

對(duì)較遠(yuǎn)時(shí)間步的數(shù)據(jù)易產(chǎn)生梯度消失、梯度爆炸的問(wèn)題；

LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM，Long Short-Term Memory）是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò)，是為了解決一般的RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）存在的長(zhǎng)期依賴問(wèn)題而專門設(shè)計(jì)出來(lái)的，所有的RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问健?/p>

優(yōu)點(diǎn)：

適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件。

缺點(diǎn)：

參數(shù)量過(guò)大、易產(chǎn)生過(guò)擬合的問(wèn)題。

2 傳統(tǒng)的時(shí)序分析模型

自回歸(Auto Regression, AR)

移動(dòng)平均線(Moving Average, MA)

自回歸移動(dòng)平均線(Autoregressive Moving Average, ARMA)

自回歸綜合移動(dòng)平均線(Autoregressive Integrated Moving Average, ARIMA)

季節(jié)性自回歸整合移動(dòng)平均線(Seasonal Autoregressive Integrated Moving Average, SARIMA)

具有外生回歸量的季節(jié)性自回歸整合移動(dòng)平均線(Seasonal Autoregressive Integrated Moving-Average with Exogenous Regressors, SARIMAX)

自回歸模型 AR

自回歸模型（Autoregressive Model，簡(jiǎn)稱 AR 模型）是一種時(shí)間序列分析方法，用于描述一個(gè)時(shí)間序列變量與其過(guò)去值之間的關(guān)系。AR模型假設(shè)當(dāng)前觀測(cè)值與過(guò)去的觀測(cè)值之間存在線性關(guān)系，通過(guò)使用過(guò)去的觀測(cè)值來(lái)預(yù)測(cè)未來(lái)的觀測(cè)值。

優(yōu)點(diǎn)：

簡(jiǎn)單性：AR模型是一種線性模型，易于理解和實(shí)現(xiàn)。它僅使用過(guò)去的觀測(cè)值作為自變量，沒有其他復(fù)雜的因素需要考慮。

建模能力：AR模型可以捕捉時(shí)間序列數(shù)據(jù)的自相關(guān)結(jié)構(gòu)，即當(dāng)前觀測(cè)值與過(guò)去觀測(cè)值之間的關(guān)系。它能夠提供對(duì)未來(lái)觀測(cè)值的預(yù)測(cè)，并揭示數(shù)據(jù)中的趨勢(shì)和模式。

缺點(diǎn)：

只適用于平穩(wěn)序列：AR模型要求時(shí)間序列是平穩(wěn)的，即均值、方差和自相關(guān)不隨時(shí)間變化。如果序列不平穩(wěn)，可能需要進(jìn)行差分操作或使用其他模型來(lái)處理非平穩(wěn)性。

對(duì)過(guò)去觀測(cè)值敏感：AR模型的預(yù)測(cè)結(jié)果受到過(guò)去觀測(cè)值的影響，因此在處理長(zhǎng)期預(yù)測(cè)時(shí)可能會(huì)出現(xiàn)誤差累積的問(wèn)題。較大的階數(shù)可能會(huì)導(dǎo)致模型過(guò)擬合，而較小的階數(shù)可能無(wú)法捕捉到時(shí)間序列的復(fù)雜動(dòng)態(tài)。

無(wú)法處理季節(jié)性數(shù)據(jù)：AR模型無(wú)法直接處理具有明顯季節(jié)性的時(shí)間序列。對(duì)于具有季節(jié)性模式的數(shù)據(jù)，可以使用季節(jié)性AR模型（SAR）或ARIMA模型進(jìn)行建模。

移動(dòng)平均法（MA）

移動(dòng)平均法（MA）：該方法基于數(shù)據(jù)的平均數(shù)，并假設(shè)未來(lái)的值與過(guò)去的值之間具有一定的平穩(wěn)性。

優(yōu)點(diǎn)：

能夠捕捉到時(shí)間序列數(shù)據(jù)中的移動(dòng)平均關(guān)系。MA模型利用過(guò)去時(shí)間步白噪聲誤差項(xiàng)的線性組合來(lái)預(yù)測(cè)當(dāng)前觀測(cè)值，因此可以捕捉到數(shù)據(jù)中的移動(dòng)平均性。

相對(duì)簡(jiǎn)單和直觀。MA模型的參數(shù)表示過(guò)去時(shí)間步白噪聲誤差項(xiàng)的權(quán)重，可以通過(guò)估計(jì)這些權(quán)重來(lái)擬合模型。

缺點(diǎn)：

只能捕捉到移動(dòng)平均關(guān)系，無(wú)法捕捉到自回歸關(guān)系。MA模型忽略了過(guò)去時(shí)間步觀測(cè)值，可能無(wú)法捕捉到數(shù)據(jù)中的自相關(guān)性。

對(duì)于某些時(shí)間序列數(shù)據(jù)，MA模型可能需要較高的階數(shù)才能較好地?cái)M合數(shù)據(jù)，導(dǎo)致模型復(fù)雜度增加。

自回歸滑動(dòng)平均模型

自回歸滑動(dòng)平均模型（ARMA模型，Auto-Regression and Moving AverageModel）是研究時(shí)間序列的重要方法，由自回歸模型（AR模型）與滑動(dòng)平均模型（MA模型）為基礎(chǔ)“混合”而成，具有適用范圍廣、預(yù)測(cè)誤差小的特點(diǎn)。

自回歸差分移動(dòng)平均線(Autoregressive Integrated Moving Average, ARIMA)

ARIMA模型全稱為自回歸差分移動(dòng)平均模型（Autoregressive Integrated Moving Average Model）。ARIMA模型主要由三部分構(gòu)成，分別為自回歸模型（AR）、差分過(guò)程（I）和移動(dòng)平均模型（MA）。

ARIMA模型的基本思想是利用數(shù)據(jù)本身的歷史信息來(lái)預(yù)測(cè)未來(lái)。一個(gè)時(shí)間點(diǎn)上的標(biāo)簽值既受過(guò)去一段時(shí)間內(nèi)的標(biāo)簽值影響，也受過(guò)去一段時(shí)間內(nèi)的偶然事件的影響，這就是說(shuō)，ARIMA模型假設(shè)：標(biāo)簽值是圍繞著時(shí)間的大趨勢(shì)而波動(dòng)的，其中趨勢(shì)是受歷史標(biāo)簽影響構(gòu)成的，波動(dòng)是受一段時(shí)間內(nèi)的偶然事件影響構(gòu)成的，且大趨勢(shì)本身不一定是穩(wěn)定的

簡(jiǎn)而言之，ARIMA模型就是試圖通過(guò)數(shù)據(jù)的自相關(guān)性和差分的方式，提取出隱藏在數(shù)據(jù)背后的時(shí)間序列模式，然后用這些模式來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)。其中：

AR部分用于處理時(shí)間序列的自回歸部分，它考慮了過(guò)去若干時(shí)期的觀測(cè)值對(duì)當(dāng)前值的影響。

I部分用于使非平穩(wěn)時(shí)間序列達(dá)到平穩(wěn)，通過(guò)一階或者二階等差分處理，消除了時(shí)間序列中的趨勢(shì)和季節(jié)性因素。

MA部分用于處理時(shí)間序列的移動(dòng)平均部分，它考慮了過(guò)去的預(yù)測(cè)誤差對(duì)當(dāng)前值的影響。

結(jié)合這三部分，ARIMA模型既可以捕捉到數(shù)據(jù)的趨勢(shì)變化，又可以處理那些有臨時(shí)、突發(fā)的變化或者噪聲較大的數(shù)據(jù)。所以，ARIMA模型在很多時(shí)間序列預(yù)測(cè)問(wèn)題中都有很好的表現(xiàn)。

優(yōu)點(diǎn)：

模型十分簡(jiǎn)單，只需要內(nèi)生變量而不需要借助其他外生變量。(所謂內(nèi)生變量指的應(yīng)該是僅依賴于該數(shù)據(jù)本身，而不像回歸需要其他變量)

缺點(diǎn)：

要求時(shí)序數(shù)據(jù)是穩(wěn)定的（stationary），或者是通過(guò)差分化(differencing)后是穩(wěn)定的。

本質(zhì)上只能捕捉線性關(guān)系，而不能捕捉非線性關(guān)系。

季節(jié)性自回歸整合移動(dòng)平均模型 SARIMA

SARIMA 是一種常用的時(shí)序分析方法，它是 ARIMA 模型在季節(jié)性數(shù)據(jù)上的擴(kuò)展。SARIMA 模型可以用于預(yù)測(cè)季節(jié)性時(shí)間序列數(shù)據(jù)，例如每年的銷售額或每周的網(wǎng)站訪問(wèn)量。下面是SARIMA模型的優(yōu)缺點(diǎn)：

優(yōu)點(diǎn)：

SARIMA模型可以很好地處理季節(jié)性數(shù)據(jù)，因?yàn)樗紤]了時(shí)間序列數(shù)據(jù)中的季節(jié)性因素。

SARIMA模型可以對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行長(zhǎng)期預(yù)測(cè)，因?yàn)樗梢圆蹲降綌?shù)據(jù)中的趨勢(shì)和周期性變化。

SARIMA模型可以用于多變量時(shí)間序列數(shù)據(jù)，因?yàn)樗梢酝瑫r(shí)考慮多個(gè)變量之間的關(guān)系。

缺點(diǎn)：

SARIMA模型需要大量的歷史數(shù)據(jù)來(lái)訓(xùn)練，因此在數(shù)據(jù)量較少的情況下可能不太適用。

SARIMA模型對(duì)異常值比較敏感，因此需要對(duì)異常值進(jìn)行處理。

SARIMA模型的計(jì)算復(fù)雜度較高，需要進(jìn)行大量的計(jì)算和優(yōu)化。

具有外生回歸量的季節(jié)性自回歸整合移動(dòng)平均模型 SARIMAX

具有外生回歸量的季節(jié)性自回歸整合移動(dòng)平均模型(Seasonal Autoregressive Integrated Moving-Average with Exogenous Regressors, SARIMAX)是在差分移動(dòng)自回歸模型（ARIMA）的基礎(chǔ)上加上季節(jié)（S,Seasonal）和外部因素(X,eXogenous)。也就是說(shuō)以ARIMA基礎(chǔ)加上周期性和季節(jié)性，適用于時(shí)間序列中帶有明顯周期性和季節(jié)性特征的數(shù)據(jù)。

3 其他時(shí)序模型

這類方法以 lightgbm、xgboost 為代表，一般就是把時(shí)序問(wèn)題轉(zhuǎn)換為監(jiān)督學(xué)習(xí)，通過(guò)特征工程和機(jī)器學(xué)習(xí)方法去預(yù)測(cè)；這種模型可以解決絕大多數(shù)的復(fù)雜的時(shí)序預(yù)測(cè)模型。支持復(fù)雜的數(shù)據(jù)建模，支持多變量協(xié)同回歸，支持非線性問(wèn)題。

不過(guò)這種方法需要較為復(fù)雜的人工特征過(guò)程部分，特征工程需要一定的專業(yè)知識(shí)或者豐富的想象力。特征工程能力的高低往往決定了機(jī)器學(xué)習(xí)的上限，而機(jī)器學(xué)習(xí)方法只是盡可能的逼近這個(gè)上限。特征建立好之后，就可以直接套用樹模型算法 lightgbm/xgboost，這兩個(gè)模型是十分常見的快速成模方法，除此之外，他們還有以下特點(diǎn)：

計(jì)算速度快，模型精度高；

缺失值不需要處理，比較方便；

支持 category 變量；

支持特征交叉。

具體選擇哪種方法需要根據(jù)數(shù)據(jù)的性質(zhì)、問(wèn)題的特點(diǎn)以及自身的經(jīng)驗(yàn)和能力來(lái)綜合考量。

需要根據(jù)具體的數(shù)據(jù)特征、問(wèn)題要求和自身的能力來(lái)選擇合適的時(shí)間序列預(yù)測(cè)方法。有時(shí)，結(jié)合多個(gè)方法可以提高預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性。同時(shí)，為了更好地選擇模型和評(píng)估預(yù)測(cè)結(jié)果，對(duì)數(shù)據(jù)進(jìn)行可視化分析和模型診斷也是很重要的。

上一篇：智能機(jī)器人如何學(xué)習(xí)？

下一篇：如何利用生成式人工智能進(jìn)行精確編碼