本發(fā)明屬于數(shù)據(jù)處理,尤其涉及基于預(yù)訓(xùn)練語(yǔ)言模型的海洋浮標(biāo)缺失數(shù)據(jù)填補(bǔ)方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本公開(kāi)相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、海洋數(shù)據(jù)在氣候研究、環(huán)境監(jiān)測(cè)、海洋資源開(kāi)發(fā)等多個(gè)領(lǐng)域具有極其重要的應(yīng)用價(jià)值。海洋浮標(biāo)監(jiān)測(cè)系統(tǒng),作為獲取原位觀測(cè)數(shù)據(jù)的核心工具,以其高頻率、實(shí)時(shí)性和經(jīng)濟(jì)性的優(yōu)勢(shì),在海洋氣象學(xué)、物理海洋學(xué)、海洋生態(tài)學(xué)等研究領(lǐng)域發(fā)揮著關(guān)鍵作用。浮標(biāo)能夠?qū)崟r(shí)監(jiān)測(cè)海洋中的溫度、鹽度、海流、波浪等參數(shù),為研究人員提供了寶貴的海洋數(shù)據(jù),進(jìn)而為氣候變化、海洋環(huán)境變化等海洋相關(guān)研究提供了必要的理論依據(jù)和數(shù)據(jù)支撐。然而,在長(zhǎng)期使用中,由于惡劣的海洋環(huán)境、設(shè)備故障或人為錯(cuò)誤等多種因素的影響,海洋浮標(biāo)數(shù)據(jù)的缺失是不可避免的。海洋浮標(biāo)數(shù)據(jù)缺失值會(huì)妨礙實(shí)時(shí)監(jiān)測(cè)的連續(xù)性,進(jìn)而影響數(shù)據(jù)分析的完整性、模型構(gòu)建的可靠性,以及海洋環(huán)境監(jiān)測(cè)結(jié)果的準(zhǔn)確性。
3、為應(yīng)對(duì)海洋浮標(biāo)數(shù)據(jù)中的缺失值問(wèn)題,最簡(jiǎn)單直接的方法就是刪除所有不完整的數(shù)據(jù),僅對(duì)完整數(shù)據(jù)進(jìn)行分析,但是這種做法會(huì)導(dǎo)致嚴(yán)重的數(shù)據(jù)偏差,尤其是當(dāng)缺失率比較大的情況下。另一種常見(jiàn)的方法就是使用一些插值技術(shù),通過(guò)一定的估算方式填補(bǔ)缺失值。傳統(tǒng)插值方法往往依賴于特定的規(guī)則或統(tǒng)計(jì)假設(shè),難以有效處理海洋數(shù)據(jù)中的復(fù)雜時(shí)空關(guān)系和非線性特征。因此,越來(lái)越多的基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法被應(yīng)用于海洋數(shù)據(jù)處理,如門控循環(huán)單元(gru)、長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm)和transformer等,但這些方法大多集中在海洋時(shí)序數(shù)據(jù)預(yù)測(cè)領(lǐng)域,針對(duì)海洋缺失值插值的研究相對(duì)較少。而現(xiàn)有的海洋數(shù)據(jù)缺失值插補(bǔ)的方法更多關(guān)注單一浮標(biāo)之間的變量關(guān)系及時(shí)序依賴性,很少考慮多個(gè)浮標(biāo)或傳感器之間的空間依賴性。
4、與此同時(shí),預(yù)訓(xùn)練語(yǔ)言模型(plm)在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域取得了顯著的成功,其強(qiáng)大的語(yǔ)義理解和跨模態(tài)知識(shí)遷移與推理能力使其得到了廣泛的認(rèn)可。這一進(jìn)展激發(fā)了研究者們將plm與時(shí)空數(shù)據(jù)相結(jié)合的興趣,特別是在交通時(shí)空數(shù)據(jù)預(yù)測(cè)領(lǐng)域,已經(jīng)取得了顯著成果。近期,stg-llm和tpllm等方法利用預(yù)訓(xùn)練的大型語(yǔ)言模型對(duì)交通數(shù)據(jù)進(jìn)行預(yù)測(cè),探索了預(yù)訓(xùn)練語(yǔ)言模型理解時(shí)空數(shù)據(jù),對(duì)時(shí)空數(shù)據(jù)進(jìn)行預(yù)測(cè)的有效性,并將其與非語(yǔ)言模型的深度學(xué)習(xí)方法進(jìn)行了比較。與非語(yǔ)言模型處理時(shí)空數(shù)據(jù)的方法相比,基于語(yǔ)言模型的方法具有更強(qiáng)的泛化能力,能夠同時(shí)捕捉數(shù)據(jù)的時(shí)間和空間特性,從而實(shí)現(xiàn)對(duì)時(shí)空數(shù)據(jù)的全面理解和處理。
技術(shù)實(shí)現(xiàn)思路
1、為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了基于預(yù)訓(xùn)練語(yǔ)言模型的海洋浮標(biāo)缺失數(shù)據(jù)填補(bǔ)方法及系統(tǒng),將預(yù)訓(xùn)練語(yǔ)言模型(plm)應(yīng)用于海洋原位浮標(biāo)觀測(cè)數(shù)據(jù)的插值任務(wù),并設(shè)計(jì)了專門針對(duì)海洋浮標(biāo)時(shí)空數(shù)據(jù)插值的海洋插值模型。
2、為實(shí)現(xiàn)上述目的,本發(fā)明的一個(gè)或多個(gè)實(shí)施例提供了如下技術(shù)方案:
3、第一方面,本發(fā)明提供了基于預(yù)訓(xùn)練語(yǔ)言模型的海洋浮標(biāo)缺失數(shù)據(jù)填補(bǔ)方法,包括:
4、獲取待填補(bǔ)的海洋浮標(biāo)數(shù)據(jù)和浮標(biāo)站點(diǎn)的圖結(jié)構(gòu);
5、將所述海洋浮標(biāo)數(shù)據(jù)和圖結(jié)構(gòu)輸入至海洋插值模型進(jìn)行插值填補(bǔ),得到完整的海洋浮標(biāo)數(shù)據(jù);
6、所述海洋插值模型包括依次按照順序連接的時(shí)空特征提取模塊、時(shí)空token化模塊、預(yù)訓(xùn)練語(yǔ)言模型和輸出層;所述時(shí)空特征提取模塊從所述海洋浮標(biāo)數(shù)據(jù)中提取得到時(shí)間特征表示,從所述圖結(jié)構(gòu)中提取得到空間特征表示;將所述時(shí)間特征表示和空間特征表示輸入至?xí)r空token化模塊進(jìn)行特征提取和轉(zhuǎn)換,得到時(shí)間token和空間token并連接得到token序列;將所述token序列輸入至預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行學(xué)習(xí)得到高維隱層表示,輸出層接收所述高維隱層表示并將其轉(zhuǎn)換為插補(bǔ)值,得到完整的海洋浮標(biāo)數(shù)據(jù)。
7、進(jìn)一步的技術(shù)方案,從所述海洋浮標(biāo)數(shù)據(jù)中提取得到時(shí)間特征表示具體為:
8、分別從海洋浮標(biāo)數(shù)據(jù)中提取小時(shí)特征向量和月份特征向量,將二者進(jìn)行連接得到時(shí)間特征向量;
9、拼接所有時(shí)間步的時(shí)間特征向量得到時(shí)間特征表示。
10、進(jìn)一步的技術(shù)方案,從所述圖結(jié)構(gòu)中提取得到空間特征表示具體為:
11、根據(jù)圖結(jié)構(gòu)中圖鄰接矩陣建立圖拉普拉斯矩陣;
12、從所述圖拉普拉斯矩陣的特征向量中篩選出最大的多個(gè)特征向量,對(duì)所述特征向量進(jìn)行線性變換得到空間特征向量;
13、拼接所有浮標(biāo)站點(diǎn)的空間特征向量得到空間特征表示。
14、進(jìn)一步的技術(shù)方案,得到時(shí)間token具體為:
15、根據(jù)海洋浮標(biāo)數(shù)據(jù)的平均值得到總體狀態(tài),計(jì)算所述總體狀態(tài)的一階差分得到總體趨勢(shì);
16、采用多層感知機(jī)將總體狀態(tài)與時(shí)間特征表示拼接,得到狀態(tài)token;
17、采用多層感知機(jī)將總體趨勢(shì)與時(shí)間特征表示拼接,得到趨勢(shì)token;
18、將所述狀態(tài)token和趨勢(shì)token連接并進(jìn)行歸一化,得到時(shí)間token。
19、進(jìn)一步的技術(shù)方案,得到空間token具體為:
20、采用多層感知機(jī)將時(shí)間特征表示和空間特征表示拼接,得到靜態(tài)本質(zhì)token;
21、采用多層感知機(jī)從歷史觀測(cè)數(shù)據(jù)中提取動(dòng)態(tài)特征并轉(zhuǎn)換,得到動(dòng)態(tài)變化token;
22、采用多層感知機(jī)從掩碼矩陣中提取缺失特征,得到缺失模式token;
23、將所述靜態(tài)本質(zhì)token、動(dòng)態(tài)變化token和缺失模式token連接,得到空間token。
24、進(jìn)一步的技術(shù)方案,所述預(yù)訓(xùn)練語(yǔ)言模型引入部分凍結(jié)注意力策略,對(duì)前f層的多頭注意力層和前饋網(wǎng)絡(luò)保持凍結(jié),對(duì)最后u層的多頭注意力層解凍微調(diào)。
25、進(jìn)一步的技術(shù)方案,所述輸出層采用解碼器,將預(yù)訓(xùn)練語(yǔ)言模型生成的高維隱層表示轉(zhuǎn)換為插補(bǔ)值。
26、第二方面,本發(fā)明提供了基于預(yù)訓(xùn)練語(yǔ)言模型的海洋浮標(biāo)缺失數(shù)據(jù)填補(bǔ)系統(tǒng),包括:
27、數(shù)據(jù)獲取模塊,其被配置為:獲取待填補(bǔ)的海洋浮標(biāo)數(shù)據(jù)和浮標(biāo)站點(diǎn)的圖結(jié)構(gòu);
28、模型填補(bǔ)模塊,其被配置為:將所述海洋浮標(biāo)數(shù)據(jù)和圖結(jié)構(gòu)輸入至海洋插值模型進(jìn)行插值填補(bǔ),得到完整的海洋浮標(biāo)數(shù)據(jù);
29、所述海洋插值模型包括依次按照順序連接的時(shí)空特征提取模塊、時(shí)空token化模塊、預(yù)訓(xùn)練語(yǔ)言模型和輸出層;所述時(shí)空特征提取模塊從所述海洋浮標(biāo)數(shù)據(jù)中提取得到時(shí)間特征表示,從所述圖結(jié)構(gòu)中提取得到空間特征表示;將所述時(shí)間特征表示和空間特征表示輸入至?xí)r空token化模塊進(jìn)行特征提取和轉(zhuǎn)換,得到時(shí)間token和空間token并連接得到token序列;將所述token序列輸入至預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行學(xué)習(xí)得到高維隱層表示,輸出層接收所述高維隱層表示并將其轉(zhuǎn)換為插補(bǔ)值,得到完整的海洋浮標(biāo)數(shù)據(jù)。
30、第三方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的基于預(yù)訓(xùn)練語(yǔ)言模型的海洋浮標(biāo)缺失數(shù)據(jù)填補(bǔ)方法中的步驟。
31、第四方面,本發(fā)明提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如第一方面所述的基于預(yù)訓(xùn)練語(yǔ)言模型的海洋浮標(biāo)缺失數(shù)據(jù)填補(bǔ)方法中的步驟。
32、以上一個(gè)或多個(gè)技術(shù)方案存在以下有益效果:
33、本發(fā)明提出了一種將預(yù)訓(xùn)練語(yǔ)言模型用于海洋多浮標(biāo)間時(shí)空數(shù)據(jù)缺失值填補(bǔ)的方法,利用預(yù)訓(xùn)練語(yǔ)言模型強(qiáng)大的語(yǔ)義理解和跨模態(tài)知識(shí)遷移與推理能力,去理解并處理時(shí)空數(shù)據(jù),通過(guò)token轉(zhuǎn)化和微調(diào)兩個(gè)步驟將plm與海洋時(shí)空數(shù)據(jù)相結(jié)合,以實(shí)現(xiàn)對(duì)海洋原位浮標(biāo)缺失數(shù)據(jù)的有效填補(bǔ)。
34、本發(fā)明設(shè)計(jì)了一種專為海洋浮標(biāo)時(shí)空數(shù)據(jù)缺失值填補(bǔ)的預(yù)訓(xùn)練語(yǔ)言模型框架即海洋插值模型,通過(guò)時(shí)空特征提取模塊和時(shí)空token化模塊的設(shè)計(jì),有效提取海洋時(shí)序數(shù)據(jù)的時(shí)間依賴性以及多浮標(biāo)間的空間相關(guān)性,從而幫助模型更好理解海洋數(shù)據(jù)。
35、本發(fā)明成功引入pfa策略和lora技術(shù),在對(duì)plm進(jìn)行微調(diào)的過(guò)程中,采用與傳統(tǒng)微調(diào)策略不同的pfa策略,將前f層多頭注意力凍結(jié),以保留plm在預(yù)訓(xùn)練階段所獲取的豐富知識(shí),并對(duì)后u層進(jìn)行解凍微調(diào),以使plm更好的學(xué)習(xí)并適應(yīng)海洋時(shí)空數(shù)據(jù)。微調(diào)階段加入lora技術(shù),在顯著減少模型的參數(shù)調(diào)整量、有效降低計(jì)算成本的同時(shí),還保持模型在海洋插值上的良好性能。
36、本發(fā)明將海洋插值模型與其他插值模型進(jìn)行對(duì)比,結(jié)果既證明了海洋浮標(biāo)數(shù)據(jù)具有一定的空間性,也證明了將預(yù)訓(xùn)練語(yǔ)言模型用于海洋時(shí)空數(shù)據(jù)分析的可行性以及有效性,從而為海洋數(shù)據(jù)研究提供了新的思路。與基線相比,在不同缺失率不同缺失類型下osti-plm模型均達(dá)到最優(yōu)插值,證明了osti-plm模型進(jìn)行海洋多浮標(biāo)時(shí)空數(shù)據(jù)插值的有效性。