本發(fā)明屬于無線通信,更具體地,涉及一種用于動(dòng)態(tài)頻譜接入的深度循環(huán)q網(wǎng)絡(luò)的構(gòu)建方法。
背景技術(shù):
1、隨著5g的商業(yè)化推進(jìn)以及6g的高速發(fā)展,無線通信網(wǎng)絡(luò)規(guī)模急速增長(zhǎng),用戶數(shù)量不斷增加,大型的高密集數(shù)據(jù)型應(yīng)用接連涌現(xiàn),加劇了頻譜資源競(jìng)爭(zhēng)。傳統(tǒng)頻譜分配方法通常以固定分配為主,導(dǎo)致頻譜資源利用率較低。動(dòng)態(tài)頻譜接入(dsa)技術(shù)使非授權(quán)用戶合理捕捉并充分利用由于授權(quán)用戶處于空閑狀態(tài)而產(chǎn)生的頻譜空洞,顯著提高了頻譜利用率。近年來,深度強(qiáng)化學(xué)習(xí)(drl)因其在高維狀態(tài)空間和連續(xù)動(dòng)作空間中的強(qiáng)大學(xué)習(xí)能力,被廣泛應(yīng)用于無線通信領(lǐng)域。
2、現(xiàn)有方法主要依賴機(jī)器學(xué)習(xí)、優(yōu)化算法或強(qiáng)化學(xué)習(xí)(reinforcement?learning,rl),但普遍存在以下問題:未充分建模用戶間的干擾關(guān)系,對(duì)于空間相關(guān)信息的挖掘較為有限,亦缺乏時(shí)間依賴性建模,無法準(zhǔn)確預(yù)測(cè)未來頻譜占用趨勢(shì)。進(jìn)一步地,決策過程復(fù)雜度高,難以實(shí)時(shí)優(yōu)化大規(guī)模網(wǎng)絡(luò)中的頻譜分配;以上各種缺陷導(dǎo)致動(dòng)態(tài)頻譜接入效率較低。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種用于動(dòng)態(tài)頻譜接入的深度循環(huán)q網(wǎng)絡(luò)的構(gòu)建方法,其目的在于,解決現(xiàn)有動(dòng)態(tài)頻譜接入方法往往接入效率低的技術(shù)問題。
2、為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個(gè)方面,提供了一種用于動(dòng)態(tài)頻譜接入的深度循環(huán)q網(wǎng)絡(luò)的構(gòu)建方法,包括:
3、s1:構(gòu)建表征用戶網(wǎng)絡(luò)狀態(tài)的時(shí)空?qǐng)D;所述時(shí)空?qǐng)D的節(jié)點(diǎn)包括授權(quán)用戶和非授權(quán)用戶;所述節(jié)點(diǎn)的特征向量為對(duì)應(yīng)節(jié)點(diǎn)的網(wǎng)絡(luò)狀態(tài)編碼;所述時(shí)空?qǐng)D的邊根據(jù)節(jié)點(diǎn)間的地理位置和干擾關(guān)系進(jìn)行構(gòu)建;
4、s2:將各個(gè)時(shí)刻所述時(shí)空?qǐng)D對(duì)應(yīng)的特征矩陣輸入空間注意力機(jī)制模塊得到各個(gè)時(shí)刻所述時(shí)空?qǐng)D對(duì)應(yīng)空間注意力權(quán)重;
5、s3:將各個(gè)時(shí)刻的空間注意力權(quán)重與時(shí)空?qǐng)D的特征矩陣融合得到各個(gè)時(shí)刻的空間注意力特征;
6、s4:將各個(gè)時(shí)刻環(huán)境因素、歷史行為和空間注意力特征輸入時(shí)間注意力機(jī)制模塊,得到各個(gè)時(shí)刻的時(shí)間注意力權(quán)重;
7、s5:將每個(gè)時(shí)刻的時(shí)間注意力權(quán)重與相應(yīng)的空間注意力特征進(jìn)行融合,得到時(shí)空?qǐng)D的綜合注意力特征;
8、s6:將所述時(shí)空?qǐng)D的綜合注意力特征輸入初始深度循環(huán)q網(wǎng)絡(luò)進(jìn)行深度強(qiáng)化學(xué)習(xí)訓(xùn)練直至收斂,得到目標(biāo)深度循環(huán)q網(wǎng)絡(luò)。
9、進(jìn)一步地,所述s1包括:
10、以授權(quán)用戶和非授權(quán)用戶為所述時(shí)空?qǐng)D的節(jié)點(diǎn),以節(jié)點(diǎn)的網(wǎng)絡(luò)狀態(tài)編碼作為所述節(jié)點(diǎn)的特征向量;
11、若任意節(jié)點(diǎn)之間的通信距離超過預(yù)設(shè)距離或信道增益超過指定閾值則在所述時(shí)空?qǐng)D中對(duì)應(yīng)節(jié)點(diǎn)之間增加一條邊,以反映潛在的干擾耦合或協(xié)作關(guān)系。
12、進(jìn)一步地,所述s2包括:
13、在第一時(shí)刻,將第一時(shí)刻對(duì)應(yīng)時(shí)空?qǐng)D的特征矩陣輸入空間注意力機(jī)制模塊得到第一時(shí)刻對(duì)應(yīng)的空間注意力權(quán)重其中,eij表示節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的注意力系數(shù),eij=leakyrelu(at·(whi||whj)),eik表示節(jié)點(diǎn)i和節(jié)點(diǎn)k之間的注意力系數(shù),表示鄰居節(jié)點(diǎn)集合,leakyrelu()表示帶泄露系數(shù)的relu激活函數(shù),at表示可學(xué)習(xí)的注意力權(quán)重向量,whi,whj表示圖注意力網(wǎng)絡(luò)的可學(xué)習(xí)變換矩陣,||表示向量拼接操作;
14、在第一時(shí)刻之后的每個(gè)時(shí)刻,將所述每個(gè)時(shí)刻對(duì)應(yīng)時(shí)空?qǐng)D的特征矩陣以及前一個(gè)時(shí)刻的各個(gè)節(jié)點(diǎn)的更新特征輸入注意力機(jī)制模塊得到所述每個(gè)時(shí)刻對(duì)應(yīng)的空間注意力權(quán)重;h′表示節(jié)點(diǎn)i的節(jié)點(diǎn)更新特征,σ(·)為sigmoid函數(shù)。
15、進(jìn)一步地,所述s4包括:
16、s41:將t時(shí)刻環(huán)境因素和歷史行為和空間注意力特征進(jìn)行拼接得到t時(shí)刻的空間融合特征其中,wt,lt,qt分別表示天氣、地理位置、信號(hào)質(zhì)量;tt,ft分別表示上網(wǎng)時(shí)長(zhǎng)、訪問的頻譜段;
17、s42:將t時(shí)刻的空間融合特征輸入所述時(shí)間注意力機(jī)制模塊中,得到t時(shí)刻的時(shí)間注意力權(quán)重。
18、進(jìn)一步地,所述s42包括:
19、將t時(shí)刻的空間融合特征輸入所述時(shí)間注意力機(jī)制模塊中,得到t時(shí)刻的時(shí)間注意力權(quán)重
20、
21、其中,環(huán)境因素的權(quán)重歷史行為的權(quán)重wenv表示環(huán)境因素的可學(xué)習(xí)權(quán)重矩陣;wbehabior表示歷史行為因素的可學(xué)習(xí)權(quán)重矩陣。
22、進(jìn)一步地,所述s6包括:
23、以最小化帶嶺回歸約束的損失為目標(biāo),將所述時(shí)空?qǐng)D的綜合注意力特征輸入初始深度循環(huán)q網(wǎng)絡(luò)進(jìn)行深度強(qiáng)化學(xué)習(xí)訓(xùn)練,直至模型收斂,得到目標(biāo)深度循環(huán)q網(wǎng)絡(luò)。
24、進(jìn)一步地,訓(xùn)練過程中利用如下公式更新所述初始深度循環(huán)q網(wǎng)絡(luò)直至其收斂;
25、zt=σ(wzxt+wz,inut+wz,feedbackyt)
26、
27、其中,σ(·)為sigmoid函數(shù),wz,wz,in,wz,feedback均為可訓(xùn)練網(wǎng)絡(luò)權(quán)重,xt為當(dāng)前狀態(tài)向量,ut為外部輸入,yt表示反饋輸出,為在當(dāng)前時(shí)刻收集到的輸入信號(hào)xt,ut,yt之上的新候選狀態(tài),tanh(·)表示雙曲正切激活函數(shù),xt+1表示最終狀態(tài)更新,⊙為元素hadamard乘,ηt表示額外的噪聲或擾動(dòng)項(xiàng)。
28、按照本發(fā)明的另一方面,提供了一種非授權(quán)用戶的動(dòng)態(tài)頻譜接入方法,包括:將當(dāng)前時(shí)刻的網(wǎng)絡(luò)環(huán)境對(duì)應(yīng)時(shí)空?qǐng)D的綜合注意力特征輸入上述方法構(gòu)建的目標(biāo)深度循環(huán)q網(wǎng)絡(luò),得到當(dāng)前時(shí)刻的信道分配策略;利用所述當(dāng)前信道分配策略實(shí)現(xiàn)非授權(quán)用戶的動(dòng)態(tài)頻譜接入。
29、按照本發(fā)明的另一方面,提供了一種非授權(quán)用戶的動(dòng)態(tài)頻譜接入系統(tǒng),包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)非授權(quán)用戶的動(dòng)態(tài)頻譜接入方法的步驟。
30、按照本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)用于動(dòng)態(tài)頻譜接入的深度循環(huán)q網(wǎng)絡(luò)的構(gòu)建方法或非授權(quán)用戶的動(dòng)態(tài)頻譜接入方法的步驟。
31、總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:
32、(1)本發(fā)明提出的用于動(dòng)態(tài)頻譜接入的深度循環(huán)q網(wǎng)絡(luò)的構(gòu)建方法,通過引入空間注意力機(jī)制能夠動(dòng)態(tài)識(shí)別不同位置的用戶之間的干擾強(qiáng)弱,精準(zhǔn)建模用戶之間的空間關(guān)聯(lián)性,從而有效降低頻譜沖突及干擾的發(fā)生概率,提升整體網(wǎng)絡(luò)通信質(zhì)量;通過引入時(shí)間注意力機(jī)制和transformer架構(gòu),有效捕捉用戶頻譜使用模式隨時(shí)間的演變特征,準(zhǔn)確預(yù)測(cè)頻譜的占用與空閑狀態(tài),大幅提高頻譜資源利用率;結(jié)合深度循環(huán)q網(wǎng)絡(luò)(drqn)的強(qiáng)化學(xué)習(xí)特性構(gòu)建得到的深度循環(huán)q網(wǎng)絡(luò),在用于動(dòng)態(tài)頻譜接入時(shí),實(shí)現(xiàn)了頻譜分配的智能化決策,動(dòng)態(tài)適應(yīng)用戶需求變化和網(wǎng)絡(luò)狀態(tài)的波動(dòng),降低決策時(shí)延,提升了接入效率。
33、(2)本方案中,若節(jié)點(diǎn)間距離或信道增益超過指定閾值,則在時(shí)空?qǐng)D中該節(jié)點(diǎn)增加一條邊,以反映潛在的干擾耦合或協(xié)作關(guān)系;在每個(gè)時(shí)隙結(jié)束后根據(jù)用戶位置和干擾變化動(dòng)態(tài)更新節(jié)點(diǎn)特征或邊集合。
34、(3)本方案中,采用時(shí)空?qǐng)D注意力網(wǎng)絡(luò)(st-gat)對(duì)空間維度上的干擾關(guān)系以及時(shí)間維度上的頻譜使用模式進(jìn)行有效分析,并通過拓展transformer模塊,充分考慮天氣、地理位置、信號(hào)質(zhì)量,以及用戶歷史接入模式,用戶本身設(shè)備特征實(shí)現(xiàn)對(duì)頻譜使用模式的精準(zhǔn)時(shí)序預(yù)測(cè)。在此基礎(chǔ)上,應(yīng)用深度循環(huán)q網(wǎng)絡(luò)(drqn),借助強(qiáng)化學(xué)習(xí)框架實(shí)現(xiàn)動(dòng)態(tài)頻譜接入的智能決策,實(shí)時(shí)輸出最優(yōu)信道分配策略,最大化頻譜資源的利用效率并最小化用戶間干擾。
35、(4)本方案中,嶺回歸方法的應(yīng)用則進(jìn)一步增強(qiáng)了模型在復(fù)雜動(dòng)態(tài)場(chǎng)景中的泛化性能,避免過擬合風(fēng)險(xiǎn),從而提高動(dòng)態(tài)頻譜接入方法在實(shí)際場(chǎng)景中的穩(wěn)定性與可靠性。
36、(5)本方案中,門控機(jī)制的加入能顯著提高模型訓(xùn)練過程中的信息利用效率,防止無效或冗余信息干擾決策過程。