国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

基于雙層路由注意和時(shí)空不一致性學(xué)習(xí)的深度視頻幀插值識(shí)別方法及系統(tǒng)

文檔序號(hào):42326697發(fā)布日期:2025-07-01 19:45閱讀:8來(lái)源:國(guó)知局

本發(fā)明涉及視頻取證,特別是基于雙層路由注意和時(shí)空不一致性學(xué)習(xí)的深度視頻幀插值檢測(cè)方法。具體而言,本發(fā)明通過(guò)結(jié)合雙層路由注意機(jī)制(bi-levelrouting?attention,bra)與時(shí)空不一致學(xué)習(xí),針對(duì)深度視頻的插值幀,提出了一種僅需原始視頻數(shù)據(jù)的二分類檢測(cè)方法,從而在視頻取證、視頻篡改識(shí)別等場(chǎng)景中具有重要的應(yīng)用價(jià)值。


背景技術(shù):

1、幀復(fù)制或幀平均是最簡(jiǎn)單的視頻幀插值方案,它們?cè)趦蓚€(gè)幀的中間插入相鄰幀或平均幀。這在靜態(tài)場(chǎng)景中產(chǎn)生良好的視覺(jué)效果,但在動(dòng)態(tài)視頻中會(huì)導(dǎo)致抖動(dòng)和模糊。傳統(tǒng)的視頻幀插值方法集中在運(yùn)動(dòng)矢量的計(jì)算上,然后是運(yùn)動(dòng)的修正和過(guò)渡細(xì)節(jié)的細(xì)化。盡管產(chǎn)生了良好的結(jié)果,這些方法仍然可以產(chǎn)生視覺(jué)偽影,如在具有復(fù)雜的運(yùn)動(dòng)和紋理的區(qū)域產(chǎn)生模糊和重影。這些偽影是由于不精確的運(yùn)動(dòng)估計(jì)、照明變化和物體的遮擋而產(chǎn)生的。這些也是檢測(cè)常規(guī)視頻幀插值的動(dòng)力來(lái)源。隨著cnn的發(fā)展,深度視頻幀插值通過(guò)產(chǎn)生更真實(shí)的高幀率視頻,有效地緩解了之前提到的視覺(jué)偽影,在這一領(lǐng)域變得突出。他們采用深度生成模型,通過(guò)模型參數(shù)的迭代細(xì)化來(lái)獲取從一對(duì)相鄰幀到中間幀的變換。他們的關(guān)鍵在于設(shè)計(jì)一個(gè)創(chuàng)新的網(wǎng)絡(luò)架構(gòu),加上精心設(shè)計(jì)的損失函數(shù)。該架構(gòu)通常包括兩個(gè)階段:運(yùn)動(dòng)估計(jì)或特征匹配和隨后的幀合成。前者旨在預(yù)測(cè)光流,卷積核,雙向編碼,可變形卷積或運(yùn)動(dòng)和外觀提取,而后者基于預(yù)測(cè)結(jié)果創(chuàng)建具有更多細(xì)節(jié)的中間幀。特別地,損失函數(shù)幫助插值幀通過(guò)反向傳播來(lái)匹配真實(shí)的幀。此外,transformer架構(gòu)和diffusion模型表現(xiàn)出出色的生成能力,并逐漸成為該領(lǐng)域的流行架構(gòu)。由于這些插值模型可以生成更真實(shí)的插值幀,它們給檢測(cè)深度視頻幀插值帶來(lái)了嚴(yán)峻的挑戰(zhàn)。

2、目前,視頻幀插值檢測(cè)研究主要分為兩類。第一類基于手工特征提取,包括遺留痕跡挖掘、取證特征設(shè)計(jì)和svm分類。例如,通過(guò)預(yù)測(cè)誤差信號(hào)的周期性變化推導(dǎo)原始幀率、通過(guò)紋理變化曲線估計(jì)幀速率、通過(guò)計(jì)算插值像素差異設(shè)計(jì)偽影指數(shù)圖和利用噪聲變化和運(yùn)動(dòng)效應(yīng)估計(jì)幀速率。這些方法依賴視頻幀插值操作產(chǎn)生的視覺(jué)偽影,如運(yùn)動(dòng)模糊和邊界變形。第二類利用深度學(xué)習(xí)自主提取特征,通過(guò)預(yù)處理層和時(shí)空學(xué)習(xí)實(shí)現(xiàn)視頻幀插值檢測(cè)。例如,隱寫(xiě)分析cnn和混合cnn用于檢測(cè)插值幀、基于雙流多尺度時(shí)空表示的深度視頻幀插值取證方法和異常區(qū)域感知的深度視頻幀插值檢測(cè)方法。然而,深度視頻幀插值提高了視頻生成的保真度,減少了視覺(jué)痕跡,使得現(xiàn)有檢測(cè)方法效率降低。現(xiàn)有方法還存在局限性,如受多重壓縮偽影影響、對(duì)未學(xué)習(xí)編碼因子性能較低、在壓縮環(huán)境中性能劣化、對(duì)訓(xùn)練數(shù)據(jù)過(guò)擬合等。此外,現(xiàn)有研究未充分考慮多模態(tài)、多尺度特征的融合,也無(wú)法預(yù)測(cè)所使用的深度視頻幀插值模型。因此,迫切需要設(shè)計(jì)一種綜合性能優(yōu)異的專門(mén)技術(shù)來(lái)識(shí)別深度視頻幀插值操作。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明旨在解決現(xiàn)有技術(shù)中存在的問(wèn)題。為此,本發(fā)明提出一種基于雙層路由注意和時(shí)空不一致性學(xué)習(xí)的深度視頻幀插值檢測(cè)方法及系統(tǒng),通過(guò)rgb信息和過(guò)濾得到的噪聲信息構(gòu)建雙流網(wǎng)絡(luò),將時(shí)間級(jí)流和幀級(jí)流之間的特征進(jìn)行交互學(xué)習(xí),提高檢測(cè)性能的同時(shí)更關(guān)注泛化性能。

2、第一方面,本發(fā)明的實(shí)施例提供了一種基于雙層路由注意和時(shí)空不一致性學(xué)習(xí)的深度視頻幀插值檢測(cè)方法,所述基于雙層路由注意和時(shí)空不一致性學(xué)習(xí)的深度視頻幀插值檢測(cè)方法包括:

3、獲取連續(xù)5幀rgb視頻幀序列,并采用高通濾波器(hpf)對(duì)于連續(xù)的5幀rgb幀進(jìn)行處理得到過(guò)濾幀序列;

4、構(gòu)建深度視頻幀插值檢測(cè)網(wǎng)絡(luò),將過(guò)濾幀序列進(jìn)行補(bǔ)丁嵌入然后送入第一個(gè)bifb模塊進(jìn)行幀級(jí)特征提取。補(bǔ)丁嵌入可以將圖像轉(zhuǎn)換為序列數(shù)據(jù),從而便于transformer模型處理圖像數(shù)據(jù)。然后將rgb幀序列輸入時(shí)間差分模塊(tdm)進(jìn)行時(shí)間級(jí)特征提取。其中,將得到的幀級(jí)特征和時(shí)間級(jí)特征采用預(yù)設(shè)的基于注意力的交互式特征融合模塊(aif2m)進(jìn)行交互學(xué)習(xí)得到第一階段的融合特征;

5、將第一階段融合特征首先直接送入resnet18的conv3_x殘差塊,然后進(jìn)行補(bǔ)丁合并操作后送入第二個(gè)bifb模塊,從而分別進(jìn)行時(shí)間級(jí)和幀級(jí)的特征提取。補(bǔ)丁合并操作可以降低輸入的特征圖像的空間分辨率,同時(shí)增加通道數(shù)量。然后將得到的幀級(jí)特征和時(shí)間級(jí)特征采用預(yù)設(shè)的基于注意力的交互式特征融合模塊(aif2m)進(jìn)行交互學(xué)習(xí)得到第二階段的融合特征;

6、將第二階段的融合特征首先直接送入resnet18的conv4_x殘差塊,然后進(jìn)行補(bǔ)丁合并操作后送入第三個(gè)bifb模塊,從而分別進(jìn)行時(shí)間級(jí)和幀級(jí)的特征提取。然后將得到的幀級(jí)特征和時(shí)間級(jí)特征采用預(yù)設(shè)的基于注意力的交互式特征融合模塊(aif2m)進(jìn)行交互學(xué)習(xí)得到第三階段的融合特征;

7、將第三階段融合特征輸入到整體-部分特征融合模塊(wpf2m)進(jìn)行處理得到最終的時(shí)空特征,并將該特征輸入到預(yù)設(shè)的分類器,最終判斷視頻幀為原始幀還是插值幀。

8、根據(jù)本發(fā)明的一些實(shí)施例,所述從rgb視頻幀提取過(guò)濾幀的方法包括:

9、利用cvtcolor函數(shù)中默認(rèn)的的加權(quán)平均法將所述rgb幀進(jìn)行灰度轉(zhuǎn)換,得到灰度圖像;

10、將得到的灰度圖像經(jīng)過(guò)1第一個(gè)預(yù)定義的濾波器去除低頻信息得到new_img1;

11、將得到的new_img1除以12進(jìn)行歸一化后得到new_img2;

12、將得到的new_img2經(jīng)過(guò)第二個(gè)預(yù)定義的濾波器進(jìn)行處理得到所述的過(guò)濾幀。

13、根據(jù)本發(fā)明的一些實(shí)施例,所述補(bǔ)丁嵌入操作包含兩個(gè)卷積層,其具有3×3的核大小,步長(zhǎng)大小為2,填充值為1,兩個(gè)批歸一化(bn)層和高斯誤差線性單元(gelu)激活函數(shù);通過(guò)補(bǔ)丁嵌入操作將輸入的大小為224×224的視頻幀分割成56×56的塊,然后每個(gè)塊被展平成一維向量送入到第一個(gè)bifb塊中進(jìn)行特征提取。

14、根據(jù)本發(fā)明的一些實(shí)施例,所述幀級(jí)流的構(gòu)成包括3個(gè)bifb模塊,bifb模塊的構(gòu)成為:

15、3×3深度卷積層、layer?norm層、bra模塊、layer?norm層和擴(kuò)展比為3的兩層的多層感知器(mlp);

16、3個(gè)bifb模塊中的s都設(shè)置為8;第一個(gè)bifb模塊的top-k為1,第二個(gè)bifb模塊的top-k為4,第三個(gè)bifb模塊的top-k為16。

17、根據(jù)本發(fā)明的一些實(shí)施例,所述基于雙層路由注意機(jī)制(bra)的工作流程如下:

18、區(qū)域劃分和輸入預(yù)測(cè)。首先將濾波后的幀iifilter∈rh×w×c劃分為s個(gè)區(qū)域,每個(gè)區(qū)域具有個(gè)特征向量。但這些區(qū)域并不重疊。然后iifilter變?yōu)榻酉聛?lái),用線性投影法導(dǎo)出查詢、鍵、值張量q,k,

19、q=xrwq,k=xrwk,v=xrwv?(1)

20、其中wq,wk,wv∈rc×c表示查詢、鍵和值的相應(yīng)投影權(quán)重。

21、區(qū)域到區(qū)域路由索引矩陣。然后創(chuàng)建一個(gè)有向圖,用于找到每個(gè)給定區(qū)域與其他區(qū)域之間的關(guān)系。具體地說(shuō),通過(guò)對(duì)每個(gè)區(qū)域的q和k分別求平均值,得到區(qū)域級(jí)查詢qr和密鑰kr∈rs2×c。其次,通過(guò)qr的矩陣積和kr的轉(zhuǎn)置,得到區(qū)域間親和圖的鄰接矩陣

22、zr=qr(kr)t?(2)

23、鄰接矩陣zr的條目度量?jī)蓚€(gè)區(qū)域的語(yǔ)義相關(guān)程度。最后,對(duì)每個(gè)區(qū)域的區(qū)域間親和圖進(jìn)行修剪,使其只包含top-k連接,然后使用逐行top-k算子得到路徑索引矩陣

24、ir=topkindex(zr)?(3)

25、其中ir的第i行包含與區(qū)域i最相關(guān)的區(qū)域的k個(gè)指示符。

26、細(xì)粒度的令牌到令牌的注意。對(duì)于區(qū)域i的每個(gè)查詢令牌,注意力被引導(dǎo)在由集中的所有鍵值對(duì)。然而,有效地執(zhí)行這一步驟是具有挑戰(zhàn)性的,因?yàn)檫@些區(qū)域很可能分布在整個(gè)特征空間上。因此,鍵張量和值張量被收集為:

27、kg=gather(k,ir),vg=gather(v,ir)?(4)

28、其中kg,是聚集的密鑰和值張量。接下來(lái),通過(guò)使用注意力操作來(lái)關(guān)注所收集的鍵值對(duì):

29、o=attention(q,kg,vg)+lce(v)?(5)

30、其中l(wèi)ce(·)是局部上下文增強(qiáng)項(xiàng),通過(guò)內(nèi)核大小為5的深度卷積進(jìn)行參數(shù)化。

31、根據(jù)本發(fā)明的一些實(shí)施例,所述補(bǔ)丁合并模塊均由一個(gè)卷積層和一個(gè)批歸一化(bn)層組成,卷積層的內(nèi)核大小為3×3,步長(zhǎng)為2,填充值為1。s3中的補(bǔ)丁合并操作將大小為56×56的特征圖分割成28×28的塊,s4中的補(bǔ)丁合并操作將大小為28×28的特征圖分割成14×14的塊。補(bǔ)丁合并操作在模型的深層中逐步減少特征圖的空間分辨率,同時(shí)增加其通道數(shù),有助于模型捕捉更全局的特征。

32、根據(jù)本發(fā)明的一些實(shí)施例,所述時(shí)間差分模塊(tdm)提取時(shí)間級(jí)特征的流程如下:

33、tdm將五個(gè)連續(xù)幀({it-2,it-1,it,it+1,it+2})的視頻組處理成兩個(gè)分支;

34、在第一分支中,它從中間幀it提取特征,然后經(jīng)過(guò)4個(gè)卷積塊和兩個(gè)最大池化層得到特征圖yt,其中每個(gè)卷積塊包含內(nèi)核大小為3×3的卷積層、batch?norm層、relu激活函數(shù);

35、在第二分支中,首先對(duì)連續(xù)的5幀執(zhí)行幀差運(yùn)算,然后將這些幀差結(jié)果相加。接下來(lái),利用平均池化層對(duì)相加的信息進(jìn)行下采樣以最小化冗余,然后使用1個(gè)卷積塊和最大池化層來(lái)導(dǎo)出特征ys,其中卷積塊包含內(nèi)核大小為7×7的卷積層、batch?norm層、relu激活函數(shù)。

36、此外,3個(gè)內(nèi)核大小為3×3的convgru單元用來(lái)聚合不同尺度的時(shí)間信息。ys通過(guò)第一個(gè)convgru單元捕獲時(shí)間特征,然后上采樣,并將得到的特征圖ysc與特征圖yt相加,得到的結(jié)果經(jīng)過(guò)4個(gè)卷積塊處理得到y(tǒng)t1,其中每個(gè)卷積塊包含內(nèi)核大小為3×3的卷積層、batch?norm層、relu激活函數(shù)。同時(shí),特征圖ys通過(guò)4個(gè)卷積塊,然后通過(guò)第二個(gè)convgru單元,最后通過(guò)上采樣獲得特征圖yt2,其中每個(gè)卷積塊包含內(nèi)核大小為3×3的卷積層、batchnorm層、relu激活函數(shù)。最后,yt1和yt2被逐元素相加,然后輸入到第三個(gè)convgru單元得到最終特征yout。

37、根據(jù)本發(fā)明的一些實(shí)施例,所述基于注意力的交互式特征融合模塊(aif2m)的設(shè)置如下:

38、幀級(jí)流和時(shí)間級(jí)流的輸入特征均經(jīng)過(guò)平均池化層和核大小為3的卷積層,然后一系列操作后經(jīng)過(guò)核大小為3×3的深度卷積層、batch?norm層、relu激活函數(shù)、核大小為1×1的卷積層和batch?norm層。

39、根據(jù)本發(fā)明的一些實(shí)施例,所述整體-部分特征融合模塊(wpf2m)的設(shè)置如下:

40、幀級(jí)流和時(shí)間級(jí)流的輸入特征均經(jīng)過(guò)核大小為1×1的卷積層,然后幀級(jí)的輸入流特征經(jīng)過(guò)核大小為1×1的卷積層、relu激活函數(shù)、batch?norm層、核大小為1×1的卷積層和batch?norm層。時(shí)間級(jí)流的輸入特征經(jīng)過(guò)平均池化層、核大小為3的卷積層、relu激活函數(shù)、batch?norm層、核大小為3的卷積層和batch?norm層。

41、第二方面,本發(fā)明的實(shí)施例提供了一種基于雙層路由注意和時(shí)空不一致性學(xué)習(xí)的深度視頻幀插值檢測(cè)系統(tǒng),所述基于雙層路由注意和時(shí)空不一致性學(xué)習(xí)的深度視頻幀插值檢測(cè)系統(tǒng)包括:

42、圖像獲取模塊:用于獲取rgb視頻幀序列,并采用高通濾波器(hpf)對(duì)于連續(xù)的5幀rgb幀進(jìn)行處理得到過(guò)濾幀序列;

43、幀級(jí)特征提取流:第一個(gè)bifb模塊對(duì)于進(jìn)行了補(bǔ)丁嵌入操作后的過(guò)濾幀序列進(jìn)行特征提取,第二個(gè)bifb模塊對(duì)于進(jìn)行了補(bǔ)丁合并操作后的第一階段融合特征進(jìn)行特征提取,第三個(gè)bifb模塊對(duì)于進(jìn)行了補(bǔ)丁合并操作后的第二階段融合特征進(jìn)行特征提取;

44、時(shí)間級(jí)特征提取流:時(shí)間差分模塊對(duì)于rgb幀序列進(jìn)行特征提取,resnet18的conv3_x殘差塊對(duì)于第一階段融合特征進(jìn)行特征提取,resnet18的conv4_x殘差塊對(duì)于第二階段融合特征進(jìn)行特征提??;

45、中間層特征融合模塊:用于分別學(xué)習(xí)s2、s3和s4中的幀級(jí)特征和時(shí)間級(jí)特征,從而得到第一、第二和第三階段的融合特征;

46、整體-局部特征融合模塊:用于處理第三階段的融合特征,得到最終的時(shí)空融合特征;

47、視頻幀真?zhèn)闻袛嗄K:用于將所述的時(shí)空融合特征輸入至預(yù)設(shè)的分類器,得到所述分類器輸出的所述rgb視頻幀的真?zhèn)吻闆r。

48、本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或著通過(guò)實(shí)施本發(fā)明而了解。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1