日韩精品高清自在线,国产女人18毛片水真多1,欧美成人区,国产毛片片精品天天看视频,a毛片在线免费观看,午夜国产理论,国产成人一区免费观看,91网址在线播放
公務員期刊網 精選范文 卷積神經網絡實現過程范文

卷積神經網絡實現過程精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡實現過程主題范文,僅供參考,歡迎閱讀并收藏。

卷積神經網絡實現過程

第1篇:卷積神經網絡實現過程范文

關鍵詞:卷積神經網絡 人體行為識別 Dropout

中圖分類號:TP391.41 文獻標識碼:A 文章編號:1672-3791(2017)04(c)-0028-02

該文采用隨機Dropout卷積神經網絡,筆者將此法的優點大致概況為將繁瑣雜亂的前期圖像處理簡易化,原來的圖像不可以直接輸入,現在的原始圖像即可實現直輸功能,因其特性得到廣泛研究與應用。另外,卷積神經網絡在圖像的處理中能夠將指定的姿勢、陽光的照射反應、遮避、平面移動、縮小與放大等其他形式的扭曲達到魯棒性,從而達到良好的容錯能力,進而可以發現其在自適應能力方面也非常強大。因為卷積神經網絡在之前建立網絡模型時,樣本庫為訓練階段提供的樣本,數量有限,品質上也很難滿足要求,致使網絡權值參數不能夠完成實時有效的調度與整理。

1 卷積神經網絡

據調查卷積神經網絡由K.Fukushima在80年代提出,那時候它被稱為神經認知機,這一認知成為當時的第一個網絡,后來網絡算法發生了規模性變革,由LeCun為代表提出了第一個手寫數字識別模型,并成功投入到商業用途中。LeNet被業界冠以卷積神經網絡的代表模型,這類系統在很多方面都起到了不容小趨的作用,它多數應用于各類不同的識別圖像及處理中,在這些層面上取得了重要成果。

筆者經查閱資料發現卷積神經網絡其實是由兩個種類組合而來,它們分別是特征提取、分類器,這種組成我們可以看到特征提取類可由一定數量的卷積層以及子采樣層相互重疊組合而成,全部都連接起來的1層或者2層神經網絡,就是由分類器來進行安排的。卷積神經網絡中的局部區域得到的感覺、權值的參數及子采樣等可以說是重要網絡結構特征。

1.1 基本CNN網絡結構

圖1中就是最為經典的LeNet-5網絡模型結構圖。通過圖1中我們可以獲悉,該模型有輸入輸出層,除這兩層外還有6層,其征提取可在前4層中體現,后兩層體現的是分類器。

在特征提取部分,6個卷積核通過卷積,是圖像經尺寸為32×32的輸入而得見表1,運算過程如式(1):

(1)

式中:卷積后的圖像與一個偏置組合起來,使函數得到激活,因此特征圖變誕生了,通過輸出得到了6個尺寸的特征圖,這6個尺寸均為28×28,近而得到了第一層的卷積,以下筆者把它簡要稱為c1;那么c1層中的6個同尺寸圖再經由下面的子采樣2×2尺寸,再演變成特征圖,數量還是6個,尺寸卻變成了14×14,具體運算如公式(2):

通過表2我們可以使xi生成的和與采樣系數0.25相乘,那么采樣層的生成也就是由加上了一個偏置,從而使函數被激活形成了采樣層的第1個層次,以下我們簡要稱為s1;這種過程我們可反復運用,從而呈現出卷積層中的第2層,可以簡要稱之為c2,第2層簡稱s2;到目前為止,我們對特征的提取告一段落。

神經網絡的識別,我們可以看到它是由激活函數而形成的一個狀態,這一狀態是由每個單元的輸出而得;那么分類器在這里起到的作用是將卷積層全部連接起來,這種通過連接而使1層與上面1層所有特征圖進行了串連,簡要稱之為c5;因而2層得到了退變與簡化效應,從而使該神經網絡成為經典,簡要稱之為F6,向量及權值是由F6 輸送,然后由點積加上偏置得到結果的有效判定。

1.2 改進的隨機DropoutCNN網絡

1.2.1 基本Dropout方法

神經網絡泛化能力能夠得到提升,是基于Dropout方法的深入學習。固定關系中存在著節點的隱含,為使權值不再依附于這種關系,上述方法可隨機提取部分神經元,這一特性是通過利用Dropout在網絡訓練階段中隨機性而得,對于取值能夠有效的存儲及保護存留,這一特性在輸出設定方面一定要注重為0,這些被選擇的神經元隨然這次被抽中應用,但并不影響下次訓練的過程,并具還可以恢復之前保留的取值,那么每兩個神經元同時產生作用的規避,可以通過重復下次隨機選擇部分神經元的過程來解決;我們通過這種方法,使網絡結構在每次訓練階段中都能呈現不同變化,使一些受限制的特征,不再受到干擾,使其真正能展現自身的優點,在基于Dropout方法中,我們可以將一些神經元的一半設為0來進行輸出,隨機神經元的百分比可控制在50%,有效的避免了特征的過度相似與穩合。

1.2.2 隨機Dropout方法

Dropout方法就是隨機輸出為0的設定,它將一定比例神經元作為決定的因素,其定義網絡在構建模型時得到廣泛采用。神經元基于隨機Dropout的方法是該文的重要網絡輸出途徑,通過設定輸出為0,使其在網絡中得到變。圖2是隨機Dropout的加入神經元連接示意圖,其在圖中可知兩類神經元:一類是分類器的神經元,這一階段的神經元可分榱講悖渙硪煥嗌窬元是由輸出而形成的層次。模型在首次訓練的階段會使神經元隨機形成凍結狀態,這一狀態所占的百分比為40%、60%,我們還可以看到30%及50%的神經元可能在網絡隨機被凍結,那么這次凍結可以發生在模型第二次訓練,那么第三次神經元的凍結可從圖示中得出70%及40%,還可以通過變化用人工設置,其范圍值宜為35%~65%,那么網絡神經元連接次序的多樣化,也因此更為突出與精進,網絡模型的泛化能力也得到了跨越勢的提高。

2 實驗及結果分析

2.1 實驗方法

卷積神經網絡通過實驗,通過輸入層呈現一灰色圖像,該圖像尺寸被設定成28×28的PNG格式,這里我們以圖像框架圖得到雙線性差值,用來處理圖像及原視頻中的影像,將框架圖的卷積核設定為5×5的尺寸,子采樣系數控制值為0.25,采用SGD迭代200次,樣本數量50個進行設定,一次誤差反向傳播實現批量處理,進行權值調整。實驗采用交叉驗證留一法,前四層為特征提取層,C1-S1-C2-S2按順序排列,6-6-12-12個數是相應特征,通過下階段加入隨機Dropout,這階段為雙層也就是兩層,進行連接,連接層為全體,從而可知結果由分類得出,又從輸出層輸出。

2.2 實驗結果分析

識別錯誤率可通過卷積神經網絡模型,及訓練過程與檢測過程中可查看到的。在訓練階段中,我們可以將Dropout的網絡中融入200次訓練,在將沒有使用該方法的網絡進行相互比較分析,我可以得知,后者訓練時的識別錯誤率稍高于前者,前者與后的相比較所得的差異不是很大,進而我們可知使用Dropout方法,對卷積神經網絡在泛化能力上得到有效的提升,從而有效的防止擬合。

3 結語

筆者基于Dropout卷積神經網絡,人體行為識別在視頻中進行, 通過Weizmann數據集檢測實驗結果,隨機Dropout在分類器中加入。通過實驗可以得知:隨機Dropout的加入,使卷積神經構建了完美網絡模型,并且使其在人體行為識別中的效率贏得了大幅度的提升,近而使泛化能力可以通過此類方法得到提高,可以防止擬合。

參考文獻

[1] 其它計算機理論與技術[J].電子科技文摘,2002(6).

第2篇:卷積神經網絡實現過程范文

關鍵詞: 列車車號; 車號識別; 卷積神經網絡; LeNet?5

中圖分類號: TN911.73?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)13?0063?04

Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.

Keywords: train license; license recognition; convolutional neural network; LeNet?5

0 引 言

目前貨運列車車號識別系統[1?2]主要是基于RFID技術實現的,但是,由于該系統的準確性依賴于列車底部安裝的RFID標簽,而RFID標簽容易損壞、丟失,因此,此類系統無法保證車號識別的準確性。為此,研究者開發了基于圖像的貨運列車車號識別系統,系統根據視頻采集到的圖像,利用模糊集合論[1?2]、人工神經網絡[3]、支持向量機[4]以及隱馬爾可夫模型[4]等技術進行車號字符的識別。但是,由于貨運列車車號存在因噴涂方式而導致的單個字符斷裂,或者列車長期的野外運行導致的車廂污損,車號字符的殘缺等現象,這使得目前的基于圖像的貨運列車車號識別系統的魯棒性與識別率還有待進一步提高。

LeNet?5[5?7]是由YannLecun等人提出的一種專門用于二維圖像識別的卷積神經網絡,該網絡避免了人工提取特征依賴于主觀意識的缺點,只需要將歸一化大小的原始圖像輸入網絡,該網絡就可以直接從圖像中識別視覺模式。LeNet?5把特征提取和識別結合起來,通過綜合評價和學習,并在不斷的反向傳播過程中選擇和優化這些特征,將特征提取變為一個自學習的過程,通過這種方法找到分類性能最優的特征。LeNet?5已經成功應用于銀行對支票手寫數字的識別中。

為此,本文將卷積神經網絡LeNet?5應用于列車車號字符的識別中,為了使之適用于列車車號字符的識別需求,去除掉了LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數,并在此基礎上,改變網絡中各層特征圖的數量以形成新的網絡模型。

1 LeNet?5的改進

卷積神經網絡可以從很多方面著手改進。諸如多層前饋網絡,可以考慮在誤差函數中增加懲罰項使得訓練后得到趨向于稀疏化的權值,或者增加一些競爭機制使得在某個特定時刻網絡中只有部分節點處在激活狀態等。本文主要從卷積神經網絡的層次化以及局部鄰域等結構上的特點入手,考慮卷積神經網絡中各層特征圖數量及大小對網絡訓練過程及識別結果的影響。

以LeNet?5結構為基礎,去除掉LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數,得到改進后的神經網絡。在此基礎上,改變網絡中各層特征圖的數量以形成新的網絡模型。定義一種新的網絡模型,將其命名為LeNet?5.1,該網絡結構與LeNet?5基本相同,主要做出以下改變:

(1) 將原先LeNet?5所采用的激活函數由雙曲正切函數修改為Sigmoid函數,此時,網絡中所有層的輸出值均在[0,1]區間內,輸出層的最終結果也將保持在[0,1]區間內。

(2) 省略掉F6層,將輸出層與C5層直接相連,連接方式為全連接,而不是原LeNet?5中所采用的徑向基函數(RBF)網絡結構。

(3) 簡化原LeNet?5中的學習速率。原LeNet?5網絡中采用的學習速率為一個特殊的序列,而在本網絡中將學習速率固定為0.002。

(4) 輸入數據原始尺寸為28×28,采取邊框擴充背景像素的方法將圖像擴充至32×32。

之所以做以上相關改動,是因為原始的LeNet?5就是專門為手寫字符識別任務而特殊設計的,這就造成了LeNet?5網絡中相關的預處理及參數的選擇過程或多或少均帶有一些針對特定問題的先驗知識。例如激活函數中參數的選擇,學習速率定的速率序列以及數據預處理殊的填充方式等,這些特定的設計使得LeNet?5在其他任務的識別過程中并不一定適用,或者需要進行長期的觀察實驗以選得一組針對特定任務的較好的值,造成了LeNet?5不能快速的應用于除手寫字符外其他的識別任務中。

2 改進后的網絡對列車車號字符的識別

車號經過分割之后為一個個的單字符圖像,采用邊框擴充背景像素的方法將其歸一化為32×32,如圖1所示。

由圖1中可以看出,待識別的字符圖像質量不高,有的數字字符出現殘缺、斷裂或者嚴重變形。這都給識別任務提出了一定的挑戰。

本文采集到的車號圖像來自于不同型號的貨運列車。從中選取400幅圖像作為訓練集,另外選取400幅圖像作為測試集。用上一節提出的LeNet?5.1網絡進行訓練,誤分類率曲線如圖2所示。可以看出,在LeNet?5.1訓練過程中,訓練MCR(Misclassification Rate)和測試MCR的變化過程相對穩定,驗證了改進后網絡結構的合理性。在經過16次的迭代之后,測試MCR降至最低(5.75%),之后基本保持穩定,即16次迭代之后,網絡達到了當前的最佳訓練效果,達到了收斂狀態。這時,訓練MCR為0.5%,測試MCR是5.75%。

訓練過程中的誤分類率曲線

而針對相同的數據,采用原始的LeNet?5進行訓練和測試后,誤分類率如圖3所示。從圖3中可以看出,LeNet?5經過了18次的迭代后,測試MCR才達到相對穩定的狀態,降至6%,最終的訓練MCR為1%。相比之下,經過簡化和改進的LeNet?5.1,由于改進了原始的LeNet?5中專門為手寫字符識別任務而特殊設計的一些預處理及函數選擇等固定模式,并且精簡了網絡結構,使得LeNet?5.1在列車車號的識別方面具有了更快的訓練速度和收斂速度,另外,最終達到的準確度也有所提升。

在證明了改進后的LeNet?5.1網絡的合理性之后,增加訓練圖像的規模,采用10 000幅車號數字字符圖像用來訓練,5 000幅用來測試。為了與其他方法進行比較,采用相同的訓練數據對車號識別中常用的三層BP網絡進行訓練和測試,這里采用的BP網絡隱含層節點數量為450,學習速率采用0.01。實驗結果比較如表1所示。從表1可以看出,改進后的LeNet?5.1網絡的識別率比BP網絡的識別率高出4.62個百分點,在識別速度方面,LeNet?5.1也明顯優于傳統的BP神經網絡。

3 針對車型號字母識別而改進的神經網絡及其結果

貨運列車車號的組成是由車型號與車號共同組成的,因此還需要對車型號進行識別,車型號中除了有阿拉伯數字字符之外,還有很多表示車種及車廂材質等屬性的英文字母,這些英文字母同樣采用卷積神經網絡來識別。由于車型號很多,初期針對若干常用型號的列車進行識別,以測試網絡的性能,后期對全車型進行識別。

3.1 常用列車車型的識別

在試運行階段主要識別的車型局限于7種主要的車型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于車種都為敞篷車(第一個大寫字母C),主要對后面代表該車型載重量的兩位數字以及最后代表車廂材質等屬性的字母進行識別。考慮到車型號字符串的固定模式,如圖4所示,可以分別建立兩個不同的卷積神經網絡分別用來識別數字和字母,由于之前已經解決了數字的識別問題,接下來主要進行字母的識別。要識別的代表車廂材質的字母共有6個:K,H,A,E,A和B,為了盡可能的避免因字母分割問題而導致的識別錯誤,把AK和BK分別作為一個整體來識別,那么需要識別的字符組合變為:K,H,A,E,AK和BK。由于識別種類的減少,可以對網絡模型LeNet?5.1進行相應的簡化,命名該模型為LeNet?5.2。

LeNet?5.2是在LeNet?5.1的基礎上進行改動而得到的:

(1) 卷積層C1的特征圖由6個減少為4個,相應地,S2層的特征圖也由6個減少為4個。

(2) 卷積層C3的特征圖由16個減少為11個,相應地,S4層的特征圖也由16個減少為11個。

(3) 卷積層C5的特征圖個數由120個減少為80個。

(4) 輸出分類的數目由10個減少為6個。

另外,卷積層C3層與次抽樣層S2層的連接情況如表2所示。

表2的連接方式采用與表1相同的思想,每一列都說明了C3層中的一個特征圖是由S2中的那幾個特征圖結合而成。卷積層C3中第0個至第5個特征圖分別與次抽樣層S2中的兩個特征圖相連接,一共6種組合。C3中的這6個特征圖負責抽取上一層中某兩個特征圖所潛在的特征。C3層中第6個至第9個特征圖中每個特征圖分別對應上一層中的3個特征圖的組合,而C3層中最后一個特征圖則與上一層中所有的特征圖相連接。這樣卷積層C3中的特征圖就包含了次抽樣層S2中多個特征圖的所有組合,這樣使得卷積層C3抽取到的特征比S2層更抽象、更高級,同時,相對于輸入數據,C3層相比S2層具有更好的對位移、扭曲等特征的不變性。

相比LeNet?5.1,LeNet?5.2將網絡層中的特征圖數量做了相應的削減,減少了網絡中可訓練參數的數量。

實驗數據來自以上提到的7類常用車型。經過前面過程的定位和分割之后,將分割之后代表車廂材質等屬性的字母圖像收集起來。本實驗中,共收集到6種代表不同車廂材質屬性的字母共800幅,其中400幅用作訓練數據,另外400幅用作測試數據。

圖5為LeNet?5.2使用以上數據訓練過程中得到的MCR曲線圖。由圖5中可以看出,在經過13次迭代之后,測試MCR達到最低的3.25%,并且在隨后的迭代過程中基本保持穩定,而對應的訓練MCR為0.75%。

3.2 全車型識別

經過對鐵道行業標準《鐵路貨車車種車型車號編碼》(TB2435?93)里面包含的所有車型號進行統計,除了10個阿拉伯數字外,包括了除O,R,V,Z四個字母外所有的大寫英文字母,總共有32類字符。

訓練過程中的誤分類率曲線

針對車型號的識別需求,本文在LeNet?5.1的基礎上提出了一種新的網絡模型,稱之為LeNet?5.3。與LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基礎上對網絡中各層的特征圖數量進行擴充:

(1) 卷積層C1的特征圖由6個增加至8個,相應地,S2層的特征圖也由6個增加至8個。

(2) 卷積層C3的特征圖由16個增加至24個,相應地,S4層的特征圖也由16個增加至24個。

(3) 卷積層C5的特征圖個數由120個增加至240個。

(4) 輸出層神經元的個數由10個增加至32個。

其中卷積層C3層與次抽樣層S2層的連接情況參考LeNet?5.2所采用的原則,使卷積層C3中的特征圖包含次抽樣層S2中多個特征圖的主要組合。

與LeNet?5.1相比,LeNet?5.3需要有更多的輸出類別,各層的特征圖數量也做了相應的增加,以增加整個網絡的識別性能。為了驗證改進后的LeNet?5.3的性能,收集了大量真實列車車廂圖片,經過車號定位和分割之后,將單個的數字字符或者大寫字母字符圖像尺寸依次歸一化為32×32,分別建立訓練圖像庫和測試圖像庫。

由于LeNet?5.1各層的特征圖數量多,因此該網絡涉及到的可訓練參數也大大增加,這也意味著需要更多的數據樣本用于網絡訓練。若訓練集和測試集規模依然采用跟前面實驗中一樣的各400幅,訓練過程中的誤分類率曲線如圖6所示,圖6中的曲線變化非常不穩定,波動較大。測試MCR達到最低點后又突然升高,不能獲得穩定的分類結果,訓練過程無法收斂。

網絡訓練過程中無法收斂的主要原因在于相比網絡中過多的需要訓練確定的權值,數據集規模過小,已然不能滿足學習的要求。從特征圖角度來看,網絡無法通過不充足的訓練樣本學習到穩定而有效的特征圖組合,從而導致了網絡不收斂。要解決這個問題需要加大測試樣本的數量。

為了訓練和測試LeNet?5.3,對數據集進行了擴充:訓練圖像庫包含字符圖像4 000幅,測試圖像庫包含字符圖像2 000幅。訓練過程中的誤分類率曲線如圖7所示。從圖7中可以看出,經過32次迭代之后網絡趨于收斂,并且達到了較好的識別率。

4 結 語

本文針對貨運列車車號識別的難題,提出了基于卷積神經網絡LeNet?5改進后的識別方法,主要對卷積神經網絡中各層特征圖數量及大小進行了改進。且與傳統的BP網絡進行了比較,從實驗結果可以看出,改進后的卷積神經網絡無論在魯棒性還是識別率以及識別速度上都優于BP網絡,可以很好地勝任列車車號識別任務。

參考文獻

[1] 宋敏.鐵路車輛車號自動識別系統的研究和開發[D].天津:河北工業大學,2011:1?5.

[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.

[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.

[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.

[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.

[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.

第3篇:卷積神經網絡實現過程范文

關鍵詞:物聯網;人臉識別;視頻網絡

1物聯網及人臉識別視頻網絡技術的發展

1.1物聯網視頻網絡技術的發展狀況

最近幾年,隨著物聯網技術、圖像處理技術以及數據傳輸技術的快速發展,視頻網絡技術應運而生并取得了長足的發展。當前,視頻網絡系統作為一種模擬數字控制系統,其具有非常成熟和穩定的性能,已廣泛應用于實際工程中。雖然數字系統發展迅速,但尚未完全形成相應的體系,因此,混合數字和模擬應用程序逐漸遷移到數字系統將成為未來發展的主要趨勢之一。當前,國內外市場上主流的產品主要有兩種,即模擬視頻數字網絡系統、數字視頻網絡系統。前者技術先進,性能穩定,被廣泛應用于實際工程應用中,特別是大中型視頻網絡項目。后者作為一種新興技術,是一種通過以計算機技術和視頻壓縮為核心的新型視頻網絡系統,其有效的避免了模擬系統所存在的一些弊端,但未來仍需要進行不斷的改進和發展。外部集成、視頻數字化、視頻網絡連接、系統集成是未來視頻網絡系統發展的重要研究方向。數字化是網絡的前提,而網絡是系統集成的基礎。因此,視頻網絡領域的兩個最大發展特征是:數字化和網絡化。

1.2人臉識別視頻網絡的發展狀況

人臉識別技術作為模式識別領域中的一項前沿課題,截止目前,已有三十多年的研究歷史。人臉識別目前是模式識別和人工智能的研究熱點,目前主要采用AdaBoost分類器進行人臉區域的檢測,人臉識別研究的內容大致分為以下內容:(1)人臉檢測:其指的是在不同場景下的人臉檢測及其位置。人臉檢測是通過在整個輸入的圖像中找到一個合適的人臉區域為目的,并將該圖像分為人臉區域和非人臉區域兩部分。在實際的某些理想情況下,由于可以人為手動控制拍攝環境,因此,可以輕松確定人臉的位置;但是在大多數情況下,由于場景更加復雜,因此,人臉的位置是未知的。因而在實際的人臉識別視頻網絡過程中,首先必須確定識別場景中是否有人臉的存在,如果存在人臉,再進一步確定圖像中人臉的具體區域。(2)人臉識別:將系統檢測到的人臉特征信息與系統數據庫中存在的已知人臉信息進行充分識別與匹配,以此獲取相關信息,該過程的本質是選擇正確的人臉模型和匹配策略。在實際生活的應用當中,由于成人的面部模型處于不斷變化當中,且容易受到時間、光線、相機角度等方面的差異,因而很難用一張圖紙表達同一個人的面部圖像,這使得提取特征變得困難,由于大量的原始灰度圖像數據,神經元的數量通常很大并且訓練時間很長。除此之外,完全依賴于神經網絡的識別方法具有當前計算機系統固有的局限性,盡管神經網絡具有很強的感應能力,但是隨著樣本數量的增加,其性能可能會大大降低。簡而言之,由于年齡,表情,傾斜度和其他表征對象的因素的多樣性,很難進行人臉識別,因此,識別該對象的效果仍遠未達到現實。目前,普遍采用AdaBoost算法來對出現在視頻中的人臉區域進行檢測,以此達到實時獲取人臉圖像的目的,AdaBoost算法的原理是通過訓練得到多個不同的弱分類器并將這些弱分類器通過疊加、級聯得到強分類器,AdaBoost算法流程如圖1所示。(3)表情分析:即對面部表情信息(幸福,悲傷,恐懼,驚奇等)進行分析和分類。當前,由于問題的復雜性,正在對面部表情的分析進行研究,它仍處于起步階段。心理學表明,至少有六種與不同面部表情相關的情緒:幸福,悲傷,驚奇,恐懼,憤怒和惡心。即與沒有表情的面部特征相比,這六個表情的面部特征具有相對獨特的運動規則。(4)生理分類:分析已知面孔的生理特征,并獲得相關信息,例如種族、年齡、性別和職業。顯然,此過程需要大量知識,通常非常困難和復雜。

2物聯網卷積神經網絡人臉識別方法分析

卷積神經網絡是專門設計用于識別二維形狀的多層感知器。通常,可以使用梯度下降和反向傳播算法來訓練網絡。從結構上講,卷積神經網絡包含三個概念:局部感受野、權重共享和下采樣,使其在平移,縮放,傾斜或其他形式的變形中相當穩定。當前,卷積神經網絡被廣泛用于模式識別,圖像處理和其他領域。卷積神經網絡(CNN)用于提取目標人臉圖像的特征。訓練網絡后,將先前測試的模型用作面部分類器,微調可以縮短網絡模型的訓練時間。卷積神經網絡的基本體系結構是輸入層,卷積層(conv),歸約層(字符串),完全連接層和輸出層(分類器)。通常有多個卷積層+速記層,此程序實現的CNN模型是LeNet5,并且有兩個“卷積+下采樣層”LeNetConvPoolLayer。完全連接的層等效于MLP(多層感知器)中的HiddenLayer。輸出層是一個分類器,通常使用softmax回歸(有些人稱為直接邏輯回歸,它實際上是多類邏輯回歸)。LogisticRegression也直接提供了該軟件。人臉圖像在視頻監控中實時發送到計算機,并且面部區域部分由AdaBoost算法確定。在預處理之后,將臉部圖像注入到新訓練的預訓練模型中進行識別。該過程如圖2所示。

3物聯網人臉識別視頻網絡多目標算法優化

多目標優化問題的實質是協調并在各個子目標之間達成折衷,以便使不同的子目標功能盡可能地最佳。工程優化的大多數實際問題都是多用途優化問題,目標通常相互沖突。長期以來,多目標優化一直受到人們的廣泛關注,現在已經開發出更多的方法來解決多目標優化問題。如果多標準優化沒有最差的解決方案,那么通常會有無限多的解決方案,這并不是最差的解決方案。解決面部強調時,人們不能直接應用許多次等解決方案。作為最后的決定,我們只能選擇質量不是最低,最能滿足我們要求的解決方案。找到最終解決方案的方法主要有三種。因此,只有通過找到大量有缺陷的解決方案以形成有缺陷的解決方案的子集,然后根據我們的意圖找到最終的解決方案。基于此,多目標算法是通過將多準則問題轉變為一個關鍵問題,這種方法也可以視為輔助手段。這種方法的棘手部分是如何獲取實際體重信息,至于面部特征,我們將建議一種基于權重的多功能優化算法,該算法可以更好地反映臉部的特征。我們將人臉的每個特征都視為多個目標,并且在提取面部特征時,面部特征會受到外界的強烈影響,例如位置,光照條件和強度的變化,并且所有部位和每個部位都會受到影響。因此,我們可以使用加權方法從每個受影響的分數中提取不同的權重。通過開展試驗測試,結果表明,在有多目標優化的算法的作用下,比在沒有多目標優化的算法作用下人臉識別效果有所提高,大約提高了5—10個百分點。

4結論

鑒于多準則優化算法在科學研究的各個領域中的廣泛使用,本文提出了一種多準則優化算法來對復雜的多準則人臉圖像上的各種面部特征進行特征提取的多準則優化,以達到提高人臉識別率的目標、提高整個人臉識別視頻網絡系統的性能。

參考文獻

[1]江斌,桂冠.基于物聯網的人臉識別視頻網絡的優化方法研究[C]//物聯網與無線通信-2018年全國物聯網技術與應用大會論文集.2018.

[2]余雷.基于物聯網的遠程視頻監控優化方法研究[J].科技通報,2014(6).

[3]張勇.遠程視頻監控系統的傳輸技術的實現[D].電子科技大學,2011(9)

第4篇:卷積神經網絡實現過程范文

關鍵詞:人臉識別技術;病毒管控;人工智能;神經網絡

互聯網在今天的社會中發揮著舉足輕重的作用。如今社會,隨著許多人工智能技術、網絡技術、云計算等互聯網技術不斷發展,像人臉識別等技術的應用越來越廣泛,在控制病毒傳播途徑等場合發揮了巨大作用,不斷地提高著社會的安全性和便利性,不僅提高了防控中病毒檢測效率,也為病毒的控制提供了可靠的技術方法,能夠及時發現和控制公共場所的安全隱患因素,避免對社會經濟、居民生活造成破壞,。但目前的人臉識別等技術還存在許多缺陷,需要完善和革新,充滿著巨大的潛力和進步空間。

1人臉識別技術研究意義

人臉識別技術是一種生物特征識別技術,最早產生于上世紀60年代,基于生理學、圖像處理、人機交互及認知學等方面的一種識別技術。相比于其他人類特征像指紋識別、聲紋識別、虹膜識別等技術,人臉識別雖然存在人臉識別單一性低,且區分度難度高、易受環境影響等不足。但是人臉識別技術擁有速度快、大范圍群體識別及非接觸、遠距離可識別等優勢,都是其他生物識別識別技術所不具備的,而在傳播性強、感染風險大的病毒傳播過程中,這些顯然是必須要考慮的重要影響因素。通過將人臉識別等人工智能技術引入信息管理系統,綜合集成視頻監控、圖像處理、深度學習和大數據等技術,結合非接觸測溫、定位等技術,助力病情防控,在一定程度上推動病毒病情防控信息化、智能化發展進程。可作為加強公共場所的人員的體溫實時監測、地址信息定位的監控管理,規范公共場所針對病毒傳播的預防行為。

2人臉識別技術

2.1人臉檢測技術

人臉檢測是自動人臉識別系統中的一個關鍵環節。早期的人臉識別研究主要針對具有較強約束條件的人臉圖象(如無背景的圖象),往往假設人臉位置靜止或者容易獲取。人臉檢測分為前深度學習時期,AdaBoost框架時期以及深度學習時期。前深度學習時期,人們將傳統的計算機視覺算法運用于人臉檢測,使用了模板匹配技術,依賴于人工提取特征,然后用這些人工特征訓練一個檢測器;后來技術發展,在2001年Viola和Jones設計了一種人臉檢測算法,它使用簡單的Haar-like特征和級聯的AdaBoost分類器構造檢測器,檢測速度較之前的方法有2個數量級的提高,并且保持了很好的精度,稱這種方法為VJ框架。VJ框架是人臉檢測歷史上第一個最具有里程碑意義的一個成果,奠定了基于AdaBoost目標檢測框架的基礎,使用級聯AdaBoost分類器進行目標檢測的思想是:用多個AdaBoost分類器合作實現對候選框的分類,這些分類器組成一個流水線,對滑動窗口中的候選框圖像進行判定,確定檢測目標是人臉還是非人臉。Adaboost框架技術的精髓在于用簡單的強分類器在初期快速排除掉大量的非人臉窗口,同時保證高的召回率,使得最終能通過所有級強分類器的樣本數數量較少。在深度學習時期,開始將卷積神經網絡應用于人臉檢測領域。研究方向有兩種:一是將適用于多任務的目標檢測網絡應用于人臉檢測中;另一種是研究特定的的人臉檢測網絡。人臉檢測技術具有特殊唯一性和穩定性,在現今社會對于構建居民身份識別系統,病毒傳播防控系統,以及計算機視覺交互模型的構建具有廣泛的應用。人臉檢測技術不僅作為人臉識別的首要步驟,也在許多其他領域發揮巨大影響,如人臉關鍵點提取、人臉追蹤、基于內容的檢索、數字視頻處理、視頻檢測、安防監控、人證比對、社交等領域都有重要的應用價值。數碼相機、手機等移動端上的設備已經大量使用人臉檢測技術實現成像時對人臉的對焦、圖集整理分類等功能,各種虛擬美顏相機也需要人臉檢測技術定位人臉。評價一個人臉檢測算法好壞的指標是檢測率和誤報率,我們定義檢測率為:算法要求在檢測率和誤報率之間盡量平衡,理想的情況是達到高檢測率,低誤報率。

2.2人臉識別技術

目前主要流行的人臉識別技術包括幾何特征識別,模型識別,特征臉識別和基于深度學習/神經網絡的的人臉識別技術等。人臉特征識別主要通過對人臉面部結構特征如眼睛、鼻子等五官幾何特點及其相對位置分布等,生成圖像,并計算各個面部特征之間的歐式距離、分布、大小等關系該方法比較簡單,反應速度快,并且具有魯棒性強等優點,但是在實際環境下使用容易受檢測的環境的變化、人臉部表情變化等影響,精度通常不高,細節處理上不夠完善。模型識別技術主要包括隱馬爾可夫模型、主動表象模型、主動形狀模型等,識別率較高,并且對表情等變化影響較小。特征臉識別來源于主成分描述人臉照片技術(PCA技術),從數學上來講,特征臉就是人臉的圖像集協方差矩陣的特征向量。該技術能有效的顯示人臉信息,效率較高。基于深度學習的人臉識別是獲取人臉圖像特征,并將包含人臉信息的特征進行線性組合等,提取人臉圖像的特征,學習人臉樣本數據的內在規律和表示層次。可以采用如三層前饋BP神經網絡。BP神經網絡是1986年由Rumelhart和McClelland為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是應用最廣泛的神經網絡模型之一。BP網絡本質上是一種能夠學量的輸入與輸出之間的映射關系的輸入到輸出的映射,從結構上講,BP網絡具有輸入層、隱藏層和輸出層;從本質上講,BP算法就是以網絡誤差平方為目標函數、采用梯度下降法來計算目標函數的最小值。BP神經網路輸入層有n個神經元節點,輸出層具有m個神經元,隱含層具有k個神經元,采用BP學習算法訓練神經網絡。BP算法主要包括兩個階段:向前傳播階段和向后傳播階段。在向前傳播階段,信息從輸入層經過逐級的變換,傳送到輸出層。這個過程也是在網絡完成訓練后正常運行時執行。將Xp作為輸入向量,Yp為期望輸出向量則BP神經網絡向前傳播階段的運算,得到實際輸出表達式為向后傳播階段主要包括兩大步驟:①計算實際輸出Op與對應理想輸出Yp之差;②按極小化誤差方法調整帶權矩陣。之所以將此階段稱為向后傳播階段,是對應于輸入信號的正常傳播而言的,因為該階段都需要收到精度要求進行誤差處理,所以也可以稱之為誤差傳播階段。(1)確定訓練集。由訓練策略選擇樣本圖像作為訓練集。(2)規定各權值Vij,Wjk和閾值Φj,θk參數,并初始化學習率α及精度控制參數ε。(3)從訓練集中取輸入向量X到神經網絡,并確定其目標輸出向量D。(4)利用上式計算出一個中間層輸出H,再用本式計算出網絡的實際輸出Y。(5)將輸出矢量中yk與目標矢量中dk進行比較,計算輸出誤差項,對中間層的隱單元計算出L個誤差項。(6)最后計算出各權值和閾值的調整量。所以,卷積神經網絡算法是通過訓練人臉特征庫的方式進行學習生成,對不同環境下不同表現情況的人臉圖像識別有更高的精確性。

2.3人臉識別軟件實現方式

(1)采集人臉數據集,然后對數據集進行標注,對數據進行預處理變成訓練格式。(2)部署訓練模型,根據訓練算法所需依賴部署電腦環境。(3)訓練過程,下載預訓練模型,將人臉數據集分批次作為輸入開始訓練,最終輸出為訓練好的模型。(4)部署訓練好的模型,捕獲畫面即可對畫面中的人臉進行實時檢測。

3人臉識別在病毒傳播防控中的應用

通過人臉識別技術,可以實現無接觸、高效率的對流動人員進行信息的收集、身份識別、定位地址信息等操作,大大減少了傳染的可能性,切斷了病毒傳播途徑,大大提高了工作效率。通過提前收錄人臉信息,采用深度學習對人臉特征模型的訓練學習,即可獲取人臉識別特征模型,再次驗證時即可實現人臉識別和個人信息快速匹配。AI人工智能幫助人們更好的解放雙手,為人們的生活和工作提供了重要的幫助。本文還提出了在人臉識別的系統基礎上,可以加入定位系統、測溫系統等,依托物聯網技術和云計算大數據,更加優化管控系統的效率。病毒傳播防控中人臉識別系統流程可以概括為圖2。

4結語

本文研究了一種人臉識別技術在病毒傳播管控系統中的應用,并分析設計了人臉識別實時監測及病毒管控系統的流程,大大提高了信息管理的效率,減弱了傳播風險。作為一門新興技術,目前的人臉識別技術還存在著諸多不足之處,像存在環境光的影響、人臉表情變化、妝容變化、佩戴口罩等都會影響到系統識別精度;另外安全問題也引人深思:現今人臉支付方式迅猛發展,錄入的人臉模型信息數據庫存在有一定的安全風險,一旦被不法分子盜取信息后果不堪設想,所以模型數據庫安全、網絡安全,也是系統開發中必須重視的問題。人臉識別為代表的人工智能技術的研究,在病毒傳播管控作出重大貢獻,依托我國領先的計算機網絡技術和5G等技術,加強人工智能技術與5G通信技術的結合,優勢互補,以此來加快大數據、人工智能和物聯網技術發展進程,對我國社會進步,促進城市建設和管理朝著高效、秩序、和諧穩定的方向不斷發展,增強我國的經濟實力有著重大價值和研究意義。

參考文獻

[1]王彥秋,馮英偉.基于大數據的人臉識別方法[J].現代電子技術,2021,44(7):87-90.

[2]李剛,高政.人臉自動識別方法綜述[J].計算機應用研究,2003,20(8):4-9,40.

[3]馬玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].計算機科學與探索,2021,7(15):1195-1206.

[4]余璀璨,李慧斌.基于深度學習的人臉識別方法綜述[J].工程數學學報,2021,38.

[5]王紅星,胡永陽,鄧超.基于LBP和ELM的人臉識別算法研究與實現[J].河南理工大學學報(自然科學版),2005.

[6]鐘陳,王思翔,王文峰.面向疫情防控的人臉識別系統與標準研究[J].信息技術與標準化,2020,6,11-13,1671-539X.

[6]彭駿,吉綱,張艷紅,占濤.精準人臉識別及測溫技術在疫情防控中的應用[J].軟件導刊,2020,10,1672-7800.

第5篇:卷積神經網絡實現過程范文

計算機視覺的第一步是特征提取,即檢測圖像中的關鍵點并獲取有關這些關鍵點的有意義信息。特征提取過程本身包含4個基本階段:圖像準備、關鍵點檢測、描述符生成和分類。實際上,這個過程會檢查每個像素,以查看是否有特征存在干該像素中。

特征提取算法將圖像描述為指向圖像中的關鍵元素的一組特征向量。本文將回顧一系列的特征檢測算法,在這個過程中,看看一般目標識別和具體特征識別在這些年經歷了怎樣的發展。

早期特征檢測器

Scale Invariant Feature Transform(SIFT)及Good Features To Track(GFTT)是特征提取技術的早期實現。但這些屬于計算密集型算法,涉及到大量的浮點運算,所以它們不適合實時嵌入式平臺。

以SIFT為例,這種高精度的算法,在許多情況下都能產生不錯的結果。它會查找具有子像素精度的特征,但只保留類似于角落的特征。而且,盡管SIFT非常準確,但要實時實現也很復雜,并且通常使用較低的輸入圖像分辨率。

因此,SIFT在目前并不常用,它主要是用作一個參考基準來衡量新算法的質量。因為需要降低計算復雜度,所以最終導致要開發一套更容易實現的新型特征提取算法。

二代算法

Speeded Up Robust Features(SURF)是最早考慮實現效率的特征檢測器之一。它使用不同矩形尺寸中的一系列加法和減法取代了SIFT中浩繁的運算。而且,這些運算容易矢量化,需要的內存較少。

接下來,HOG(Histograms ofOriented Gradients)這種在汽車行業中常用的熱門行人檢測算法可以變動,采用不同的尺度來檢測不同大小的對象,并使用塊之間的重疊量來提高檢測質量,而不增加計算量。它可以利用并行存儲器訪問,而不像傳統存儲系統那樣每次只處理一個查找表,因此根據內存的并行程度加快了查找速度。

然后,ORB(Oriented FASTand Rotated BRIEF)這種用來替代SIFT的高效算法將使用二進制描述符來提取特征。ORB將方向的增加與FAST角點檢測器相結合,并旋轉BRIEF描述符,使其與角方向對齊。二進制描述符與FAST和HarrisCorner等輕量級函數相結合產生了一個計算效率非常高而且相當準確的描述圖。

CNN:嵌入式平臺目標識別的下一個前沿領域

配有攝像頭的智能手機、平板電腦、可穿戴設備、監控系統和汽車系統采用智能視覺功能將這個行業帶到了一個十字路口,需要更先進的算法來實現計算密集型應用,從而提供更能根據周邊環境智能調整的用戶體驗。因此,需要再一次降低計算復雜度來適應這些移動和嵌入式設備中使用的強大算法的嚴苛要求。

不可避免地,對更高精度和更靈活算法的需求會催生出矢量加速深度學習算法,如卷積神經網絡(CNN),用于分類、定位和檢測圖像中的目標。例如,在使用交通標志識別的情況下,基于CNN的算法在識別準確度上勝過目前所有的目標檢測算法。除了質量高之外,CNN與傳統目標檢測算法相比的主要優點是,CNN的自適應能力非常強。它可以在不改變算法代碼的情況下快速地被重新“訓練(tuning)”以適應新的目標。因此,CNN和其他深度學習算法在不久的將來就會成為主流目標檢測方法。

CNN對移動和嵌入式設備有非常苛刻的計算要求。卷積是CNN計算的主要部分。CNN的二維卷積層允許用戶利用重疊卷積,通過對同一輸入同時執行一個或多個過濾器來提高處理效率。所以,對于嵌入式平臺,設計師應該能夠非常高效地執行卷積,以充分利用CNN流。

事實上,CNN嚴格來說并不是一種算法,而是一種實現框架。它允許用戶優化基本構件塊,并建立一個高效的神經網絡檢測應用,因為CNN框架是對每個像素逐一計算,而且逐像素計算是一種要求非常苛刻的運算,所以它需要更多的計算量。

不懈改進視覺處理器

第6篇:卷積神經網絡實現過程范文

Abstract: Classifier selection is the key factor for data classification. K-mean classifier, ISODATA classifier and SOFM neural network classifier are compared in computational complexity and classification performance. The experiments show that three kinds of classifiers cost equal time on the same image, but the self organizing feature map neural network classifier is optimal in classification performance.

關鍵詞: K-均值分類器;ISODATA分類器;SOFM神經網絡分類器

Key words: K-mean classifier;ISODATA classifier;SOFM neural network classifier

中圖分類號:TP7 文獻標識碼:A 文章編號:1006-4311(2013)04-0182-02

0 引言

K-均值分類器、迭代自組織數據分類器和自組織特征映射神經網絡分類器在遙感圖像分類方面應用廣泛。王曉軍等人將非監督K-均值分類用在合成孔徑雷達SAR圖像各極化通道上進行參數估計[1]。包健等人將K-均值算法用于高光譜遙感影像的非監督分類中,具有較強的實用性[2]。賈明明等人選取對氣候變化敏感的澳大利亞作為研究區。利用了ISODATA分類結果、NDVI閾值及其時間序列主成分分析特征量對研究區土地利用/覆被進行分類[3]。李正金等人進行了基于TM衛星遙感技術和小麥估產模型的冬小麥產量監測研究,采用優化的ISODATA分類方法,結合人機交互式判讀解譯作物信息[4]。夏浩銘等提取地物在空間上的聯系,利用神經網絡分類,獲得較好的地物分類精度[5]。文章闡述了三種分類器的工作原理,分析了三種分類器的計算復雜度和分類效果。

1 K-均值分類器

基本K-均值思想很簡單。首先,選擇k個初始聚類中心,其中k是目標分類數目。每個樣本按照距離函數計算與所有聚類中心的距離,樣本加入到與之距離最短的聚類中心所在分組。新樣本加入后,更新該分組的聚類中心。重復訓練和更新,直到每類的聚類中心不發生變化為止。當分類數目已知時,利用K-均值分類方法能夠方便地計算出樣本聚類中心。但是在實際應用中,分類數目可能無法估算,這在一定程度上限制了這種方法的應用。

K-均值算法特點是每次調整樣本后,修改一次聚合中心和準則值,當考察完n個樣本后,一次迭代運算完成,新的聚合中心和準則值也計算出來。在迭代過程中,準則值逐漸減小,直到它的最小值為止。如果在一次迭代前后,準則值沒有變化,說明算法已經收斂。

2 ISODATA分類器

ISODATA算法通過對樣本迭代來確定聚類的中心。每一次迭代時,首先是在不改變類別數目的情況下改變分類。然后將樣本平均矢量之差小于某一閾值的類別合并起來,根據樣本協方差矩陣來決定其分裂與否。主要環節是聚類、集群分裂和集群合并等處理。

ISODATA分類算法最優迭代次數很難設定,一般遙感圖像的數據量大,若迭代誤差取值較小,分類也很難實現。沈照慶等人[6]以某次迭代中“合并”和“分裂”都為零為求最優分類數的迭代條件,而不是預先設定迭代次數;取最大和最小隸屬度取代每一個隸屬度為比對特征值,提高了分類速度和精度;利用等效轉換研究隸屬度矩陣的迭代誤差變化規律,得出變化速度趨于穩定時為求解最優隸屬度矩陣的智能迭代控制,減少人為事先干預。

3 SOFM神經網絡分類器

神經網絡由被稱作神經元的相互連接處理單元組成。自組織特征映射(Self-Organizing Feature Map,簡稱SOFM)網絡模擬大腦的神經系統自組織特征映射的功能,在學習過程中不需要指導,進行自組織學習。SOFM網絡可用于圖像壓縮、語言識別、機器學習和優化問題等。

訓練SOFM網絡時首先初始化連接權重為小的隨機數,訓練開始后,輸入向量送入網絡。每輸入一個樣本矢量,各神經元的加權和中必然有一個最大值,經過側反饋作用,在最大值點周圍連接權重自適應調節。SOFM網絡已經證明,網絡通過反復學習輸入模式,可使連接加權矢量空間分布密度與輸入模式的概率分布趨于一致,也就是連接權矢量空間分布能反應輸入模式的統計特征。訓練好的網絡在競爭層產生了一個或幾個最大輸出,它們在競爭層中的位置反映了輸入向量在自身空間的特征。

4 實驗結果分析

實驗選取2003年青島市一景SPOT5圖像作為數據源,截取城鄉結合部某地作為實驗區域,實驗區域在紅波波段顯示為圖1(a)。對于實驗區的遙感圖像分別采用上述分類器進行地物分類實驗。

用ENVI 4.3的分類功能根據K-均值算法分類。參數設置為:分類數量15(一般為最終輸出分類數的2-3倍),最大迭代次數為40(默認是15),其它參數取默認值。K-均值關注的是不同波段的灰度信息,系統自動分類時,得到的分類數目為八類,結果如圖1(b)所示。從分類結果上可以看出,K-均值分類算法對水體的分類效果較好,水體用紅色表示,不但能分出主河道而且顯示出在耕地中有一條灌溉溝渠。綠地在分類圖中用綠色表示,圖上中部的綠地分類正確,但在河道附近,部分耕地錯分為綠地了。耕地被分為藍色、黃色和暗綠色三類。反射系數高的南北方向道路和屋頂較亮的廠房被歸為一類,東西走向的道路兩邊毛刺現象嚴重。建筑物錯分率也較高。

在ENVI 4.3環境下,利用ISODATA算法分類。參數設置為:類別數范圍[5-15](一般最小數量不能小于最終分類數,最大數量為最終分類數量的2-3倍),最大迭代次數為40(默認是15),其它參數取默認值,結果見圖1(c)。從分類結果上看,ISODATA分類算法對灰度值一致性好的水體分類效果較好,水體用紅色表示。能區分出主河道而且顯示出在耕地中有一條灌溉溝渠,但將圖像下方,靠近南北走向的道路的一間面積較大的廠房錯分為水體。綠地在分類圖中用綠色表示,圖上中部的綠地分類正確較好,但在河道附近,相當一部分耕地錯分為綠地了。耕地分類效果表較好,但有部分錯分為綠地。東西走向的道路線條比較連貫,兩邊有點毛刺現象,但不嚴重。的空地用粉紅色表示,居民區是暗綠色,部分工廠廠房的屋頂錯分為水體。

SOFM網絡利用MATLAB中的神經網絡工具箱實現。設定SOFM網絡的輸入矢量各維的數據范圍是像素灰度在[1,32]之間,鄰域像素卷積[25,800]之間,學習率為0.9,距離函數是歐氏距離函數,訓練步長是5000。輸入訓練樣本,每類500個,5類共2500個樣本,距離為5類,每類表征一種地物類型。網絡對類型的定義儲存在訓練網絡中。利用訓練好的網絡對實驗圖像所有像元進行分類。分類結果用灰度圖像表示,像素的顏色代表分類的類型,像素的位置對于測試圖像同位置的地物,如圖1(d)所示。白色表示道路,淺灰表示建筑物,灰色表示綠地,深灰表示耕地,黑色表示水體。從分類結果圖上看,縱橫貫穿郊區的主干道和樓區內的道路基本能夠正確分類。由于反射系數與道路相近,工廠廠房的屋頂也被錯分為道路。建筑物、耕地和綠地總體上分類正確。水體的分類結果令人滿意,主水道和灌溉的溝渠都能清楚地分出。分類器處理樣本圖像的時間接近,都是20分鐘左右。

5 總結

K-均值分類中耕地被分三類,道路兩邊毛刺現象嚴重,建筑物錯分率也較高,分類效果最差。SOFM網絡對道路、水體、耕地和綠地總體上分類正確,分類正確率最高。ISODATA分類對水體、耕地、道路分類基本正確,建筑物錯分較多。

參考文獻:

[1]王曉軍,王鶴磊,李連華,孟藏珍,馬寧.基于C均值分類的極化SAR圖像白化斑點濾波方法[J].系統工程與電子技術,

2008,30(12):2389-2392.

[2]包健,厲小潤.K均值算法實現遙感圖像的非監督分類.機電工程,2008,25(3):77-80.

[3]賈明明,劉殿偉,宋開山,王宗明,姜廣甲,杜嘉,曾麗紅.基于MODIS時序數據的澳大利亞土地利用/覆被分類與驗證.遙感

技術與應用,2010,25(3):379-386.

[4]李正金,李衛國,申雙.基于ISODATA法的冬小麥產量分級監測預報.遙感應用,2009,8:30-32.

第7篇:卷積神經網絡實現過程范文

前 言

雖然目前公眾媒體將無線通信炒的很熱,但這個領域從1897年馬可尼成功演示無線電波開始,已經有超過一百年的歷史。到1901年就實現了跨大西洋的無線接收,表明無線通信技術曾經有過一段快速發展時期。在之后的幾十年中,眾多的無線通信系統生生滅滅。

20世紀80年代以來,全球范圍內移動無線通信得到了前所未有的發展,與第三代移動通信系統(3g)相比,未來移動通信系統的目標是,能在任何時間、任何地點、向任何人提供快速可靠的通信服務。因此,未來無線移動通信系統應具有高的數據傳輸速度、高的頻譜利用率、低功耗、靈活的業務支撐能力等。但無線通信是基于電磁波在自由空間的傳播來實現信息傳輸的。信號在無線信道中傳輸時,無線頻率資源受限、傳輸衰減、多徑傳播引起的頻域選擇性衰落、多普勒頻移引起的時間選擇性衰落以及角度擴展引起的空間選擇性衰落等都使得無線鏈路的傳輸性能差。和有線通信相比,無線通信主要由兩個新的問題。一是通信行道經常是隨時間變化的,二是多個用戶之間常常存在干擾。無線通信技術還需要克服時變性和干擾本文由收集由于這個原因,無線通信中的信道建模以及調制編碼方式都有所不同。

1.無線數字通信中盲源分離技術分析

盲源分離(bss:blind source separation),是信號處理中一個傳統而又極具挑戰性的問題,bss指僅從若干觀測到的混合信號中恢復出無法直接觀測的各個原始信號的過程,這里的“盲”,指源信號不可測,混合系統特性事先未知這兩個方面。在科學研究和工程應用中,很多觀測信號都可以看成是多個源信號的混合,所謂“雞尾酒會”問題就是個典型的例子。其中獨立分量分析ica(independent component analysis)是一種盲源信號分離方法,它已成為陣列信號處理和數據分析的有力工具,而bss比ica適用范圍更寬。目前國內對盲信號分離問題的研究,在理論和應用方面取得了很大的進步,但是還有很多的問題有待進一步研究和解決。盲源分離是指在信號的理論模型和源信號無法精確獲知的情況下,如何從混迭信號(觀測信號)中分離出各源信號的過程。盲源分離和盲辨識是盲信號處理的兩大類型。盲源分離的目的是求得源信號的最佳估計,盲辨識的目的是求得傳輸通道混合矩陣。盲源信號分離是一種功能強大的信號處理方法,在生物醫學信號處理,陣列信號處理,語音信號識別,圖像處理及移動通信等領域得到了廣泛的應用。

根據源信號在傳輸信道中的混合方式不同,盲源分離算法分為以下三種模型:線性瞬時混合模型、線性卷積混合模型以及非線性混合模型。

1.1 線性瞬時混合盲源分離

線性瞬時混合盲源分離技術是一項產生、研究最早,最為簡單,理論較為完善,算法種類多的一種盲源分離技術,該技術的分離效果、分離性能會受到信噪比的影響。盲源分離理論是由雞尾酒會效應而被人們提出的,雞尾酒會效應指的是雞尾酒會上,有音樂聲、談話聲、腳步 聲、酒杯餐具的碰撞聲等,當某人的注意集中于欣賞音樂或別人的談話,對周圍的嘈雜聲音充耳不聞時,若在另一處有人提到他的名字,他會立即有所反應,或者朝 說話人望去,或者注意說話人下面說的話等。該效應實際上是聽覺系統的一種適應能力。當盲源分離理論提出后很快就形成了線性瞬時混合模型。線性瞬時混合盲源分離技術是對線性無記憶系統的反應,它是將n個源信號在線性瞬時取值混合后,由多個傳感器進行接收的分離模型。

20世紀八、九十年代是盲源技術迅猛發展的時期,在1986年由法國和美國學者共同完了將兩個相互獨立的源信號進行混合后實現盲源分離的工作,這一工作的成功開啟了盲源分離技術的發展和完善。在隨后的數十年里對盲源技術的研究和創新不斷加深,在基礎理論的下不斷有新的算法被提出和運用,但先前的算法不能夠完成對兩個以上源信號的分離;之后在1991年,法國學者首次將神經網絡技術應用到盲源分離問題當中,為盲源分離提出了一個比較完整的數學框架。到了1995年在神經網絡技術基礎上盲源分離技術有了突破性的進展,一種最大化的隨機梯度學習算法可以做到同時分辨出10人的語音,大大推動了盲源分離技術的發展進程。

1.2 線性卷積混合盲源分離

相比瞬時混合盲源分離模型來說,卷積混合盲源分離模型更加復雜。在線性瞬時混合盲源分離技術不斷發展應用的同時,應用中也有無法準確估計源信號的問題出現。常見的是在通信系統中的問題,通信系統中由于移動客戶在使用過程中具有移動性,移動用戶周圍散射體會發生相對運動,或是交通工具發生的運動都會使得源信號在通信環境中出現時間延遲的現象,同時還造成信號疊加,產生多徑傳輸。正是因為這樣問題的出現,使得觀測信號成為源信號與系統沖激響應的卷積,所以研究學者將信道環境抽象成為線性卷積混合盲源分離模型。線性卷積混合盲源分離模型按照其信號處理空間域的不同可分為時域、頻域和子空間方法。

1.3 非線性混合盲源分離

非線性混合盲源分離技術是盲源分離技術中發展、研究最晚的一項,許多理論和算法都還不算成熟和完善。在衛星移動通信系統中或是麥克風錄音時,都會由于乘性噪聲、放大器飽和等因素的影響造成非線性失真。為此,就要考慮非線性混合盲源分離模型。非線性混合模型按照混合形式的不同可分為交叉非線性混合、卷積后非線性混合和線性后非線性混合模型三種類型。在最近幾年里非線性混合盲源分離技術受到社會各界的廣泛關注,特別是后非線性混合模型。目前后非線性混合盲源分離算法中主要有參數化方法、非參數化方法、高斯化方法來抵消和補償非線性特征。

2.無線通信技術中的盲源分離技術

在無線通信系統中通信信號的信號特性參數復雜多變,實現盲源分離算法主要要依據高階累積量和峭度兩類參數。如圖一所示,這是幾個常見的通信信號高階累積量。

在所有的通信系統中,接收設備處總是會出現白色或是有色的高斯噪聲,以高階累積量為準則的盲源分離技術在處理這一問題時穩定性較強,更重要的是對不可忽略的加性高斯白噪聲分離算法同時適用。因此,由高階累積量為準則的盲源分離算法在通信系統中優勢明顯。

分離的另一個判據就是峭度,它是反映某個信號概率密度函數分布情況與高斯分布的偏離程度的函數。峭度是由信號的高階累積量定義而來的,是度量信號概率密度分布非高斯性大小的量值。

第8篇:卷積神經網絡實現過程范文

【關鍵詞】系統故障預測 模型 數據

現階段,針對系統故障預測方面的研究幾乎為零,傳統的做法一般主要是依靠科研人員通過人工分析采集到的數據,結合積累的經驗等進行簡單粗略的估計,而無法做到實際意義上的故障預測,且這類傳統的方法往往需要耗費巨大的人力、物力成本,同時預測的周期短、精度差、準確性低,可靠性和實時性得不到保證,往往無法得到令人滿意的效果。

為實現真正意義上的系統的故障預測,同時克服上述傳統方法的弊端,針對高復雜度、高集成度的綜合系統,開展自主學習的故障預測技術研究具有極其重要的意義。該研究能夠進一步推動故障預測技術在復雜系統乃至航天等各領域內的實踐和應用,為進一步研究故障預測技術打下基礎。

1 故障預測的國內外研究現狀

關于故障預測方面的研究國外已有一定的成果,但其在許多領域的應用并不完善,而國內在這方面的研究尚處于起步和探索階段。

以系統運行各狀態為基礎,采用人工智能領域中深度置信網絡(DBN)高效的深度學習算法構建故障的預測模型,從而實現系統故障的有效預測。

國外率先對復雜系統進行故障預測研究是20世紀70年代Saeks等人,他們所研究的是系統中出現故障的征兆,由于這種征兆幅值很小,還沒有對系統造成破壞,所以很難用一般的方法辨別出,因此發展一直很緩慢,一度陷入困境。Khoshgoftaar等人在1992年提出了用神經網絡來訓練神經元進行軟件系統的故障測定,這種經過訓練的模型的優勢在于對故障的趨勢預測。2007年國際空間站的飛行控制委員會通過監測國際空間站上4個陀螺儀的若干參數提前數月預測和發現某個陀螺儀的失效故障,從而能夠及時切換以保障空間站的正常運行。

我國在故障預測方面的研究較晚,目前尚處于理論研究階段。如2003年重慶大學的孫才新院士及其課題組利用模糊數學中的灰色模型研究了電力系統故障的預測問題。2005年,南京理工大學的秦俊奇以大口徑火炮為研究對象,運用先進的動態模糊綜合評判理論和多Agent并行推理技術,在對火炮進行詳細故障分析的基礎上,對故障預測技術進行了系統的理論和應用研究并建立了相應的故障預測模型。近幾年PHM技術也受到了軍事及航天等領域越來越多的重視,北京航空航天大學可靠性工程研究所、航空643所、哈爾濱工業大學等研究機構從設備監控衰退規律、故障預測模型、健康管理技術等方面對PHM技術進行了較多跟蹤研究。

2 模型建立方法及需要解決的關鍵技術

2.1 模型建立方法

建立自主學習模型時,采用數據挖掘的方法對系統大量的歷史數據進行分析,同時并結合數據融合及維度變換設計特征集的分類器以提取和建立特征參數,建立其對應的特征指標參數體系,通過傳感器網絡采集獲得參數,并對原始數據進行預處理以提取出有效數據,再將有效數據作為深度學習的數據基礎,經過反復的訓練和學習,以建立相關的故障預測模型,再應用測試驗證系統進行反復驗證、調整,最終建立故障預測的學習模型。

2.2 建立學習模型的關鍵技術

2.2.1 系統特征參數體系的建立

針對某系統,依據一定的原則,利用主觀或客觀的方法建立相互獨立、能夠敏感反映整個系統的各項指標參數,即表征系統的特征集,如工作、性能、功能、環境等參數,常用的方法包括數據挖掘、基于貝葉斯理論的信息融合、多維度數據變換等。

2.2.2 通過機器自主深度學習建立相應的模型

研究和借鑒國內外關于深度學習、故障預測方面的理論和成果,尤其關注深度學習在預測及多特征量預測方面的應用,在此基礎上結合系統的特征參數、各類故障和非故障模式狀態的特點,提出一種深度學習算法,通過學習和訓練建立相應的故障預測模型,利用驗證系統和實際系統的應用數據,通過逐層反復學習和訓練設定模型的最優初始化參數,并以自頂向下的監督算法進行調整使得模型收斂,從而實現故障預測、深度學習與系統應用相結合。主要的自主學習技術包括卷積神經網絡、深度波爾茲曼機模型、深度置信網絡等。

2.2.3 多維度數據分析方法的研究

針對測試數據與監測數據的獨立性,擬采用貝葉斯方法對數據進行融合,建立一種基于異構空間的數據模型,再結合特征提取與特征抽象,對多維度數據進行分析。

3 總結

通過對現有數據的分析,提取故障特征信息,建立故障特征信息庫,構造一個多層的人工神經網絡模型,通過模型層次的分析獲得樣本的本質表示,結合故障注入的方法,提出故障注入的方案,利用故障注入驗證自主學習方法。

再結合多維度數分析方法,建立多維度數據模型,同樣利用故障注入技術,建立多維度數據的故障信息,通過狀態預測模型進行故障預測,結合注入的故障信息,對故障預測的結論進行反饋和確認。最終確立自主學習模型,達到系統故障預測的目的。

參考文獻

[1]朱大奇.航空電子設備故障診斷技術研究[D].南京:南京航空航天大學,2002:1-3.

[2]彭俊杰,洪炳,袁成軍.軟件實現的星載系統故障注入技術研究[J].哈爾濱工業大學學報,2004,36(07):934-936.

[3]張寶珍.先進的診斷和預測技術[J].裝備質量,2001.

[4]Baroth E,Powers W T,Fox J.IVHM(integrated vehicle health management)techniques for future space vehicles[J].37thJoint Propulsion Conference & Exhibit,2001.

[5]鄭胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖像形象學報,2014(02):175-184.

[6]郭麗麗,丁世飛.深度學習研究進展[J].計算機科學,2015,42(05):28-33.

第9篇:卷積神經網絡實現過程范文

關鍵詞: 情感分析; 情感傾向性; 詞典擴充; 電力客服工單; 主動服務

中圖分類號: TN915.853?34; V249 文獻標識碼: A 文章編號: 1004?373X(2017)11?0163?04

Dictionary expansion based sentiment tendency analysis of power customer service order

GU Bin, PENG Tao, CHE Wei

(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)

Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.

Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service

0 引 言

隨著電力體制改革的逐步深化,配電市場競爭不斷加劇,迫切需要供電企業改變傳統的思維方式和工作模式,進一步樹立市場化服務意識,從客戶需求出發,挖掘客戶的潛在需求和內在價值,從而提升客戶滿意度和運營效益。作為與客戶交流、溝通的重要窗口,電力企業95598客服系統記錄了海量的客戶信息,若能徹底挖掘客服工單中的客戶特征、情感信息并了解客戶的關注焦點,對電力企業和客戶都將具有十分重要的意義[1]。

電力客服工單情感傾向性分析可以有效地發掘客戶情感信息和需求,可根據客戶情感傾向性識別潛在的投訴客戶,可根據反饋信息判別某項業務的實施效果等。針對文本情感傾向性分析,現有的理論研究比較側重于文本特征提取以及采用機器學習方法對文本進行分類,但是基于具體業務特征進行情感詞典擴充的研究還比較少,導致情感傾向性計算往往會存在一定的差異,因此,根據電力行業的特c,進行客戶服務工單情感詞典擴充及情感傾向性的研究非常有必要。

情感分析是指利用文本挖掘、機器學習技術分析挖掘隱藏在文本中的情感信息,并將其分類為積極情感態度和消極情感態度[2]。目前,國內外關于文本情感傾向性分析已經進行了較多的研究工作[3?7],文獻[3]基于情感詞間的點互信息和上下文約束,提出一種兩階段的領域情感詞典構建算法,提升了情感詞情感傾向的識別能力。文獻[4]研究了基于矩陣投影(MP)和歸一化向量(NLV)的文本分類算法,實現對商品評價的情感分析,不僅可以有效識別商品評論情感性傾向,而且提升了識別效率。文獻[5]將詞級別向量和字級別向量作為原始特征,采用卷積神經網絡提取文本特征并進行情感傾向性分析,結果表明字級別向量可取得較高的準確率。文獻[6]提出一種詞圖模型的方法,利用PageRank算法得到情感詞的褒貶權值,并將其作為條件隨機場模型特征預測情感詞傾向,提升了具體語境下預測的準確性,但是針對文本數量較大的情況準確率較低。文獻[7]結合句子結構上下文語義關聯信息,提出一種基于深度神經網絡的跨文本粒度情感分類模型,提升了分類準確率,但該方法只適應于特定領域,泛化能力較低。

鑒于以上研究現狀,本文以電力客戶服務領域文本特征為突破口,構建了電力客服工單情感分析模型,基于工單關鍵詞提取對原始的情感詞典進行擴充,并對工單情感傾向性進行分析,最后,通過算例應用驗證了本文所提方法的有效性。

1 相關工作

1.1 情感分類

情感分類技術的主要目標是基于文本數據識別用戶所表達的情感信息,并將文本數據分為正類和負類。當前,針對情感分類的研究,主要從監督學習、基于規則方法、跨領域情感分析等方面展_研究,與此同時,針對文本特征的提取和特征情感判別是情感分類研究的兩個關鍵問題。

1.2 Word2vec介紹

word2vec是Google在2013年開源的一款將詞表征為實數值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即連續的詞袋模型)和Skip?Gram兩種,word2vec采用的是Distributed Representation的詞向量表示方式,經過對輸入集數據進行訓練,可以實現將文本詞匯轉換為維空間向量,然后基于空間向量相似度來表達文本語義相似度,模型輸出結果可用于自然語言處理領域相關工作,比如文本聚類、詞典擴充、詞性分析等。

word2vec生成詞向量的基本思想來源于NNLM(Neural Network Language Model)模型,其采用一個三層神經網絡構建語言模型,假設某個詞的出現只與前個詞相關,其原理示意圖如圖1所示。

圖1中,最下方的為前個輸入詞,并根據其預測下一個詞每個輸入詞被映射為一個向量,為詞語的詞向量。網絡的第一層(輸入層)為輸入詞語組成的維向量網絡第二層(隱藏層)計算為偏置因子,使用激活函數tanh;網絡第三層(輸出層)包含個節點,每個節點表示下一詞的未歸一化log概率,并使用softmax激活函數將輸出值歸一化,最后使用隨機梯度下降法對模型進行優化。

圖1 NNLM原理模型圖

模型的目標函數為:

需要滿足的約束條件為:

2 電力客服工單情感分析模型

本文以某電力公司客服工單數據為研究對象,在深入理解電力業務及工單文本語義特點的基礎上,建立了一種電力客服工單情感分析模型。首先,在進行文本預處理的基礎上,對文本進行分詞處理并且完成關鍵詞提取;然后,采用word2vec訓練工單數據,并基于關鍵詞進行情感詞典擴充,構建電力客服領域專用情感詞典;最后,進行工單情感傾向性分析。

2.1 工單文本預處理

由于工單文本數據中存在大量價值含量較低甚至沒有價值意義的數據,在進行分詞、情感分析中會對結果產生較大的影響,那么在文本挖掘之前就必須先進行文本預處理,去除大量沒有挖掘意義的工單數據。工單文本預處理工作主要包括:刪除未標注業務類型數據、分句處理、文本去重、短句刪除等。

分句處理:將工單數據處理成以句子為最小單位,以句尾標點符號為標志分割,包括“,”,“。”,“;”,“!”等符號。

文本去重:就是去除工單數據中重復的部分,常用的方法有觀察比較刪除法、編輯距離去重法、Simhash算法去重等。

短句刪除:刪除過短的文本,如“還可以”,“非常好”等,設置文本字符數下限為10個國際字符。

2.2 電力客戶服務領域情感詞典構建

2.2.1 分詞

本文采用python的jieba分詞工具對數據集進行分詞,并完成詞性標注和去除停用詞,由于情感分析通常由名詞、形容詞、副詞和連詞等反映出來,因此刪除詞性為動詞的詞匯。jieba中文分詞工具包包含三種分詞模式:精確模式、全模式和搜索引擎模式,綜合分詞效果及后文的研究,本文選擇精確模式進行分詞,三種模式的分詞效果如表1所示。

另外,在實際的分詞過程中,出現了個別分詞結果與實際的語義不符,原因是字典中缺少相關的專有名詞,或者是這些詞語的詞頻較低,比如“客戶/咨詢/抄/表示/數等/信息”,“客戶/查戶/號”,“變壓器/重/過載”,“查/分/時/電價”等,因此,需要對原有詞典進行更新。python中采用jieba.load_userdict(dict.txt)語句添加自定義詞典,其中dict.txt是保存字典內容的文件,其格式為每一行分三部分:一部分為詞語;另一部分為詞頻;最后為詞性(可省略),用空格隔開。

2.2.2 關鍵詞提取

構建電力客戶服務領域專屬情感詞典,需要盡可能保證領域詞典的多樣性,關鍵詞的提取要求一方面能夠盡量反應出這個特征項所屬的類別,另一方面能夠把自身屬于的類別與其他類別有效地區分開來,依據此原理,本文采用TF?IDF思想進行電力客戶服務領域關鍵詞的提取,關鍵詞選取的權重決定了情感詞典的多樣性,為下文情感詞典的擴充做好基礎,算法原理如下。

將工單文檔和特征項構建成二維矩陣,各條工單的特征向量可表示為:

式中:表示第個工單中第個特征中的詞頻。則與為:

式中:表示語料庫中的文件總數;表示包含詞語的文件總數,防止分母為零的情況,通常對分母做+1的處理。因此,的計算公式為:

實際應用中,依據維度的大小確定相應的權重大小,這樣就形成了代表語料特征的關鍵詞集。

2.2.3 基于word2vec進行情感詞典擴充

隨著經濟技術的發展及客戶文化的差異,不同的客戶通常使用不同的詞匯描述同一個對象特征,且電力行業中存在許多專用詞匯,同樣也表達了一定情感,但這些詞脫離于現有的情感詞典,因此,有必要對現有的情感詞典進行擴充,進而提升工單情感傾向性分析的準確性[8]。選取中國知網情感詞集和大連理工大學林鴻飛教授整理和標注的中文情感詞匯本體庫作為基礎的情感詞典,然后依據權重較大的關鍵詞對原有詞典進行擴充[9]。基于上文電力客戶服務工單中提取的關鍵詞,采用word2vec工具對工單數據集進行訓練,根據CBOW模型或Skip?Gram模型訓練出每個詞的詞向量,并通過計算余弦相似度得到文本語義上的相似度,并將相似度較高的詞語加入到情感詞典中。

依據上文分詞后得到的工單文本數據,采用Linux Version2.6環境對數據進行訓練,操作命令如下:

./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1

其中,data95598.txt為輸入數據集;vectors_95598data.bin為模型輸出文件;采用Skip?Gram模型進行訓練,詞向量維度設置為200;訓練窗口大小設置為5;-sample表示采樣的閾值,訓練結果采用二進制方式存儲。這樣,得到的模型文件中就包含了每個詞的詞向量。

采用余弦相似度計算關鍵詞的相似詞,即基于生成的詞向量計算兩個維向量的相似度,因為word2vec本身就是基于上下文語義生成的詞向量,因此,余弦值越大,表明兩個詞語的語義越相似。向量與的余弦計算公式如下:

通過distince命令計算輸入詞與其他詞的余弦相似度,經過排序返回相似詞列表,再經過人工篩選,將這些詞加入到原有情感詞典中,實現對原有情感詞典的擴充。

2.3 工單情感傾向性分析

工單情感傾向性分析是基于構建的情感詞典,計算每個客服工單的情感分值,從而判斷工單的情感傾向性。通過上文處理,每一個客服工單都可以被分割成一個個子句片段,表示為每個子句片段由一系列分詞后的詞語構成,提取每個句子的情感詞、否定詞等,表示為依據情感詞典中給定詞的極性值計算每個子句的情感值,分別算每個句子的正向和負向情感分值,計算公式如下:

式中:SenSum表示某個客服工單的情感分值;表示第個子句中第個正向情感詞的極性值;表示第個子句中第個負向情感詞的極性值。

在否定子句中,當為偶數時,否定子句情感為正;當為奇數時,否定子句情感極性為負。對所有的子句情感分值求和并求均值,就得到了整個客服工單的情感值,進而判斷客服工單的情感傾向性,若SenSum為正,表示工單情感為正向;否則,工單情感為負向。

3 實驗分析

3.1 實驗數據準備

本文的實驗環境基于Linux系統,采用python語言進行算法的實現,抽取某電力公司95598客服工單數據作為研究對象,運用jieba包進行中文分詞處理,并采用word2vec訓練數據生成詞向量及擴充情感詞典。由于工單數據是按照業務類型生成的,因此選取業務類型為表揚的工單作為正類,選取業務類型為投訴的作為負類,其中,正類和負類數據比例為21,共得到20 000條數據作為實驗數據集,隨后進行情感傾向性分析,隨機選擇70%的數據作為訓練集,30%的數據作為測試集。

3.2 評價指標

當前針對文本分類效果評估有許多方法,本文選擇準確率(precision)、召回率(recall)和值進行文本情感分類效果的評估,準確率是對分類精確性的度量,召回率是對分類完全性的度量,值越大說明分類效果越好,準確率和召回率是一組互斥指標,值是將二者結合的一個度量指標,值越大,分類效果越好,并將通過本文情感分析模型得到的結果與業務員標注的類型做對比分析。它們的計算公式如下:

3.3 實驗結果及分析

本文基于抽取到的客服工單數據,結合設計的電力客服工單情感分析模型,實現對電力客戶服務領域情感詞典的擴充,并基于構建的電力客服領域專屬詞典進行工單情感傾向性分析,70%的數據用于訓練word2vec并進行情感詞典的擴充,30%的數據用于測試工單情感分類的準確性。測試集共包含工單數6 000條,其中正類工單3 895條,負類工單2 105條。將采用本文情感分析模型得到的結果與原始基礎情感詞典得到的結果進行對比分析,見表2。

由表2可知,采用本文構建的電力客服工單詞典針對正向和負向的情感詞都有較高的準確率、召回率和值,由此可知,本文設計的電力客服工單情感分析模型是合理的,且具有明顯的性能優勢。

4 結 語

本文設計了一種電力客服工單情感分析模型,構建了電力客服領域情感專用詞典并進行工單情感傾向性分析。采用word2vec工具對采集到的數據進行訓練,并用測試集數據對本文提出的模型進行驗證分析,結果表明,本文所提方法具有一定的合理性和可行性,可為電力企業客戶關系管理提供一定的參考意義,促進企業客戶滿意度及運營效益的提升。此外,本文主要研究了基于構建的電力客服專用情感詞典進行客戶情感傾向性分析,但是對于無監督性學習方法情感傾向性分析以及情感強度的分析還有待進一步研究。

參考文獻

[1] 李勝宇,高俊波,許莉莉.面向酒店評論的情感分析模型[J].計算機系統應用,2017,26(1):227?231.

[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.

[3] 郗亞輝.產品評論中領域情感詞典的構建[J].中文信息學報,2016,30(5):136?144.

[4] 鐘將,楊思源,孫啟干.基于文本分類的商品評價情感分析[J].計算機應用,2014,34(8):2317?2321.

[5] 劉龍飛,楊亮,張紹武,等.基于卷積神經網絡的微博情感傾向性分析[J].中文信息學報,2015,29(6):159?165.

[6] 黃挺,姬東鴻.基于圖模型和多分類器的微博情感傾向性分析[J].計算機工程,2015,41(4):171?175.

[7] 劉金碩,張智.一種基于聯合深度神經網絡的食品安全信息情感分類模型[J].計算機科學,2016,43(12):277?280.

免费毛片在线看片免费丝瓜视频| 久久久99精品视频| 毛片内射久久久一区| 国产精品三级片一区| 婷婷色中文网| 人妻换人妻仑乱| 多毛小伙内射老太婆| 中文av乳导航| 肥臀熟女一区二区三区| 久久久久久久极品内射| 专区亚洲欧洲日产国码AV| 国产激爽大片高清在线观看| 国产自在自线午夜精品视频在| av鲁丝一区鲁丝二区鲁丝三区| 91久久精品国产| 久久精品国产亚洲夜色av网站| 国产做a爱片久久毛片a片高清| 日批视频免费在线观看| 日本熟妇hd8ex视频| 国产无套中出学生姝| 久久月本道色综合久久| 国产精品av在线一区二区三区 | 99热亚洲精品6码| 国产精品久久久av久久久| 亚洲人成人一区二区三区| 国产一级淫片免费大片| 色综合久久久久久久久久| 免费又爽又大又高潮视频| 九九热在线视频观看这里只有精品| 性色av蜜臀av色欲av| 日本人妻高清一区二区三区| 色欲av无码一区二区人妻| 亚洲av无码午夜| 香蕉久久久久久久av网站| 一本大道久久东京热无码av| 国产精品页| 极品妇女扒开粉嫩小泬| 久久精品中文字幕一区| 日产精品一区二区免费| 强奷乱码中文字幕熟女导航| 在线观看国产一区亚洲bd|