靈感範文站

位置:首頁 > 實用文 > 實用文精選

基於邏輯迴歸分類器的乳腺癌易感基因標誌物識別

隨着基因測序技術的發展,生物信息數據呈現爆炸式增長,如何從海量生物數據中挖掘出隱藏的生物模式和信息,成爲生物信息學領域的一個重要課題。癌症的發生通常是由於細胞增長機制的失常而引起的,表現爲細胞內某些基因突變或表達異常所致,進一步影響其他基因的表達,從而導致一些蛋白質分子的表達發生改變,因此產生了病理學上腫瘤的差異,形成了臨牀診斷中的不同的癌症類別。隨着20世紀90年代啓動的人類基因組計劃(Human Genome Project) 的順利進行,DNA微陣列技術的迅速發展給癌症的臨牀輔助診斷和治療帶來了新的希望,它在實驗中產生的基因表達數據可以使我們從基因水平對癌症病因進行分析和研究。但一次微陣列實驗會同時產生數以萬計的基因表達數據,對海量的基因表達數據進行分析和處理,從中提取有效的生物信息給人們的研究提出了新的挑戰。基因表達譜數據分析是生物信息學領域研究的最重要內容之一,作爲研究的一種重要的方法,正確的對不同病理分型的癌症進行分類,對癌症的臨牀診斷 和治療具有非常重要的意義。邏輯迴歸(LogisticRegression)理論的提出和發展,給高維的基因表達譜數據處理帶來了新的啓發,邏輯迴歸是當前機器學習算法比較常用的方法,可以用來回歸分析,也可以用來分類,主要是二分類問題。邏輯迴歸分類算法就是將線性迴歸應用在分類場景中,通過曲線擬合與sigmoid函數得到對樣本數據的分類標籤,在二分類問題中得到的分類結果爲0/1。

基於邏輯迴歸分類器的乳腺癌易感基因標誌物識別

邏輯迴歸就是一個分類的算法,常見用在二分類當中,就是把我們的輸入值在線性迴歸中轉化爲預測值,然後映射到Sigmoid 函數中,講值作爲x軸的變量,y軸作爲一個概率,預測值對應的Y值越接近於1說明完全符合預測結果。但是擬合的越好,不代表效果就越好,有可能擬合過度。

經過反覆實驗,本文實現了對基因表達數據的分類,利用本文提出的邏輯迴歸算法最終對數據集分類都得到了很好的分類效果,分類準確率達到了 93.4%。