靈感範文站

生物信息學學習心得

第一篇:生物信息學

生物信息學學習心得

生物信息學是上世紀90年代初人類基因組計劃(hgp)依賴,隨着基因組學、蛋白組學等新興學科的建立,逐漸發展起來的生物學、數學和計算機信息科學的一門交叉應用學科。目前生物信息學的研究領域主要包括基於生物序列數據的整理和註釋、生物信息挖掘工具開發及利用這些工具揭示生物學基礎理論知識等領域。生物信息學作爲新型交叉應用學科,可以依託本校已有的計算機科學、信息學、生物學和數學等學科優勢,充分展現投入少、見效快、起點高的特色,推動學校學科建設和本科教學水平。

本實驗指導書中的8個實驗均設計爲綜合性開發實驗,面向生物信息學院全體本科學生和研究生,以及全校對生物信息學感興趣的其他專業學生開放。生物信息學實驗室將提供系統的保障,包括採用mail服務器和linux帳號管理等進行實驗過程管理和支持。限選《生物信息學及實驗》的生物技術專業本科生至少選擇其中5個實驗,並不少於8個學時,即爲課程要求的0.5個學分。其他選修者按照課時和學校相關規定計算創新學分。 實驗一 熟悉生物信息學網站及其數據的生物學意義

實驗目的:

培養學生利用互聯網資源獲取生物信息學研究前沿和相關數據的能力,熟悉生物信息學相關的一些重要國內外網站,及其核酸序列、蛋白質序列及代謝途徑等功能相關數據庫,學會下載生物相關的信息數據,瞭解不同的數據文件格式和其中重要的生物學意義。

實驗原理:

利用互聯網資源檢索相關的國內外生物信息學相關網站,如:ncbi、sanger、tigr、kegg、swissport、ensemble、中科院北京基因組研究所、北大生物信息

學中心等,下載其中相關的數據,如fasta、genbank格式的核算和蛋白質序列、pathway等數據,理解其重要的生物學意義。

實驗內容:

1. 瀏覽和搜索至少10個國外和至少5個國內生物信息學相關網站,並描

述網站特徵;

2. 下載各網站的代表性數據各10條(組)以上,並說明其生物學意義;

3. 討論各網站適合做何種生物信息學研究的平臺,並設計一個研究設想。 實驗報告:

1. 各網站網址及特徵描述;

2. 代表性數據的下載和生物學意義的描述;

3. 討論:這些生物信息學相關網站的信息資源,可以被那些生物信息學

研究所利用。

參考書目:

《生物信息學概論》 羅靜初 等譯, 北京大學出版社, 2014;《生物信息學手冊》 郝柏林 等著, 上海科技出版社, 2014;

《生物信息學實驗指導》 胡鬆年 等著, 浙江大學出版社, 2014。 實驗二 利用blast進行序列比對

實驗目的:

瞭解blast及其子程序的原理和基本參數,熟練地應用網絡平臺和linux計算平臺進行本地blast序列比對,熟悉blast結果的格式和內容並能描述其主要意義,同時比較網上平臺和本地平臺的優缺點。

實驗原理:

利用實驗一下載的核算和蛋白質序列,提交到ncbi或者其他擁有blast運算平臺的網頁上,觀察其基本參數設定庫文件類型,並得到計算結果;同時在本地服務器上學會用formatdb格式化庫文件,並輸入blast命令進行計算,獲得結果文件。

實驗內容:

1. 向網上blast服務器提交序列,得到匹配結果;

2. 本地使用blast,格式化庫文件,輸入命令行得到匹配結果;

3. 對結果文件進行簡要描述,闡述生物學意義。

實驗報告:

1. 闡述blast原理和比對步驟;

2. 不同類型blast的結果及其說明;

3. 討論:不同平臺運行blast的需求比較。

參考書目:

《生物信息學概論》 羅靜初 等譯, 北京大學出版社, 2014;

《生物信息學實驗指導》 胡鬆年 等著, 浙江大學出版社, 2014;。

實驗三 利用clustalx(w)進行

多序列聯配

實驗目的:

掌握用clustal x(w)工具及其基本參數,對具有一定同源性和相似性的核酸與蛋白質序列進行聯配和聚類分析,由此對這些物種的親緣關係進行判斷,並且對這些序列在分子進化過程中的保守性做出估計。

實驗原理:

首先對於輸入的每一條序列,兩兩之間進行聯配,總共進行n*(n-1)/2次聯配,這一步通過一種快速的近似算法實現,其得分用來計算指導樹,系統樹圖能用於指導後面進行的多序列聯配的過程。系統樹圖是通過upgma方法計算的。在系統樹圖繪製完以後,輸入的所有序列按照得分高低被分成n-1個組,然後再對組與組之間進行聯配,這一步用myers和miller算法實現。

實驗內容:

1. 明確軟件所支持的輸入文件格式,蒐集整理出合適的數據;

2. 在windows環境運行clustal x,在linux環境運行clustal w;

3. 實驗結果及分析,用treev32或njplotwin95生成nj聚類圖。

實驗報告:

1. 整理好的符合clustal的序列數據;

2. 提交數據網頁記錄和各步驟記錄;

3. 提供聚類圖和多序列聯配圖,並說明意義。

參考書目:

《生物信息學概論》 羅靜初 等譯, 北京大學出版社, 2014;

《生物信息學實驗指導》 胡鬆年 等著, 浙江大學出版社, 2014。 實驗四 ests分析

實驗目的:

熟悉使用一系列生物信息學分析工具對測序得到ests序列數據進行聚類處理,由此對獲得表達基因的丰度等相關信息,並且對這些表達基因進行功能的初步詮釋,爲後續實驗通過設計race引物獲得全長基因,以及進一步的功能注

釋和代謝途徑分析做好準備。

實驗原理:

首先用crossmatch程序去除ests原始序列中的載體成分和引物成分,然後用phrap生成congtig和singlet,用blast程序進一步將有同源性的contig和singlet進行功能聚類,最後通過blast對聚類獲得的cluster進行功能註釋。在實驗過程中將用到一些本實驗室寫好的perl程序用於連接各數據庫和工具軟件。

實驗內容:

1. 運行codoncode aligner程序,並用它建立工程文件,導入例子文件

夾裏面的數據;練習對序列的各種查看方式。

2. 使用codoncode aligner程序裏的clip ends, trim vector, assemble

等功能,完成序列的剪切、去雜質、組裝工作。

實驗報告:

1. 實驗各步驟記錄和中間結果文件;

2. 舉例簡要說明結果文件中數據的生物學意義。

參考書目:

《生物信息學概論》 羅靜初 等譯, 北京大學出版社, 2014;

《基因表達序列標籤(est)數據分析手冊》 胡鬆年 等著, 浙江大學出版社, 2014。

實驗五 利用primer premier5.0設計

race引物

實驗目的:

熟悉pcr引物設計工具primer premier5.0的一些基本功能,能夠根據實驗需要選擇相應的引物設計方法設計pcr引物。

實驗原理:

pcr實驗是當代分子生物學的基本實驗之一,由於目標序列和實驗目的的不同,相應設計引物的要求也不一樣。本實驗延續ests分析結果,對於其中需要獲得全長的基因進行race引物的設計,及5’和3’race引物,配合接頭序列設計單向引物,並模擬練習通過連接獲得全長的基因cds序列。最後設計已知全長基因序列的pcr擴增引物。

實驗內容:

1. 從網站下載並安裝primer premier5.0;

2. 從 genbank 中任意獲取一個 dna 序列,設計出該序列的合適引物; 實驗報告:

1. 實驗各步驟使用的數據、運算平臺、結果文件記錄;

2. 比較不同引物設計平臺和不同pcr實驗的差別;

參考書目:

《生物信息學概論》 羅靜初 等譯, 北京大學出版社, 2014;《生物信息學實驗指導》 胡鬆年 等著, 浙江大學出版社, 2014; 。

實驗八 perl程序的安裝、編寫、調試 實驗目的:

培養學生能在windows和linux兩種平臺安裝perl解釋器、編寫perl程序以及debug和運行的能力,熟悉perl語言基本語法,學會熟練編寫和運用perl程序進行基礎生物信息學研究。

實驗原理:

perl語言是一門通用的腳本語言,具有強大的字符串處理功能,是生物信息學研究的強大幫手,學會了perl語言,就能方便地處理生物信息學研究中遇到的各種字符串文本,促進研究的快速進行。

實驗內容:

1. 下載perl程序在windows和linux下的安裝包並進行安裝;

2. 編寫簡單的perl程序,並學會debug;

3. 編寫具有簡單功能的鹼基處理perl程序。

實驗報告:

1. perl解釋器安裝方法;

2. perl解釋器debug方法;

3. 討論:perl語言在生物信息學研究中所起到的積極作用。

參考書目:

《perl 編程24學時教程》 (美)皮爾斯著 王建華等譯,機械工業出版社, 2014;

《生物信息學手冊》 郝柏林 等著, 上海科技出版社, 2014;《生物信息學實驗指導》 胡鬆年 等著, 浙江大學出版社, 2014

第二篇:生物信息學

生物信息學(bioinformatics)是在生命科學的研究中,以計算機爲工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(genomics)和蛋白質組學(proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。

具體而言,生物信息學作爲一門新的學科領域,它是把基因組dna序列信息分析作爲源頭,在獲得蛋白質編碼區的信息後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的功能進行必要的藥物設計。基因組信息學,蛋白質空間結構模擬以及藥物設計構成了生物信息學的3個重要組成部分。從生物信息學研究的具體內容上看,生物信息學應包括這3個主要部分:(1)新算法和統計學方法研究;(2)各類數據的分析和解釋;(3)研製有效利用和管理數據新工具。

生物信息學是一門利用計算機技術研究生物系統之規律的學科。目前的生物信息學基本上只是分子生物學與信息技術(尤其是因特網技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。1990年代以來,伴隨着各種基因組測序計劃的展開和分子結構測定技術的突破和internet的普及,數以百計的生物學數據庫如雨後春筍般迅速出現和成長。對生物信息學工作者提出了嚴峻的挑戰:數以億計的acgt序列中包涵着什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?

生物信息學的另一個挑戰是從蛋白質的氨基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀,如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者w. gilbert在1991年曾經指出:“傳統生物學解決問題的方式是實驗的。現在,基於全部基因都將知曉,並以電子可操作的方式駐留在數據庫中,新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發,然後再回到實驗中去,追蹤或驗證這些理論假設”。生物信息學的主要研究方向: 基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學,1989年在美國舉辦生物化學系統論與生物數學的計算機模型國際會議,生物信息學發展到了計算生物學、計算系統生物學的時代。

姑且不去引用生物信息學冗長的定義,以通俗的語言闡述其核心應用即是:隨着包括人類基因組計劃在內的生物基因組測序工程的里程碑式的進展,由此產生的包括生物體生老病死的生物數據以前所未有的速度遞增,目前已達到每14個月翻一番的速度。同時隨着互聯網的普及,數以百計的生物學數據庫如雨後春筍般迅速出現和成長。然而這些僅僅是原始生物信息的獲取,是生物信息學產業發展的初組階段,這一階段的生物信息學企業大都以出售生物數據庫爲生。以人類基因組測序而聞名的塞萊拉公司即是這一階段的成功代表。原始的生物信息資源挖掘出來後,生命科學工作者面臨着嚴峻的挑戰:數以億計的acgt序列中包涵着什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?生物信息學產業的高級階段體現於此,人類從此進入了以生物信息學爲中心的後基因組時代。結合生物信息學的新藥創新工程即是這一階段的典型應用。

第三篇:生物信息學

剛剛接觸生物信息的時候,大家都比較迷茫,我覺得它是一個交叉學科,要想學好得有一定的毅力。我的導師要求我至少作到以下幾個方面:

1,數學基礎要好點。線代,高數,統計等。

2,計算機知識。windows ,linux, unix系統等,各種常用生物軟件的使用。可以自己找來一個個試。

3,matlab 裏面有的關於生物方面的工具包也很多的。

4,生物知識,不用說的。

其他: 如果要深入的話,最好會編程。什麼java,perl,等。我是剛開始學。大家多指教。

導師推薦了好幾本書:

《生物信息學概論》 "introduction to bioinformatics"(英) t k attwood , d j parry-smith 著羅靜初 等譯北京大學出版社 2014年4月第一版本書從生物信息學的研究對象、意義出發,介紹生物信息學研究的基本方法和常用工具。主要介紹的是核酸和蛋白質序列的計算機分析方法,探討利用現有的計算機程序,從現有的數據庫中能夠獲取什麼、不能夠獲取什麼。全書共分十章:1.概論,2.信息網絡,3.蛋白質信息資源,4.基因組信息資源,5. dna序列分析,6.雙序列比對,7.多序列比對,8.二次數據庫搜索,9.數據庫搜索實例,10.序列分析軟件包。每章末尾均提供了進一步閱讀指南和有關的網址。這本書的一大特色在於豐富的例子和圖表,使讀者可以很直觀的瞭解和掌握書中的內容。此外,書的末尾還附有與生物信息學相關的詞彙表。總的說來,這本書實用性強,可以作爲高等院校生物信息學教材,也可以作爲生命科學和生物技術各領域分子生物學研究和開發工作者的生物信息學參考書。

《生物信息學手冊》郝柏林 張淑譽 編著上海科學技術出版社 2014年10月第一版一本手冊式的生物信息學書籍。除了介紹了生物信息學,還包括了計算機及計算機網絡(這一部分提供了一些網址)和分子生物學的知識。更爲重要的是,該書的主要部分?quot;生物信息數據庫"和"服務、軟件和算法"部分,提供了大量的網址。 幾乎是每一個條目下面都有不少網址。這本書將網絡上的生物信息學資源進行了索引式的介紹,並作了必要的說明。書中列舉了近千條網址和引文,基本涵蓋了生物學研究的各個方面,堪稱生物信息的汪洋大海中的導航圖。對生物信息學的服務、軟件和算法,本書也作了較全面的描述。本書可供廣大生命科學工作者以及由物理學、數學和計算機學轉入生命科學領域的研究教學人員參閱(上面可以查到很多網址)。

《生物信息學》趙國屏 等 編著科學出版社 2014年4月 第一版本書是"863"生物高科技叢書之一。它比較全面地介紹了生物信息學的若干個主要分支,並特別介紹了與人類基因組研究

相關的生物信息學的一些較新成果;着重介紹了數據庫和數據庫的查詢、序列的同源比較及其在生物進化研究中的應用;以生物芯片中的生物信息學問題爲例,介紹與基因表達相關的生物信息學問題;還介紹了蛋白質結構研究中的生物信息學問題,以及與分子設計和藥物設計相關的生物信息學技術。本書可供生物信息學專業和生命科學相關專業的本科生、研究生和教學科研人員閱讀學習,也可供相關專業的科技和應用機構的科研、管理和決策人員參考。注意,本書有很大篇幅是講基因芯片和蛋白質結構預測的。

《生物信息學--基因和蛋白質分析的實用指南》 "bioinformatics--a

practical guide to the analysis of genes and proteins "andreas vanis cis ouellette 著李衍達 孫之榮 等 譯清華大學出版社 2014年8月 第一版這本書由前衛計算生物學家撰寫,貫穿了已有的工具和數據庫,包括應用軟件、因特網資源、向數據庫提交dna序列以及進行序列分析和利用核酸序列與蛋白質序列進行預測的的方法。以下是該書的目錄:1.因特網與生物學家,2. genebank序列數據庫,3.結構數據庫,4.應用gcg進行序列分析,5.生物數據庫的信息檢索,6. ncbi數據模型,7.序列比對和數據庫搜索,

8.多序列比對和實際應用,9.系統發育分析,10.利用核酸序列的預測方法,11.利用蛋白質序列的預測方法,12.鼠類和人類公用物理圖譜數據庫漫遊,13. acedb: 基因組信息數據庫,14.提交dna序列數據庫。本書有很多實際的序列和序列分析的例子。這本書適合高等院校的師生和從事生物工程研究的科技工作者閱讀。

在第14章提及的通訊資源:互聯網和通信地址;電話和傳真號碼

ddbj/embl和genbank的一般聯繫信息以及提交dna序列到這些數據庫的入口。

ddbj(信息生物學中心,nig)

地址:ddbj,1111 yata, mishima,shiznoka 411,japan

傳真:81-559-81-6849

e-mail

提交:

更新:

信息:

互聯網

主頁:

webin:

genbank(國家生物技術信息中心,nih)

地址:gen bank national center for biotechnology information, nationtional library of medicine, national institutes of health, building 38a, room 8n805, bethesda md 20144

電話:301-496-2475

傳真:301-480-9241

e-mail

提交:

est/gss/sts

更新:

信息:

互聯網

主頁:

bankit:

在dna序列數據庫中使用的遺傳密碼:

ddbj/embl/genbank特徵表文檔可用www方式獲得或者從ebi或ncbi的ftp服務器上得到postscript文件。

embl和genbank數據庫的版本信息

embl

genbank

sequin: dna序列數據庫的提交和更新工具

est, sts和gts主頁,獲取信息和向這些特定genbank數據庫提交序列

est

sts

gss

htgs主頁:高吞吐量基因組序列資源,工具和信息

第四篇:生物信息學

淺談對生物信息學的認識

摘要生物信息學是採用計算機技術和信息論方法研究蛋白質及核酸序列等各種生物信息的採集、儲存、傳遞、檢索、分析和解讀的科學, 是現代生命科學與信息科學、計算機科學、數學、統計學、物理學和化學等學科相互滲透而形成的交叉學科。經過一學期的學習,我學到了很多很有用的知識,給我印象最深的有序列比對、蛋白質結構分析、核酸序列分析、數據庫及數據庫檢索等內容。 關鍵字:生物信息學認識基因組學數據庫

時光飛逝,一學期馬上就要結束了,本學期的專業選修課也即將結束。在上課之前,我一直認爲生物信息學就是在講關於人類及動物的基因,以及基因之間的差別。但是,剛上了幾節課,我就發現生物信息學根本不是我想象的那麼簡單,就這樣我懷着對自己的懷疑和對這門課的好奇走進了這門課。

生物信息學是一門新興的、正在迅速發展的交叉學科,

美國國家基因組研究中心認爲, 生物信息學是一個代表生物學、數學和計算機的綜合力量的新興學(bioinformatics is an emerging scientific discipline representing the combined power of biology,mathematics, and computers)。

現代生物信息學是採用計算機技術和信息論方法研究蛋白質及核酸序列等各種生物信息的採集、儲存、傳遞、檢索、分析和解讀的

科學, 是現代生命科學與信息科學、計算機科學、數學、統計學、

物理學和化學等學科相互滲透而形成的交叉學科。

在這短短的一學期課中,在老師的帶領下,我們學到了很多關

於生物信息學的知識,其中給我印象最深的有序列比對、蛋白質結

構分析、核酸序列分析、數據庫及數據庫檢索等內容。

比如,序列比對,它的基本問題是比較兩個或兩個以上符號序列

的相似性或不相似性。從生物學角度來看,它包含很多意義;如從

相互重疊的序列片段中重構dna的完整序列等。老師主要給我們介

紹了blast比對。

再如,對蛋白質的分析。比如我們實驗測定了一條蛋白質序列

或者從dna序列翻譯得來一條蛋白質序列,我們要藉助生物信息學

方法來對它進行基本性質及結構分析。其中基本性質包括它的分子

量、氨基酸數目、排列順序、等電點分析等。結構分析包括跨膜螺

旋分析等。要運用的工具是protparam tool 和tmhmm。對於這兩

個工具我都進行了實際操作練習,我覺得這對我們以後的理論學習

和實驗分析都非常重要。現代生物信息學的主要研究領域及其進展

1、基因組學和蛋白組學研究

基因組和蛋白組研究是生物信息學的主要內容. 同樣, 生物信息

學是基因組和蛋白組研究中必不可少的工具。

基因組學(genomics)和蛋白組學(proteomics)的實質就是分析和解讀核酸和蛋白質序列中所表達的結構與功能的生物信息. 這方面的研究已成爲生物信息學的主要研究內容之一.

一種生物的全部遺傳構成被稱爲該種生物的基因組. 有關基因組的研究稱爲基因組學. 其中, 序列基因組學(sequence genomics)主要研究測序和核苷酸序列; 結構基因組學(structural genomics)着重於遺傳圖譜、物理圖譜和測序等方面的研究; 功能基因組學

(functional genomics)則研究以轉錄圖爲基礎的基因組表達圖譜; 比較基因組學(comparative ge2nomics)的研究內容包括對不同進化階段基因組的比較和不同種羣和羣體基因組的比較。

蛋白組和蛋白組學的概念是隨基因組和基因組學的出現而出現的. 蛋白組(proteme)的概念是由於基因表達水平並不能代表細胞中活性蛋白質的數量, 基因組序列並不能描述活性蛋白質所必需的翻譯後修飾和反映蛋白質種類和含量的動態變化過程而提出的. 在一定條件下某一基因組蛋白質表達的數量類型稱爲蛋白組, 代表這一有機體全部蛋白質組成及其作用方式. 有關蛋白組的研究稱爲蛋白組學. 其中, 蛋白組的研究技術與方法、雙向凝膠電泳圖譜以及對不同條件下蛋白組變化的比較分析是蛋白組學的主要研究內容。生物信息學在基因組和蛋白組研究中所起的作用主要有:(1)基因組信息結構的計算分析. 即對基因組數據進行大規模並行計算並預測各種新基因和功能位點, 研究大量非編碼區序列的信息結構和可能的生物學意義。(2)模式生物全基因組信息結構的比較研究.即

對已完成全基因組測序的各種模式生物的基因組信息結構進行比較分析, 包括同源序列的搜索比較和指導基因克隆.(3)功能基因組的相關信息分析, 包括對基因表達圖譜及其相關算法和軟件的研究, 與功能基因組信息相關的核酸、蛋白質的空間結構的預測模擬以及蛋白質的功能預測。

2、生物信息數據庫

複雜的生物和生物界和日新月異的生命科學研究產出的大量的生物學信息,對這些信息的儲存、檢索、比較分析必須藉助於計算機數據庫技術, 包括各類生物學信息數據庫的建立與維護、數據的添加與註釋、更新與查詢、數據庫資料的網絡化等研究內容。現有的數據庫有:核酸序列數據庫(genbank、embl、ddbj)、基因組數據庫、基因圖譜數據庫、蛋白質序列數據庫(swtss-

prot、pir)和蛋白質結構數據庫(interpro)等。隨着生命科學的不斷髮展,數據庫種類不斷增加、結構日益複雜、使用也越來越方便。

生物信息學作爲一門新興學科已經成爲生命科學研究中必不可少的研究手段 本文對數據庫與數據庫搜索序列比對蛋白質結構預測藥物設計基因芯片技術幾個方面做了介紹較爲系統地闡述了生物信息學在這些領域的應用 當然它所涉及

的內容與方法遠遠不只上面提到的那些 新基因和 的發現與鑑定非編碼區信息結構分析遺傳密碼的起源和生物進化完整基因組的比較

研究 大規模基因功能表達譜的分析等都是生物信息學研究的對象 相信不久的將來生物信息學會在生命

科學領域扮演越來越重要的角色。

參考文獻:

1、現代生物信息學及其主要研究領域 蕭浪濤(湖南農業大學理學院, 湖南長沙 410128)

2、生物信息學技術進展 郭志雲 張懷渝 樑龍 軍事醫學科學院 生物工程研究所,北京100071;四川農業大學生命科學及理學院,雅安 625014

3、利用生物信息學技術研究蛋白功能的幾種方法 王劍利 楊章民綜述 王一理審閱 西安交通大學醫學院免疫病理學研究室(西安, 710061)

第五篇:生物信息學(第二版)

《精要速覽系列-先鋒版生物信息學(第二版)》

head,sh & an

科學出版社2014

a生物信息學概述

相關學習網站

b數據採集

dna,rna和蛋白質測序

1.dna測序原理

dna中核苷酸的順序是通過鏈式終止測序【也稱爲脫氧測序(dideoxy sequencing)或以發明人命名的sanger方法】來確定。

2.dna序列的類型

基因組dna,是直接從基因組中得到,包括自然狀態的基因

複製dna(copy dna, cdna),通過反轉錄mrna得到的

重組dna,包括載體序列如質粒,修飾過的病毒和在實驗室使用的其他遺傳元件等

3.基因組測序策略

散彈法測序(shotgun sequence)包括隨機dna片段的生成,通過大量片段測序來覆蓋整個基因組

克隆重疊羣測序(clone contig)dna片段用推理的方法亞克隆,並且進行系統的測序直到整個序列完成

4.序列質量控制

通過在dna雙鏈上進行多次讀取完成高質量序列數據的測定

可使用如phred等程序對最初的跟蹤數據(trace data)進行鹼基識別和質量判斷。載體序列和重複的dna片段被屏蔽後,使用phred等程序將序列拼接成重疊羣(contigs),剩下的不一致部分通過人工修飾解決

5.單遍測序

低質量的序列數據可以由單次讀段(read)產生(單遍測序,single-pass sequencing)。儘管不很準確,但單遍測序如ests和gsss,可以低廉的價格快速大量的產生

6.rna測序

因爲有大量的小核苷酸(minor nucleotide)(化學改變的核苷)存在於轉移rna(trna)和核糖體rna(rrna)中,所以rna測序不能像dna測序那樣直接進行。 需要用特殊的方法來識別被改變的核苷,包括生化實驗,核磁共振譜(nrm spectroscopy)和質譜(ms)技術

7.蛋白質測序

蛋白質序列可以通過dna序列推斷得到,而rna測序不能提供有關已改變殘基或其他類型的翻譯後蛋白質修飾(比如剪接或二硫鍵的形成)

大部分蛋白質測序是通過質譜(ms)技術進行的

基因和蛋白質表達數據

1.全局表達分析

rna水平的分析中有效的方法是從rna羣體或cdna文庫中,甚至從序列數據庫中進行序列採樣。一個簡單的方法是從cdna文庫中隨機挑選5000個克隆進行測序。含量很多的mrnas在採樣的序列中出現的頻率很高,而含量較少的mrna出現頻率則較低,通過這些數據的統計分析可以確定相對的表達水平。

一個更高級的技術是基因表達的連續分析(serial analysis of gene expreaaion, sage)該方法使每個cdna產生很短的序列標籤(通常8~15nt),並在測序前把數百個標籤連接成連環分子(concatemer)。這樣一個測序反應中可蒐集到幾百條mrna的豐富信息。每個sage標籤可以特異性識別一個特定基因,通過對標籤計數,可以確定每個基因的相對錶達水平。

然而,大部分全局rna表達數據還需從微陣列實驗所測的信號強度中獲取。全局蛋白質表達數據主要從雙向聚丙烯酰胺凝膠電泳(two-dimensional polyacrylamide gel electrophoresis, 2d-page)分離,產生點陣的唯一模式(每個點代表一個單獨的蛋白質)。在2d-page實驗中,蛋白質表達數據可以通過每個點的信號強度得到,每個二維凝膠上的蛋白信號必須通過質譜(ms)技術來單個註釋。

2.dna微陣列

一個微陣列有一系列的dna元件(特徵),以格子形式排列在載玻片等微型支撐物上,通過與複合rna探針雜交可同時使很多基因的表達水平可視化。若使用兩個不同的熒光標籤的探針,可以在同樣的陣列上直接測定不同樣本的不同基因的表達。 微陣列中主要用到的兩個技術:機械點樣dna微陣列(spotted dna microarray)和寡聚核酸基因芯片(oligonucleotide gene chip)(由美國affymetrix公司獨家制造),後者在製造芯片是通過固態化學合成把寡聚核苷酸印在芯片上。

3.雙向蛋白質凝膠

2d-pag技術的原理是蛋白質可基於兩個不同的特性來分離:等電點(isoelectric point)和分子質量(molecular mass)。該技術中,第一方向蛋白沿固相ph梯度(immobilizes ph gradient)等電聚焦(isoelectric focusing)分離;在垂直方向進行分子量的分離。在凝膠染色後,染色斑點(spot)的模式可作爲樣品中蛋白質的可重複使用的指紋(fringerprint)。通過樣本間比較可以識別不同表達的蛋白質,或被藥物誘導的蛋白質等。離體的蛋白質斑點(excised spot)可以通過質譜技術鑑定。

蛋白質互作數據

1.蛋白質互作的重要性

蛋白質-蛋白質互作導致瞬時或穩定多亞基複合物(multi-subunit complexes)的形成。瞭解這些複合物對於註釋蛋白質功能是必需,也是解釋信號級聯和調控網絡等分子途徑的一個步驟。死效應反映了兩個突變的蛋白質

2.遺傳方法

抑制子突變體可以通過恢復被破壞的蛋白質互作來補償有害的原始突變體。而合成致死效應反映了兩個突變的蛋白質不能相互作用,顯性負突變(dominant negative mutation)顯示了一種起着多聚複合體作用的蛋白質。

3.親和性方法

可通過幾種利用蛋白質親和性(特異結合的傾向)分析的物理方法來爲蛋白質之間的相互關係提供直接的證據,比如親和性管柱層析法,免疫共沉澱。由ciphergen公司使親和實驗格式更趨微型化,使得在蛋白質芯片的發展中達到頂峯。

4.分子和原子的方法

x射線晶體學和核磁共振譜有助於在原子水平識別蛋白質互作,其它的蛋白質互作分析的分子方法包括熒光共振能量傳遞(fret),表面基元共振譜(spr)和表面增強激光接吸附/離子化技術(seldl),其中的很多方法可通過質譜技術直接集成到蛋白質註釋中。

5.基於文庫的方法

基於文庫的蛋白質互作實驗有兩個主要優點:它是高度並行的實驗格式;候選互作蛋白質及其cdnas之間直接關聯。

影響最大的方法是酵母雙雜交系統(yeast two-hybrid system,y2h),在這個系統中蛋白質通過識別與之連接的一個功能轉錄因子進行互作。

c數據庫--內容,結構和註釋

已註釋的序列數據庫

1.初級序列數據庫

genbank(ncbi)、核酸序列數據庫(embl)和日本的dna數據庫(ddbj)

2.swiss-prot和trembl

swiss-prot收集了確認的蛋白質序列及與結構,功能和所屬蛋白質家族有關的註釋信息。相關數據庫trembl翻譯了初級核酸數據庫中的編碼序列。

其他數據庫

1.omim

omim指人類孟德爾遺傳的聯機數據庫,用於研究人類遺傳學和人類分子生物學的強大資源。每個omim條目都有一個對特定基因或性狀的已知信息的全文總結,並有指向初級序列數據庫和其它遺傳學資源的鏈接。

2.incyte和unigene

incyte是商業數據庫,它提供了基因序列和專家註釋的記錄,這是專門爲藥物研究開發服務的數據庫。unigene是一種用來把genbank序列聚類並與est數據相關聯的實驗工具。

3.結構數據庫

蛋白質數據庫(pdb),核酸數據庫(ndb),大分子結構數據庫(msd)

e通過序列相似性標準搜索序列數據庫

序列相似性搜索

1.序列聯配

序列聯配是是相似度量化的第一步,用來區分偶然性的相似和真實的生物學關係。聯配結果以變化(突變)、插入或缺失(或空位indel)來顯示序列之間的差異,這些差異可以用進化術語來說明。

2.聯配算法

動態規劃算法可以計算兩條之間的最佳聯配,其中廣泛使用的算法有smith-waterman算法(局部聯配)和needleman-wunsch算法(全局聯配)。

3.聯配分支和空位罰分

用簡單的聯配分值來測量相同匹配殘基的比例或數目。得從聯配分值中扣去空位罰分,以保證聯配算法能得出有生物學意義的結果而沒有太多的空位。

數據庫搜索:fasta和blast

1.統計分值

相似度記分的p值是指獲得至少與兩條無關序列間的偶然相似性一樣高的分值的概率。低p值表明重要的匹配,這些匹配可能會有真實生物學意義。相關的e值(期望值)是至少與所識別的相似性記同樣高分值的偶然事件的期望概率。兩序列見相似度的低p值對應於大數據庫搜索的高e值。

2.敏感性和特異性

敏感性衡量數據庫中真實生物序列關係的比例,該關係表現爲擊中項(有意義的相似序列)。特異性指的是對應於真實生物學關係的擊中項的比例。改變e和p的默認值會導致這些互補的優良度測量方法之間的平衡。

f多序列聯配:基因和蛋白質家族

多序列聯配和家族關係

1.多序列聯配

多序列聯配表明兩條或兩條以上序列之間的關係,可以解釋關於蛋白質結構和功能的許多線索。當所考察的序列不同時,保守的殘基往往是維持穩定結構或生物學功能的關鍵殘基。

2.漸進聯配

漸進聯配方法以兩序列聯配來初步評價序列是如何相關的,並在這個基礎上構建嚮導樹,然後使用嚮導樹逐步添加序列到聯配中,從最密切相關的序列開始到距離最遠的序列結束。

蛋白質家族和模式數據庫

1.蛋白質家族

把序列分配到蛋白質家族中是預測蛋白質功能是非常有價值的方法。多序列聯配信息的表示方法有很多種,包括聯配本身、一致序列、保守殘基和殘基模式、序列輪廓以及其他的

序列家族的概率模型。這些根據不同的應用都有不同的用途,其中大多數已經被開發和存儲在數據庫中,裏面含有大量不同蛋白質家族的信息,這樣的數據庫稱爲二級數據庫。

2.一致序列

這些序列把多序列聯配的信息壓縮至單條序列,主要的缺點是除了在特定位置最常見的殘基之外,它們不能表示任何概率信息。一致序列的產生說明了任何蛋白家族的表示都是有偏向的,這主要是由於來源的序列集是有偏向的。

3.prosite

prosite數據庫包括與蛋白質家族成員、特定蛋白功能及翻譯後修飾有關的序列模式。 prosite模式與一致序列的不同在於,它們往往比序列全長要短得多,並且給出了一種描述多序列聯配中一套可接受的殘基組合的方法。prosite模式中已知的假陽性(或假陰性)都已經在數據庫中註明。prosite數據庫在某些條目含有序列輪廓,以嘗試描述比模式更長的序列片段(通常指整個結構域)。

4.prints和blocks

prints和blocks是密切相關的,它們分別通過來自一組蛋白或蛋白家族中最高度保守區域的多序列聯配無空位片段的形式來表示蛋白質家族。

蛋白質結構域家族

1.結構域家族

許多蛋白質是由模式結構的結構域組建的,因此蛋白質家族的研究其實是對蛋白質結構域家族的研究。

2.序列輪廓

序列輪廓(也成權重矩陣)是一種描繪蛋白質結構與家族相關序列的方法,其優點是描述了結構域序列的全長,包括觀察到每個氨基酸的可能性,以及序列每個位點插入和缺失的可能性。

3.隱馬爾科夫模型

隱馬爾科夫模型(hmms)是蛋白質結構域家族序列的一種嚴格的統計模型,包括序列的匹配、插入和缺失狀態,並根據每種狀態的概率分佈和狀態間的相互轉換來生成蛋白質序列。代表某蛋白結構域家族的模型從該家族中生成序列的概率較高,從其他家族中生成序列的概率較低。

j微陣列數據分析

微陣列數據:分析方法

1.微陣列原始數據

微陣列數據就是經過雜交的陣列的掃描圖像,掃描圖像顯示每一個點的雜交信號強度。這些圖像可通過單通道、雙通道熒光標記、同位素標記或比色標記等方法獲得,其記錄方式各不相同。

2.數據質量

準確記錄個點的信號強度是微陣列數據分析的基本要求,dna陣列可包含數千個特徵點,因此數據的獲取和分析必須自動進行。陣列上必須包含對照點以衡量非特異雜交和不同

陣列上雜交的多變性。

3.基因表達矩陣

從微陣列實驗得到的原始數據首先要轉換成表,即基因表達矩陣。表中的各行代表基因,各列代表不同的實驗條件,表中的數據爲信號強度,代表各個基因的相對錶達水平。

4.表達數據分組

基因表達矩陣中的每一個基因都有其特定的表達模式,即一系列條件下基因表達情況的測量值。微陣列數據分析就是要將這些數據按表達模式的相似程度進行分類。

序列採樣和sage

1.序列採樣數據分析

差異基因表達的研究,可以通過從不同的cdna文庫中隨機挑取克隆來進行,也可以通過抽取est數據來進行。這種分析需要抽取成千上萬的序列以達到統計上的顯著性,即使對於中度冗餘度的mrna也要如此。

2.sage

sage是一種序列採樣技術,其原理是將非常短的序列標記(9~15鹼基)連續爲長的串聯體。sage標記的長度是最適於高通量分析,但基因依然可以被明確的鑑定出來。