生物信息學數(shù)據(jù)分析的作用主要包括:
?、儆糜谏镄畔W數(shù)據(jù)分析的建立與查詢:包括基因和基因組數(shù)據(jù)庫(如Genbank、EMBL核酸序列數(shù)據(jù)庫、GDB等)、蛋白質(zhì)數(shù)據(jù)庫(如PIR、PSD、SWISS-PROT、PROSITE、PDB等)以及功能數(shù)據(jù)庫(如KEGG、TRRD、TRNSFAC等)。
②用于序列比對:即蛋白質(zhì)序列之間或核酸序列之間的比對。包括序列的兩兩比對和多序列比對。
③核酸與蛋白質(zhì)結構和功能的預測分析。
④基因組序列信息分析。
⑤功能基因組相關信息分析:包括大規(guī)?;虮磉_譜分析、基因組水平蛋白質(zhì)功能綜合預測。
具體而言,生物信息學數(shù)據(jù)分析發(fā)現(xiàn)中應用的數(shù)據(jù)挖掘技術包括:
?、贅嬤x基因數(shù)據(jù)庫或數(shù)據(jù)倉庫:由于廣泛多樣的DNA數(shù)據(jù)高度分數(shù),為了便于對DNA數(shù)據(jù)庫進行系統(tǒng)分析,需要利用數(shù)據(jù)挖掘中的數(shù)據(jù)清理和數(shù)據(jù)集成的方法來構造集成式數(shù)據(jù)倉庫和開發(fā)分布式數(shù)據(jù)庫。
?、谛蛄心J椒治觯篋NA序列間的相似搜索和比較是基因分析中重要的問題之一。由于基因數(shù)據(jù)是非數(shù)字的,所以數(shù)據(jù)挖掘中針對非數(shù)字的序列模式分析方法在基因序列比對中能起到非常重要的作用。
?、坳P聯(lián)分析:大部分疾病不是由一個基因引起的,而是由多個基因組合起來共同起作用的結果。因此采用數(shù)據(jù)挖掘中的關聯(lián)分析方法有助于發(fā)現(xiàn)基因組間的,進而揭示人類疾病背后的基因原因。
?、芸梢暬夯虻膹碗s結構和序列模式常常需要由各種可視化工具以圖、樹、鏈等形式來表現(xiàn)??梢暬ぞ哂兄谏镄畔⒌哪J嚼斫夂椭R發(fā)現(xiàn)。