STEM基因表達(dá)趨勢分析數(shù)據(jù)要求表達(dá)譜芯片或測序數(shù)據(jù)(已經(jīng)過預(yù)處理)下游分析得到***富集的時(shí)間表達(dá)模式之后的分析有:1.時(shí)間表達(dá)模式中基因的功能富集2.時(shí)間表達(dá)模式中基因表達(dá)與性狀之間的相關(guān)性挖掘模塊的關(guān)鍵信息:1.找到時(shí)間表達(dá)模式中的**基因2.利用關(guān)系預(yù)測該時(shí)間表達(dá)模式功能文獻(xiàn)1:DynamicEBF1occupancydirectssequentialepigeneticandtranscriptionaleventsinB-cellprogramming(于2018年1月發(fā)表在GenesDev.,影響因子)EBF1動態(tài)占據(jù)在B細(xì)胞中對序列表觀遺傳和轉(zhuǎn)錄過程的影響該文獻(xiàn)采用基因表達(dá)趨勢分析,探尋了EBF1誘導(dǎo)前后25kb轉(zhuǎn)錄起始位點(diǎn)內(nèi)基因轉(zhuǎn)錄水平的差異,來尋找EBF1對特定功能基因的影響以及造成影響的時(shí)間節(jié)點(diǎn)。文獻(xiàn)2:ComprehensivetranscriptionalprofilingofNaCl-stressedArabidopsisrootsrevealsnovelclassesofresponsivegenes(于2016年10月發(fā)表在BMCPlantBiol.,影響因子)該文獻(xiàn)采用基因表達(dá)趨勢分析,研究了高濃度鹽水作用不同時(shí)間下擬南芥根的基因表達(dá)差異,來探尋在遇到高濃度鹽水時(shí)擬南芥在基因?qū)用嫔系膽?yīng)對方式。 利用甲基化數(shù)據(jù)分析樣本的拷貝數(shù)變異。云南臨床統(tǒng)計(jì)數(shù)據(jù)科學(xué)
Lasso術(shù)語解讀λ(Lambda):復(fù)雜度調(diào)整懲罰值,λ越大對變量較多的線性模型的懲罰力度就越大,**終獲得的變量越少。是指在所有的λ值中,得到**小目標(biāo)參量均值的那一個(gè)。而是指在一個(gè)方差范圍內(nèi)得到**簡單模型的那一個(gè)λ值。交叉驗(yàn)證(crossvalidation):交叉驗(yàn)證是在機(jī)器學(xué)習(xí)建立模型和驗(yàn)證模型參數(shù)時(shí)常用的辦法。交叉驗(yàn)證,顧名思義,就是重復(fù)的使用數(shù)據(jù),把得到的樣本數(shù)據(jù)進(jìn)行切分,組合為不同的訓(xùn)練集和測試集,用訓(xùn)練集來訓(xùn)練模型,用測試集來評估模型預(yù)測的好壞。在此基礎(chǔ)上可以得到多組不同的訓(xùn)練集和測試集,某次訓(xùn)練集中的某樣本在下次可能成為測試集中的樣本,即所謂“交叉”。數(shù)據(jù)要求:1、表達(dá)譜芯片或測序數(shù)據(jù)(已經(jīng)過預(yù)處理)或突變數(shù)據(jù)2、包含生存狀態(tài)和生存時(shí)間的預(yù)后數(shù)據(jù)或者其它臨床分組數(shù)據(jù)。 四川組學(xué)實(shí)驗(yàn)數(shù)據(jù)科學(xué)服務(wù)根據(jù)委托方提供的參考文獻(xiàn)和要求進(jìn)行個(gè)性化特定分析。
survivalCurve生存分析生存分析(survivalCurve)旨在更好地分析對不同因素對患者預(yù)后的影響,從而找到影響患者疾病的關(guān)鍵因素。生存曲線(Kaplan-Meier曲線)是生存分析的基本步驟,展示分類樣本的生存曲線,從而揭示不同因素對疾病預(yù)后的影響。一般可應(yīng)用的研究方向有:患者的生存期跟基因變異的關(guān)系、藥物處理導(dǎo)致模式動物生存期變化?;驹鞬aplan-Meier法,直接用概率乘法定理估計(jì)生存率,故稱乘積極限法(product-limitmethod),是一種非參數(shù)法。相比其他方法,KM曲線能更好的處理刪失數(shù)據(jù)。先將樣本生存時(shí)間從小到大排列。若遇到非刪失值和刪失值相同時(shí),非截刪失****。在生存時(shí)間后列出與時(shí)間相應(yīng)的死亡人數(shù),期初病例數(shù)(即生存期為某時(shí)間時(shí)尚存活的病例數(shù))。然后計(jì)算活過每個(gè)時(shí)間點(diǎn)的生存率。以生存時(shí)間為橫坐標(biāo),生存率為縱坐標(biāo)所作的曲線,即為Kaplan-Meier曲線。術(shù)語解釋風(fēng)險(xiǎn)比(HazardRatio,HR):Kaplan-Meier方法中計(jì)算的風(fēng)險(xiǎn)比HR為兩分組對生存期影響的比例,用來描述該基因高表達(dá)對生存期的危險(xiǎn)程度。該方法中的假設(shè)檢驗(yàn)為兩組中樣本的生存期是否存在差異,即該因素是否會導(dǎo)致生存期的改變。刪失(censored):在生存分析中。
GSVA(基因集變異分析,反映了樣本和感興趣的通路之間的聯(lián)系):GSVA全名Genesetvariationanalysis(基因集變異分析),是一種非參數(shù),無監(jiān)督的算法。與GSEA不同,GSVA不需要預(yù)先對樣本進(jìn)行分組,可以計(jì)算每個(gè)樣本中特定基因集的富集分?jǐn)?shù)。換而言之,GSVA轉(zhuǎn)化了基因表達(dá)數(shù)據(jù),從單個(gè)基因作為特征的表達(dá)矩陣,轉(zhuǎn)化為特定基因集作為特征的表達(dá)矩陣。GSVA對基因富集結(jié)果進(jìn)行了量化,可以更方便地進(jìn)行后續(xù)統(tǒng)計(jì)分析。如果用limma包做差異表達(dá)分析可以尋找樣本間差異表達(dá)的基因,同樣地,使用limma包對GSVA的結(jié)果(依然是一個(gè)矩陣)做同樣的分析,則可以尋找樣本間有***差異的基因集。這些“差異表達(dá)”的基因集,相對于基因而言,更加具有生物學(xué)意義,更具有可解釋性,可以進(jìn)一步用于**subtype的分型等等與生物學(xué)意義結(jié)合密切的探究。 診療軟件開發(fā)、算法還原與開發(fā)、臨床統(tǒng)計(jì)等數(shù)據(jù)科學(xué)工作。
PPImodule蛋白質(zhì)互作蛋白質(zhì)-蛋白質(zhì)相互作用(protein-proteininteraction,PPI)是指兩個(gè)或兩個(gè)以上的蛋白質(zhì)分子通過非共價(jià)鍵形成蛋白質(zhì)復(fù)合體(proteincomplex)的過程。PPImodule是指共表達(dá)蛋白模塊或蛋白質(zhì)相互作用模塊。蛋白質(zhì)相互作用形成人體復(fù)雜的蛋白質(zhì)相互作用網(wǎng)絡(luò),對蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊從而幫助我們理解細(xì)胞的功能。我們一般使用PPImodule把基因列表跟蛋白相互作用網(wǎng)絡(luò)聯(lián)系起來。例如RNA-seq獲得的差異表達(dá)基因,看他們在蛋白相互作用網(wǎng)絡(luò)中,哪些基因處于同一module。基本原理:蛋白質(zhì)在細(xì)胞中的功能取決于它與其他蛋白質(zhì)、核酸和小分子相互作用關(guān)系,對蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊,各個(gè)蛋白模塊發(fā)揮不同的功能,我們將基因列表重疊于模塊上,查找基因列表所在的功能模塊,從而發(fā)現(xiàn)基因列表中的基因可能發(fā)揮的細(xì)胞功能。我們通過PPI數(shù)據(jù)庫找到共表達(dá)蛋白中的module,然后從模塊中篩選出基因列表的產(chǎn)物蛋白,篩選出的結(jié)果就是基因列表***表達(dá)的PPImodule。 蛋白組代謝組個(gè)性化分析。廣東公共數(shù)據(jù)庫挖掘數(shù)據(jù)科學(xué)服務(wù)
目前能夠?qū)映^50家實(shí)驗(yàn)室。云南臨床統(tǒng)計(jì)數(shù)據(jù)科學(xué)
GSEA數(shù)據(jù)要求1、通常為表達(dá)譜芯片或測序數(shù)據(jù)(已經(jīng)過預(yù)處理),也可以是其他形式可排序的基因數(shù)據(jù)。2、具有已知生物學(xué)意義(GO、Pathway、**特征基因集等)的基因集。下游分析:得到GSEA結(jié)果之后的分析有:1.基因注釋:1、繪制基因集富集趨勢圖(Enrichmentplot)橫坐標(biāo):按差異表達(dá)差異排序的基因序列。數(shù)值越?。ㄆ蜃蠖耍┑幕?*在shICAM-1組中有越高倍數(shù)的差異表達(dá),數(shù)值越?。ㄆ蛴叶耍┑幕蛟趯φ战M中有越高倍數(shù)的差異表達(dá)??v坐標(biāo):上方的縱坐標(biāo)為富集打分ES,ES是一個(gè)動態(tài)的值,沿著基因序列,找到條目中的基因則增加評分,否則減少評分。通常用偏離0**遠(yuǎn)的值作為**終富集打分。下方的縱坐標(biāo)**基因表達(dá)與表型的關(guān)聯(lián),***值越大**關(guān)聯(lián)越強(qiáng),數(shù)值大于0**正相關(guān),小于0則**負(fù)相關(guān)。 云南臨床統(tǒng)計(jì)數(shù)據(jù)科學(xué)