湖北算法還原與開發(fā)數(shù)據(jù)科學(xué)共同合作

來源: 發(fā)布時間:2021-05-03

    PPImodule蛋白質(zhì)互作蛋白質(zhì)-蛋白質(zhì)相互作用(protein-proteininteraction,PPI)是指兩個或兩個以上的蛋白質(zhì)分子通過非共價鍵形成蛋白質(zhì)復(fù)合體(proteincomplex)的過程。PPImodule是指共表達(dá)蛋白模塊或蛋白質(zhì)相互作用模塊。蛋白質(zhì)相互作用形成人體復(fù)雜的蛋白質(zhì)相互作用網(wǎng)絡(luò),對蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊從而幫助我們理解細(xì)胞的功能。我們一般使用PPImodule把基因列表跟蛋白相互作用網(wǎng)絡(luò)聯(lián)系起來。例如RNA-seq獲得的差異表達(dá)基因,看他們在蛋白相互作用網(wǎng)絡(luò)中,哪些基因處于同一module?;驹恚旱鞍踪|(zhì)在細(xì)胞中的功能取決于它與其他蛋白質(zhì)、核酸和小分子相互作用關(guān)系,對蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊,各個蛋白模塊發(fā)揮不同的功能,我們將基因列表重疊于模塊上,查找基因列表所在的功能模塊,從而發(fā)現(xiàn)基因列表中的基因可能發(fā)揮的細(xì)胞功能。我們通過PPI數(shù)據(jù)庫找到共表達(dá)蛋白中的module,然后從模塊中篩選出基因列表的產(chǎn)物蛋白,篩選出的結(jié)果就是基因列表***表達(dá)的PPImodule。 云生物數(shù)據(jù)分析需要多久?湖北算法還原與開發(fā)數(shù)據(jù)科學(xué)共同合作

    術(shù)語解釋:互斥性(mutuallyexclusive):一組基因中只有一個在一種**中發(fā)生改變,這種現(xiàn)象被稱為互斥性。共現(xiàn)性(co-occurrence):不同途徑功能的基因突變可能發(fā)生在同一**中,這種現(xiàn)象被稱為共現(xiàn)性。數(shù)據(jù)要求:基因突變數(shù)據(jù)下游分析:對于存在共現(xiàn)性或互斥性的基因?qū)?基因集基因集的功能分析基因集相關(guān)的生存分析基于基因集的潛在靶向藥物分析文獻(xiàn)一:Functionalgenomiclandscapeofacutemyeloidleukaemia急性髓性白血病的功能基因組圖(于2018年10月發(fā)表在Nature.,影響因子)文獻(xiàn)中使用DISCOVER40方法評估531例白血病患者中**常見的復(fù)發(fā)性突變的共現(xiàn)性或排他性,并用點(diǎn)圖展示。文獻(xiàn)二:ALPK1hotspotmutationasadriverofhumanspiradenomaandspiradenocarcinoma文獻(xiàn)中利用DISCOVER共現(xiàn)性質(zhì)和互斥性分析工具對ALPK1和CYLD的互斥性進(jìn)行了評價。 遼寧組學(xué)實(shí)驗(yàn)數(shù)據(jù)科學(xué)生存曲線分隔,在展示基因表達(dá)水平對生存期的影響時找到分組。

sankey

?;鶊D(sankey)是一種數(shù)據(jù)流圖,每條邊**一條數(shù)據(jù)流,寬度**數(shù)據(jù)流的大小。一套數(shù)據(jù)集可能有多重屬性,每層屬性之間有交叉,就可以用這種圖來展示。一般應(yīng)用場景:分組與基因?yàn)槎鄬Χ嚓P(guān)系,展示高頻突變基因所處的分組;miRNA和靶基因的關(guān)系;人群按性別、年齡、家族史等特征分組,展示不同分組得**的規(guī)律。


數(shù)據(jù)要求:

多個分組及其關(guān)系,包括且不限于基因表達(dá)、突變。


下游分析:

1.   補(bǔ)充展示部分的已有相關(guān)研究

2.   解釋展示部分對研究課題的意義

    STEM基因表達(dá)趨勢分析基因調(diào)控網(wǎng)絡(luò)是一個連續(xù)且復(fù)雜的動態(tài)系統(tǒng)。當(dāng)生物體按照一定順序發(fā)生變化或者受到外界環(huán)境刺激(如受到不同濃度的化學(xué)藥物誘導(dǎo))時,基因表達(dá)變化也會呈現(xiàn)趨勢特征。趨勢分析就是發(fā)現(xiàn)基因表達(dá)的趨勢特征,將相同變化特征的基因集中在一種變化趨勢中,從而找到實(shí)驗(yàn)變化過程中相當(dāng)有有代表性的基因群。STEM(ShortTime-seriesExpressionMiner),中文名短時間序列表達(dá)挖掘器。該軟件主要用于分析短時間實(shí)驗(yàn)數(shù)據(jù),也可用于多組小樣本數(shù)據(jù)。推薦3至8組數(shù)據(jù)。一般可應(yīng)用的研究方向有:多個時間點(diǎn)的時間序列數(shù)據(jù),例如多個發(fā)育時期、處理后多個時間點(diǎn)取樣。基本原理STEM采用了一種新的聚類算法來分析時間序列基因表達(dá)趨勢。聚類算法首先選擇一組不同的、有代表性的時間表達(dá)模式(temporalexpressionprofiles)作為模型(modelprofiles)。模型是**于數(shù)據(jù)選擇的,并從理論上保證了所選擇的模型剖面具有代表性。然后,根據(jù)每個標(biāo)準(zhǔn)化過后的基因表達(dá)模式,分配給模型中相關(guān)系數(shù)比較高的時間表達(dá)模式。由于模型的選擇是**于數(shù)據(jù)的,因此該算法可以通過排列測試,確定哪些時間表達(dá)模式在統(tǒng)計意義上***富集基因。對每一個基因都分配時間表達(dá)模式完成后。 胰腺疾病預(yù)后相關(guān)長鏈非編碼RNA。

    **初目的:對手上的**樣本(或病人)進(jìn)行分型分析,期望找到不同的亞型,并對應(yīng)不同的臨床特征。可擴(kuò)展應(yīng)用到:所有樣本的亞型分析,用于樣本的特征分析。數(shù)據(jù)可用轉(zhuǎn)錄組、基因組、甲基化、蛋白質(zhì)組等。輸入數(shù)據(jù)格式:一個數(shù)值矩陣,行是基因或者其他特征,列是樣本。本分析要求樣本數(shù)要多,有利于亞型的分析。參考文獻(xiàn):(2)::本文利用室管膜瘤病人的甲基化數(shù)據(jù),首先進(jìn)行了tSNE分型,隨后又采用了新的方法spectralclustering進(jìn)行分類分析,作者比較了兩種分類方法。使用spectralclustering的分類,鑒定了每一種**亞型的特異性表達(dá)模式。并且發(fā)現(xiàn)spectralclustering的分類和病人的臨床特征有關(guān),從而提出一種新的室管膜瘤亞型,可用于臨床的篩選和檢測。 自有服務(wù)器機(jī)房,可隨時調(diào)用各計算平臺算力,且團(tuán)隊成員有多年科研經(jīng)歷。湖北診療軟件開發(fā)數(shù)據(jù)科學(xué)經(jīng)驗(yàn)豐富

構(gòu)建新的臨床預(yù)測模型。湖北算法還原與開發(fā)數(shù)據(jù)科學(xué)共同合作

Inmmune gene

免疫學(xué)研究是目前科研領(lǐng)域爭相研究的熱點(diǎn),**免疫細(xì)胞浸潤是其中一種。**免疫細(xì)胞浸潤是指免疫細(xì)胞從血液中移向**組織發(fā)揮作用。我們從**組織中分離出浸潤免疫細(xì)胞含量,計算基因與浸潤免疫細(xì)胞含量的相關(guān)性,篩選出影響免疫浸潤的候選基因。

基本原理:

從基因矩陣數(shù)據(jù)中提取免疫細(xì)胞含量,生成免疫細(xì)胞含量矩陣;

計算目標(biāo)基因與浸潤免疫細(xì)胞含量的相關(guān)性,篩選與浸潤免疫細(xì)胞含量高度相關(guān)的基因。

術(shù)語解讀:

相關(guān)性系數(shù)(pearson,spearman, kendall)反應(yīng)兩個變量之間變化趨勢的方向以及程度。相關(guān)系數(shù)范圍為-1到+1。0表示兩個變量不相關(guān),正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),值越大表示相關(guān)性越強(qiáng)。

數(shù)據(jù)要求:

**數(shù)據(jù)表達(dá)矩陣 湖北算法還原與開發(fā)數(shù)據(jù)科學(xué)共同合作