Dopad RNA-seq analýza dat, algoritmy na genovou expresi odhad a následné predikce

FDA SEQC referenční datové sady

FDA SEQC-benchmark dataset (Gene Expression Omnibus přistoupení číslo GSE47792) zahrnuje spárované-konci RNA-seq dat generovaných pomocí Illumina HiSeq 2000 platformu s číst délka 100 nucleotides7. Použili jsme podmnožinu datové sady seqc-benchmark sekvenované na dvou místech-Pekingský genomický Institut (BGI) a Mayo Clinic (Květen). A, B, C A D), každý se čtyřmi replikovanými knihovnami připravenými na sekvenačních místech. Vzorek obsahuje Univerzální Lidské Referenční RNA (UHRR), vzorek B obsahuje Lidský Mozek Referenční RNA (HBRR), vzorek C obsahuje směs a a B (75% a, 25% B) a vzorku D obsahuje směs a a B (25% a, 75% B). Použili jsme data ze dvou pruhů jedné průtokové buňky pro každou replikaci vzorku. Na SEQC také kvantitativní PCR (qPCR) benchmark dataset, který obsahuje 20,801 geny testovány s PrimePCR (Bio-Rad, Hercules, Kalifornie, usa). Každý gen PrimePCR byl testován jednou pro každý ze čtyř vzorků (tj. Referenční datové sady a vzorky FDA SEQC jsou shrnuty v doplňkových tabulkách S5 a S6.

datové sady neuroblastomu a plicního adenokarcinomu

Použili jsme datovou sadu neuroblastomu se 176 vzorky (podmnožina většího souboru dat se 498 vzorky; označuje se jako seqc-neuroblastom v tomto rukopisu) k posouzení výkonu potrubí RNA – seq z hlediska predikce výsledku onemocnění založené na genové expresi. Tyto vzorky byly poskytnuty Univerzitní dětskou nemocnicí v Kolíně nad Rýnem a sekvenovány v BGI pomocí platformy Illumina 48. Všech 176 byly odebrány vzorky od pacientů s vysokým rizikem, které byly definovány jako ty, buď s etapa 4 neuroblastom a věk > 18 měsíců nebo s MYCN-zesílený nádory jakékoli fázi nebo věku. Datová sada SEQC-neuroblastomu byla uložena do genové exprese Omnibus s přístupovým číslem GSE47792.

předpovídali jsme dva klinické cílové parametry—přežití bez příhod (EFS), to znamená výskyt příhod, jako je pokrok, relaps nebo smrt, a celkové přežití (OS), tj. Pro oba cílové parametry byli pacienti rozděleni do dvou skupin (tj. U vysoce rizikových pacientů došlo k události, nebo zemřel dřív, než předem definované přežití-práh času, zatímco low-rizikových pacientů zažili událost nebo zemřel po prahu, nebo jejich poslední navazující překročil práh. Prahové hodnoty doby přežití pro EFS a OS byly dva a tři roky. Prahové hodnoty byly vybrány tak, aby vyvážily počet vysoce rizikových a nízkorizikových pacientů. Podrobnosti o datovém souboru SEQC-neuroblastomu jsou uvedeny v doplňkové tabulce S9.

použili jsme také 87-vzorek plicní adenokarcinom RNA-seq datovou sadu z úložiště Atlasu nádorového genomu (Tcga). Cílovým parametrem predikce bylo také přežití, a použili jsme stejná kritéria k definování vysoce rizikových a nízkorizikových skupin s prahem doby přežití dva roky. Dvouletá hranice byla zvolena tak, aby vyvážila počet vysoce rizikových a nízkorizikových pacientů. Podrobnosti o datovém souboru TCGA-plic-adenokarcinomu jsou uvedeny v doplňkové tabulce S10.

Filtrování qPCR benchmark dataset k vytvoření referenční sadu genů

Protože variabilita v qPCR měření a neshody mezi qPCR platforms7, jsme filtrovat qPCR benchmark dataset zachovat geny, které vykazovaly „správné“ chování. Tyto geny jsme pak použili k výpočtu metrik benchmarku (tj. přesnost, přesnost, spolehlivost a reprodukovatelnost). Takový filtrační proces je shrnut v doplňkovém obr. S1.

Začínáme s počáteční sadu 20,801 geny testovány s PrimePCR, jsme filtrovat tyto geny, aby zůstala pouze geny, které byly vyčísleny jako non-zero (tj. zjištěné) a Ct (cycle threshold) hodnoty ≤ 35 (35 označuje detekce pouze jedné molekuly ve vzorku). Filtrování PrimePCR údaje za následek 14,014 geny, které také uzavřeno s AceView transcriptome používá pro mapování SEQC-referenční RNA-seq dataset.

Následně jsme filtrovat 14,014 qPCR geny zachovat pouze 12,610 geny, které vykazovaly správné titrace pořadí (K) a očekává, že směšovací poměr (EMR). Podrobnosti o tomto procesu jsou v části“ filtrování genů qPCR podle pořadí titrace a očekávaných mísících poměrů“.

a Konečně, protože některé srovnávací metriky, jako je přesnost a přesnost jsou citlivé na nulové nebo velmi nízké-vyjádření genů, jsme dále vybrané geny, které byly vyjádřeny jako non-nula ve všech opakování všech vzorků všech sekvenování míst a všechny 278 RNA-seq potrubí. Závěrečná referenční sada obsahuje pouze 10,222 qPCR geny (označované jako „všechny geny“), které byly použity pro výpočet všech tří srovnávací metriky pro RNA-seq potrubí.

na základě předchozí studie jsou geny s nižší expresí pravděpodobněji nekonzistentní mezi pipeliny49. Proto jsme také identifikovali sadu nízko exprimujících genů v 10 222 genech na základě průměrné exprese qPCR vzorků A, B, C A D. nejnižší 20% z 10 222 genů (tj. Tento návrh nám umožnil zkoumat schopnost potrubí RNA-seq při odhadu nízko exprimující genové exprese.

Filtrování qPCR geny titrací pořadí a očekává, že směšovací poměr

SEQC-referenční datové sady (RNA-seq a qPCR) mají jedinečné vlastnosti, které umožňují posouzení kvantifikace správnost. Nenulové a Ct ≤ 35) a aceview-matched qPCR geny, použili jsme dvě metriky (TO a EMR) k dalšímu filtrování benchmarkové datové sady qPCR, přičemž zůstaly pouze „správné“ qPCR geny.

$$c= \ frac{3}{4}a+\frac{1}{4}B\, \text{and }\, = \frac{1}{4}a+\frac{3}{4}B.$$

díky této vlastnosti, všechny geny se očekává, že být vyjádřena v jedné z následujících příkazů v závislosti na relativní vyjádření vzorky a a B:

$$\ge C\ge D\ge B \,\text{nebo }\, \Le C\le D\le B.$$

$${\stackrel{-}{q}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}{q}_{s,n,k,}$$

sada qPCR geny, které následují správné titrace cílem je,

Pro jeden replikovat qPCR údajů (např., analyzovaná datová sada PrimePCR), inherentní variabilita jediného měření qPCR může vést k některým falešně negativním genům, které následují správné, ale nelze je identifikovat. Z literature50,51, variační koeficient pro replikaci qPCR měření je obecně 15%, nebo větší, takže jsme použili toto číslo upravit rozpětí pro určení, zda gen sleduje správné. Matematicky jsme vypočítali rozsah plus a mínus jedna směrodatná odchylka od každého měření qPCR a použili jsme ji jako marži. Revidované rovnice pro \({K}_{to}\) jsou následující:

$${K}_{K}={K}_{K\ge B}\cup {K}_{K\le B}$$

, kde \(a=1.15, b=0.85\)

Kromě toho, vzorky by navíc vykazují zvláštní směšovací poměr. Vzhledem k tomu, že poměr mezi vzorky a a B,

$${R}_{A,B}=\frac{A}{B}$$

EMR mezi vzorky C a D je

$$EM{R}_{C,D}=\frac{3z\cdot {R}_{A,B}+1}{z\cdot {R}_{A,B}+3}\cdot \frac{z+3}{3z+1}$$
$${R}_{A,B}\in \left\equiv ,$$
$${R}_{C,D}\in \left\equiv \left,\text{ a}$$
$$EM{R}_{C,D}\in \left\equiv ),$$

a konečně určuje sadu genů, které splňuje EMR kritérium takto:

$${K}_{EMR}=\left\{k|\left({{R}_{C,D}^{Lower}\le {EMR}_{C,D}^{Horní}|}_{{k, R}_{C,D}\ge EM{R}_{C,D}}\right)\vee \left({{R}_{C,D}^{Horní}\ge {EMR}_{C,D}^{Lower}|}_{{k, R}_{C,D}\le EM{R}_{C,D}}\right)\right\}$$

RNA-seq analýza dat potrubí—mapování, kvantifikace, a normalizace

Jsme zkoumali 278 RNA-seq potrubí, která zahrnovala třináct sekvence mapování algorithms18,19,20,21,22,23,24,25,26,27,28,29, tři kategorie vyjádření kvantifikace algorithms31,32,33, a sedm výraz normalizace metod. Doplňkové tabulky S2-S4 shrnují všechny možnosti zvažované pro každou komponentu potrubí (mapování sekvencí ,kvantifikace výrazů a normalizace výrazů). Třináct mapování algoritmy zkoumány jsou Bowtie18, Bowtie219, BWA20, GSNAP21, Magic22 (nové potrubí vyvinut v NCBI pro SEQC projektu: ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic), MapSplice23, Novoalign (komerčně balíček vyvinut Novocraft: https://www.novocraft.com/products/novoalign/), OSA24, RUM25, STAR26, Subread27, TopHat28, a WHAM29. Někteří používají nespojené mapování čtení na transkriptom, a někteří jiní provádějí sestříhané mapování na genom. Magic používá paralelně a porovnává kvalitu každého zarovnání, aby udržel to nejlepší na více cílech. Mapovací algoritmy mohou hlásit pouze jedinečné mapování nebo povolit více mapovacích míst na čtení. Kvantifikační algoritmy zahrnují jednoduché metody založené na počtu (tj. HTSeq31) a pravděpodobnostní metody založené na poissonově distribuci aplikované buď na genomické (tj. The Magic, RUM a Subread (tj., featureCounts52) potrubí zahrnují vestavěné metody kvantifikace, které spadají do kategorie jednoduchých metod založených na počtu. Normalizace metody patří jednoduché škálování metody (tj. fragmentů na milion mapovány fragmenty , fragmenty za kilobase genové délka na milion mapovány fragmenty , medián, horní kvartil), robustní metody škálování (tj. relativní log projevu a zdobené průměr m-hodnoty ), a metody zakotven v konkrétní potrubí (tj. Magie výraz index).

Sekvence mapování

Jsme mapované sekvence pro každý odkaz v postupných krocích pomocí buď osn, nebo sesazované nebo sestříhané mapování algoritmy. Osn-sestříhané mapování se týká algoritmů, které sladit celý číst sekvence (např. Bowtie2, BWA a Novoalign) vzhledem k tomu, sestříhané mapování se týká algoritmů, které rozdělit čte do segmentů tak, aby ubytovat dlouhé mezery nebo intronů ve čtení (např. TopHat a MapSplice). V prvním kroku un-sestříhané mapování, jsme se pokusili zmapovat všechny párové-koncové sekvence na STŘEDISKO/MT/rRNA referenční (tj., Externí RNA řídí Konsorciální sekvence, mitochondriální genom a ribozomální RNA sekvence). Všechny nezmapované dvojice čtení byly poté mapovány na přepis AceView. Nakonec byly všechny čtecí páry, které nebyly mapovány na odkazy ERCC/MT/rRNA nebo AceView, mapovány na odkaz na lidský genom. Transkriptomické mapovací souřadnice byly poté přeloženy do genomických mapovacích souřadnic a sloučeny s výsledky mapování lidského genomu, aby se vytvořily konečné výsledky (Doplňkový obr. S21, levý panel). Jako mapovač jsme použili Bowtie2 pro první krok všech spojovaných mapovacích potrubí (Doplňkový obr. S21, pravý panel). Sestříhané mapování algoritmy, a to buď přímo mapované čte lidského genomu (např. MapSplice a GSNAP) nebo namapované celou osn-sestříhané čte transcriptome a pak sloučeny tyto výsledky mapování s sestříhané mapování výsledky zbývajících čtení lidského genomu (např. Cylindr a OSA). Doplňková tabulka S2 shrnuje všechny mapovací nástroje zkoumané v této studii.

Bowtie2, GSNAP, Novoalign, TopHat a WHAM umožňují kontrolu nad počtem hlášených mapování na pár čtení. Ve výchozím nastavení tyto algoritmy obvykle hlásí jediné nejlepší umístění mapování na pár čtení. Některé kvantifikační algoritmy však mohou použít informace o více nejednoznačných místech mapování ke zlepšení odhadu genové exprese. Kromě hlášení o jednom zásahu jsme tedy vygenerovali také výsledky mapování, které uváděly až 200 zásahů na čtení (multi-hit). Zahrnuli jsme také mapovací potrubí Bowtie s mapovacími parametry specifickými pro kvantifikaci pomocí RSEM, jak je popsáno v následující části33.

možnosti příkazového řádku pro všechny nástroje pro zarovnání sekvencí jsou podrobně popsány v doplňkové poznámce 1.

kvantifikaci Genové exprese

kvantifikace etapa zahrnovala tři kategorie kvantifikátory—počítat-podle kvantifikátory (tj. HTSeq a vestavěný kvantifikátory pro Magii, RUM, a Subread potrubí), pravděpodobnostní model-based kvantifikátory pro genomické mapování (tj., Manžetové knoflíčky) a kvantifikátory založené na pravděpodobnostních modelech pro transkriptomické mapování (tj. Klíčové vlastnosti těchto kvantifikátorů jsou shrnuty v doplňkové tabulce S3. Manžetové knoflíčky je kvantifikátor založený na Poissonově modelu, který odhaduje pravděpodobnosti přiřazení čtení na základě informací o zarovnání32. Je schopen jak sestavit transkripty, tak kvantifikovat genové nebo transkripční výrazy. V této studii, zakázali Jsme funkci sestavení a poskytli soubor GTF anotace genomu jako kvantifikační odkaz. HTSeq je naivní kvantifikátor založený na počtu, který přiřazuje mapované čtení genes31. HTSeq je schopen kvantifikovat genovou expresi, ale ne transkripční expresi. Rsem je také kvantifikátor založený na Poissonově modelu, který má podobný koncept jako Cufflinks33. Informace z multi-hit čtení je důležité jak pro manžetové knoflíčky a RSEM. Tyto algoritmy používají informace o čtení s více zásahy k přesnějšímu odhadu exprese genu nebo transkriptu.

výsledky mapování z vyrovnávacích potrubí nebyly vždy kompatibilní se třemi kategoriemi kvantifikátorů. Manžetové knoflíčky vyžaduje, aby výsledky zarovnání jsou seřazeny podle zarovnání souřadnic a multi-hit čtení jsou označeny značkou ‚ NH ‚ v poli atributu souboru SAM. HTSeq vyžaduje, aby zarovnání výsledky jsou řazeny podle přečíst jména a že ‚NH‘ tag je nepřítomný v SAM souboru. Rsem pouze kvantifikuje transkriptomické mapování, to znamená, že čte mapované a hlášené v transkriptomických souřadnicích. Navíc, RSEM zpracovává pouze un-gapped zarovnání. Filtrování je tedy nutné k odstranění mezer zarovnání. Kvůli těmto požadavkům, před kvantifikací jsme předběžně zpracovali všechny výsledky zarovnání. V souhrnu, dvacet zarovnání potrubí, včetně sestříhané, un-spliced, single-hit, a multi-hit potrubí, byly vhodné pro počítání založené na kvantifikaci. Šestnáct vyrovnávacích potrubí bylo vhodných pro manžetové knoflíčky a pouze deset bylo vhodných pro RSEM. RSEM je speciálně navržen tak, aby dobře fungoval s motýlkem. Tím pádem, Zahrnuli jsme také tento vložený mapovací a kvantifikační potrubí.

možnosti příkazového řádku pro všechny kvantifikační nástroje jsou podrobně popsány v doplňkové poznámce 1.

normalizace genové exprese

normalizace dat RNA-seq umožňuje srovnání mezi vzorky. Obecně normalizační metody korigují velikost knihovny (tj. celkový počet čtení ve vzorku), což je primární zdroj rozptylu mezi vzorky. Zkoumali jsme sedm normalizačních metod-fragmenty na milion mapovaných fragmentů (FPM), fragmenty na kilobázu délky genu na milion mapovaných fragmentů (FPKM), medián (Med.), horní kvartil (UQ), relativní log expression (RLE), oříznutý průměr M-hodnot (TMM) a index výrazu (EIndex, který je specifický pro magický potrubí) (viz doplňková tabulka S4). Každou z těchto normalizačních metod popíšeme na základě následujícího matematického popisu datové sady SEQC-benchmark.

$$\overline{x}_{s, \cdot ,k} = \frac{1}{N}\mathop \sum \limits_{n = 1}^{N} x_{s,n,k}$$

definovali jsme soubor přítomných genů,

a poslední přítomný soubor genů,

$$K_{p} = K_{p,BGI} \cap K_{p,MŮŽE} .$$

použili jsme stejnou sadu přítomných genů pro všechny normalizační metody pro RNA-seq potrubí.

celkový počet přítomných genů v daném vzorku s a replikovat n je

$$x_{s,n} = \mathop \sum \limits_{{k \in K_{p} }} x_{s,n,k} ,$$

a průměrný celkový počet přítomných genů pro všechna data z jedné stránky je

$$\bar{x} = \frac{1}{4}\frac{1}{N}\mathop \sum \limits_{s} \mathop \sum \limits_{{n = 1}}^{N} x_{{s,n}}.$$

Tak jsme definovanými FPM-normalizované exprese pro každý vzorek s, opakování n, a gen k jako

$$y_{s,n,k}^{FPM} = \frac{{x_{s,n,k} \cdot \overline{x}}}{{x_{s,n} }}.$$

Medián a horní kvartil-normalizované exprese pro každý vzorek s, opakování n, a gen k jsou pak definovány jako

$$y_{s,n,k}^{Med} = \frac{{x_{s,n,k} \cdot \tilde{x}}}{{\tilde{x}_{s,n} }}{\text{a }}y_{s,n,k}^{UQ} = \frac{{x_{s,n,k} \cdot \hat{x}}}{{\hat{x}_{s,n} }}.{ }$$

Pro FPKM normalizace, jsme definovali délku genu k jako \(\ell_{k}\), což je délka spojení všech exons související s gen, podle definice AceView transcriptome. Původní formulace FPKM libovolně používala škálovací faktory 1 × 103 pro délku genu a 1 × 106 pro celkový počet mapovaných fragmentů. V zájmu zachování srovnatelné dynamický rozsah mezi všemi normalizace metody, místo toho jsme zmenšen tím, že průměrná délka genu a průměrný celkový počet všech přítomných genů. Průměrná délka všech přítomných genů,

$$\overline{\ell } = \frac{1}{{\left| {K_{p} } \right|}}\mathop \sum \limits_{{k \in K_{p} }} \ell_{k} .$$

to Znamená, schopnosti FPKM-normalizované exprese pro každý vzorek s, opakování n, a gen k je

$$y_{s,n,k}^{FPKM} = \frac{{x_{s,n,k} \cdot \overline{\ell } \cdot \overline{x}}}{{x_{s,n} \cdot \ell_{k} }}.$$

metody normalizace TMM a RLE jsou podobné normalizaci FPM, ale zavádějí další faktor měřítka pro úpravu velikosti knihovny. Použili jsme edgeR balíček v R odhadnout měřítko faktor pro každý vzorek replicate36, 53. TMM metoda vybere referenční knihovny z fondu vzorku replikovat knihovny a pak vypočítá gen-moudrý log výraz poměry (M-hodnoty) a gen-moudrý průměrná log vyjádření hodnoty (hodnot) mezi cílové knihovny a příruční knihovna. Extrémní čísla v M-hodnotách a A-hodnotách jsou oříznuta a faktor měřítka pro cílovou knihovnu je vážený průměr zbývajících m-hodnot. Metoda RLE určuje faktor škálování tím, že nejprve definuje mediánovou knihovnu jako genový geometrický průměr napříč replikacemi vzorku35. Medián poměru každé cílové knihovny ke střední knihovně se považuje za faktor škálování. TMM – a RLE-normalizované exprese pro každý vzorek s, opakování n, a gen k jsou pak definovány jako:

, kde \(\hat{f}_{s,n}^{TMM}\) a \(\hat{f}_{s,n}^{RLE}\) je faktorem měřítka pro vzorek s, replikovat n.

RNA-seq potrubí metriky výkonu

Referenční metriky pro RNA-seq potrubí jsou shrnuty v Doplňující Tabulce S7.

Přesnost vyjádřená jako odchylka od qPCR odkazy

$${\stackrel{-}{y}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}, {y}_{s,n,k}$$

Vzhledem k tomu, vzorky a a B, absolutní log-poměr odchylka RNA-seq-na základě vyjádření z qPCR na základě exprese pro gen k je

$$\Delta_{\frac{A}{B},k} = \left | \log_2\left ( \frac{\bar{x}_{A,.,k}}{\bar{x}_{B,.,k}} \right) – \log_2 \ left (\frac{\bar{q}_{A,.,k}}{\bar{q}_{B,.,k}} \right ) \right |,$$

a konečná přesnost měření byla definována jako medián ze všech \({\Delta }_{{\frac{A}{B},k}}\), \(k = 1 \ldots, K\).

Přesností měří jako změna genové exprese po replikaci knihovny

Jsme vypočítán variační koeficient (CoV) pro každý gen a každý vzorek přes čtyři replikovat knihovny takto:

$$CoV_{s,k} = \frac{{sd\left( {x_{s, \cdot ,k} } \right)}}{{\overline{x}_{s, \cdot ,k} }},$$

Spolehlivost měřeno uvnitř vzorku korelace exprese genů

spolehlivost systému měření mohou být hodnoceny pomocí intraclass korelační koeficient (ICC)54,55. ICC je použitelný pro měření, která mohou být organizována do skupin, a popisuje, jak jsou podobná měření stejné skupiny navzájem. Moderní definice ICC si půjčuje rámec analýzy rozptylu (ANOVA), nebo konkrétněji ANOVA s náhodnými účinky55. Typ ANOVA závisí na experimentálním designu a obecně se řídí definicí v Shroutově článku publikovaném v roce 197955. ICC(1,1) a ICC(1,k) jsou založeny na jednosměrné náhodných efektů v modelu a jsou použitelné pro případ, že každá skupina je hodnocena jiným k hodnotitelé náhodně vybrané z většího počtu hodnotitelů. ICC (2,1) a ICC(2,k) jsou založeny na modelu obousměrných náhodných efektů a jsou použitelné v případě, že náhodný vzorek hodnotitelů k je předem vybrán z větší populace a každý hodnotitel hodnotí každou skupinu přesně jednou (tj., každý hodnotitel hodnotí n skupiny dohromady). ICC(3,1) a ICC(3,k) jsou založeny na dvou-způsob, smíšené efekty modelu a jsou použitelné pro případ, že každá skupina je hodnocena každý stejné k hodnotitelů, kteří jsou pouze hodnotitelů v populaci. Druhý parametr v ICC(,) označuje, zda ICC má měřit spolehlivost jednoho měření nebo průměr měření k.

Pro SEQC benchmark dataset s replikaci knihovny pro každý vzorek, ICC(1,1) nebo ICC(1,k) vybavená naším cílem od, pro gen g, genové exprese replikovat knihovny pro různé vzorky (nebo různé skupiny v předchozím kontextu) nebyly posuzovány podle přesně stejných podmínek (nebo hodnotí stejné hodnotitelů v předchozím kontextu). Rozhodli jsme se použít ICC (1, k)jako replikace knihovny jsou k dispozici pro většinu experimentů. Matematicky, one-way náhodných efektů v modelu může být formulována jako

$$Y_{ij} = \mu + \alpha_{j} +{\varepsilon_{ij}} ,$$
$$ICC\left( {1,k} \right) = \frac{BMS – WMS}{{BMS}},$$

vypočítali Jsme, ICC pro každý gen k, \(k = 1 \ldots, K\), a pak použít medián všech ICCs jako konečné měřítko spolehlivosti.

také Jsme zkoumali další potenciální metriky, jako je reprodukovatelnost, která je definována jako Spearman korelace mezi dvěma replikovat knihovny stejného vzorku (Doplňková Poznámka 2). Oštěpařská korelace se pohybovala od 0.993 až 0,996 (Doplňkový obr. S8) pomocí AllGenes. Metriku reprodukovatelnosti jsme vyřadili z důvodu relativně malého dynamického rozsahu.

vyhodnocení užitečnosti benchmarkových metrik pro výběr potrubí RNA-Seq

zařadili jsme základnu potrubí RNA-seq na průměrné hodnocení tří benchmarkových metrik (tj. přesnost, přesnost a spolehlivost). Pak jsme hodnotili užitečnost srovnávací metriky tím, že zkoumá, zda dobrý-provedení a špatné výsledky v potrubí identifikovat na základě srovnávací metriky byly informativní pro vyvozování výkon gene-expression-based predikci onemocnění výsledek a statistické významnosti stratifikace pacienta za všech klinických parametrech (tj. SEQC-neuroblastom EFS a OS koncové body a TCGA-lung-adenokarcinom přežití endpoint).

za Prvé, za 278 reprezentativní RNA-seq potrubí aplikován na SEQC-benchmark dataset, vypočítáme průměrné pořadí pomocí podmnožinu srovnávací metriky jako poslední ukazatel výkonnosti pro každé potrubí. Celkem jsme měli 6 metriky (3 srovnávací metriky × 2 genové sady ), a zkoumali jsme 12 podskupin (4 × 3) 6 metriky pomocí následujících kritérií:

  1. (1)

    Čtyři kombinace tří srovnávací metriky s alespoň dvě podskupiny—jedna kombinace se všemi třemi srovnávací metriky, tři kombinace se dvěma ze tří srovnávací metriky.

  2. (2)

    tři podmnožiny tvořené metrikami odvozenými ze všech genů, těmi odvozenými z nízko exprimujících genů nebo kombinací obou.

za Druhé, pro každou z 278 reprezentativní RNA-seq potrubí (156 pro TCGA-lung-adenokarcinom přežití endpoint), jsme vypočítali vnořené cross-validace AUC a MCC, jak je popsáno v „Metoda“ sekce „Neuroblastom a adenokarcinom plic prediktivní modelování,“ což v 834 (468 pro TCGA-lung-adenokarcinom přežití endpoint) AUC a MCC hodnoty pro každé klinické koncový bod (tj., 278 potrubí × 3 klasifikátory nebo 156 potrubí × 3 klasifikátory) (doplňkové tabulky S11, S12). Modelovali jsme také funkce přežití pomocí Kaplan-Meierovy analýzy pro každý potrubí, jak je popsáno v části „metoda „“Kaplan-Meierova analýza přežití“. Pro každý RNA-seq potrubí jsme shrnuli výkon predikce výsledku onemocnění založené na genové expresi pomocí průměrné AUC a MCC napříč klasifikátory a úspěšnosti stratifikace pacientů (tj., statisticky významné oddělení dvou Kaplan-Meierových křivek) napříč všemi iteracemi a klasifikátory ve vnořeném křížovém validačním rámci.

nakonec jsme identifikovali top 10% potrubí s dobrým výkonem a dolních 10% potrubí s nízkým výkonem na základě průměrného hodnocení podmnožiny tří metrik benchmarku. Odpovídající Predikční výkon (tj. AUC a MCC) dobrý-provedení potrubí byl testován proti chudým-plnění potrubí pomocí one-sided Wilcoxonův rank-sum test nulové hypotézy, že medián v první skupině nebyl větší než u druhé skupiny.

Neuroblastom a adenokarcinom plic prediktivní modelování

hodnotili Jsme výkon 278 RNA-seq potrubí z hlediska genové exprese na bázi rozhodování pomocí SEQC-neuroblastom dataset48. Datová sada SEQC-neuroblastomu a související klinické cílové parametry jsou shrnuty v doplňkové tabulce S9. Potrubí RNA-seq byly hodnoceny z hlediska predikce výsledků pacientů s neuroblastomem pro dva klinické cílové parametry pomocí vnořené křížové validace (Doplňkový obr. S13) 56,57. Podobně jsme také hodnotili výkon potrubí 156 RNA-seq aplikovaných na datovou sadu tcga-plic-adenokarcinomu k předpovědi výsledku onemocnění. Datová sada TCGA-plic-adenokarcinomu a související klinický cílový parametr jsou shrnuty v doplňkové tabulce S10.

vnořená křížová validace zahrnuje školení a testování optimálního predikčního modelu. Toho je dosaženo pomocí trojnásobné optimalizace nebo vnitřní křížové validace, aplikované na podmnožinu školení z pětinásobné vnější křížové validace. Jakmile konečné optimální predikce parametrů modelu (tj. klasifikátor hyperparameters a velikosti prvku) jsou identifikovány, poslední model je trénován pomocí celé školení podmnožinu, a pak testována pomocí zbývající složit z pětinásobné vnější cross-validace. Tento proces se opakoval po dobu deseti iterací. Provedli jsme vnořenou křížovou validaci samostatně pro každý ze tří klasifikátorů (tj., adaptivní podpora, logistická regrese, support vector machines) a používá minimální redundance maximální relevance (mRMR), funkce výběru metodu zvolit optimální funkce velikostech v rozmezí od 5 do 40 s krokem velikosti 558.

Kaplan–Meierova analýza přežití

Pro každý RNA-seq potrubí a třídění (tj. 278 potrubí × 3 klasifikátory pro SEQC-neuroblastom koncové body a 156 potrubí × 3 klasifikátory pro TCGA-lung-adenokarcinom přežití endpoint), jsme modelovali Kaplan–Meierova funkce přežití na základě předpokládané etikety pro každý vzorek. Poté jsme použili dvouocasý log-rank test k určení, zda odhadované křivky přežití pro každou předpovězenou skupinu pacientů byly statisticky odlišné.

Analýza rozptylu a výpočet příspěvku každého RNA-seq potrubí faktor k celkovému potrubí rozptyl

použili Jsme analýzu rozptylu (ANOVA) k určení, zda každý RNA-seq potrubí faktorem, který významně přispívá k rozptylu každé ze tří srovnávací metriky (tj. správnosti, přesnosti a spolehlivosti), stejně jako rozptyl predikce výkonnosti (tj., hodnoty AUC a MCC). Pro každý ze tří srovnávací metriky, jsme použili model lineární (R funkce „lm“), aby se vešly data ze všech 278 potrubí pomocí metriky, jako závislá proměnná a RNA-seq potrubí faktory jako nezávislé kategorické proměnné. Jsme zvažovali následující faktory jako nezávislé kategorické proměnné—algoritmus mapování, mapování strategie (tj. sestříhané vs osn-sestříhané), mapování zpráv (tj., jeden-hit vs. multi-hit), kvantifikace algoritmus, a normalizace algoritmus. Do lineárního modelu jsme zahrnuli všechny faktory a jejich obousměrné interakce. Pro každý z predikce sledovaných vlastností, použili jsme stejnou techniku, aby se vešly data ze všech 278 potrubí pomocí průměrné hodnoty AUC nebo MCC jako závislá proměnná a stejnou sadu RNA-seq potrubí faktory jako nezávislé kategorické proměnné. Poté jsme provedli ANOVU na lineárním modelu (R funkce „anova“). Rozptyl) přiřazený každému faktoru nebo interakci a používá F-test k určení, zda je rozptyl statisticky významný. Vypočítali jsme procento, že každý faktor nebo interakce přispívá k celkovému rozptylu výpočtem poměru „součet čtverců“ pro každý faktor k celkovému součtu čtverců.

regresní analýza

zkoumali jsme vztah mezi profily zarovnání nebo charakteristikami distribuce genové exprese a metrikami benchmarku. Zarovnání profilů zahrnuty celkový počet mapovaných fragmenty, celkový počet čte zahrnující intronic regionu, celkového počtu čte s inzerce nebo delece, celkový počet dokonale sladěné čte, celkový počet čte s maximálně jedním nesoulad, a počet nesouladu mapovány na číst. Každý algoritmus zarovnání byl reprezentován průměrnou statistikou 2 místa sekvenování, 4 vzorky, 4 replikace knihoven, a 2 pruhy. Pomocí „HMOTY“ balíček v R, jsme přijali M-odhad s Huber vážení přístupem, aby se vešly robustní lineární regresní modely mezi závislou proměnnou (měřítko metrické výkon) a vysvětlující proměnné (zarovnání profilu). M-estimation s Huber váhovým přístupem je regresní metoda, která je robustní v přítomnosti odlehlých hodnot. Genová exprese distribuční charakteristiky zahrnuty dolní kvartil, medián, horní kvartil, maximum, mezikvartilové rozpětí, standardní odchylka, šikmost, špičatost, a entropie je genová exprese distribuce. Použili jsme stejný odhad M s Huber váhovým přístupem, aby se vešly robustní lineární regresní modely, a poté ohlásil zbytkovou standardní chybu pro každý model.

zřeknutí se odpovědnosti

názory uvedené v tomto článku nemusí nutně odrážet současný nebo budoucí názor nebo politiku US Food and Drug Administration. Jakákoli zmínka o komerčních produktech je pro objasnění a není určena jako potvrzení.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *