Impact of RNA-seq data analysealgoritmer on gene expression estimation and downstream prediction

FDA SEQC benchmark datasett

FDA SEQC-benchmark datasett (Gene Expression Omnibus accession number GSE47792) inkluderer sammenkoblede-end RNA-seq data generert ved Hjelp Av Illumina HiSeq 2000-plattformen med leselengden på 100 nukleotider7. Vi brukte EN delmengde AV SEQC-benchmark datasettet sekvensert på To steder—Beijing Genomics Institute (BGI) og Mayo Clinic (MAI). Vi brukte fire prøver (Dvs. A, B, C og D), hver med fire replikatbiblioteker utarbeidet på sekvenseringsstedene. Prøve a inneholder UNIVERSAL Human Reference RNA (UHRR), prøve B inneholder Human Brain Reference RNA (HBRR), prøve C inneholder en blanding Av A Og B (75% A og 25% B), og prøve D inneholder en blanding Av A Og B (25% a og 75% B). Vi brukte data fra to baner av en enkelt strømningscelle for hver prøve replikere. SEQC ga også et kvantitativt PCR (qPCR) benchmark datasett som inkluderer 20,801 gener analysert Med PrimePCR (Bio-Rad, Hercules, California). Hvert PrimePCR-gen ble analysert en gang for hver av de fire prøvene (Dvs. A, B, C og D). FDA SEQC benchmark datasett og prøver er oppsummert I Supplerende Tabeller S5 Og S6.

Neuroblastom og lungeadenokarsinom datasett

Vi brukte et 176-prøve neuroblastom datasett (en undergruppe av et større 498-prøve datasett; referert TIL SOM SEQC-neuroblastom i dette manuskriptet) for å vurdere ytelsen TIL RNA-seq-rørledninger når det gjelder genuttrykksbasert prediksjon av sykdomsutfall. Disse prøvene ble levert Av University Children ‘ S Hospital Of Cologne og sekvensert PÅ BGI ved Hjelp Av Illumina platform48. Alle 176 prøver ble tatt fra høyrisikopasienter som ble definert som enten med stadium 4 neuroblastom og alder > 18 måneder eller MED MYCN-forsterkede svulster av alle stadier eller alder. SEQC-neuroblastom datasettet ble avsatt Til Genuttrykket Omnibus med tiltredelsesnummer GSE47792.Vi spådde to kliniske endepunkter-hendelsesfri overlevelse (EFS), det vil si forekomsten av hendelser som fremgang, tilbakefall eller død, og total overlevelse (OS), det vil si død. For begge endepunktene ble pasientene delt inn i to grupper (dvs. høy risiko versus lav risiko). Høyrisikopasienter opplevde en hendelse eller døde før en forhåndsdefinert overlevelsestidsterskel, mens lavrisikopasienter opplevde en hendelse eller døde etter terskelen, eller deres siste oppfølging oversteg terskelen. Overlevelsestidstersklene FOR EFS og OS var henholdsvis to og tre år. Terskelene ble valgt for å balansere antall høyrisiko-og lavrisikopasienter. Detaljer OM SEQC-neuroblastom datasettet er gitt I Supplerende Tabell S9.

Vi brukte også et 87-prøve lungeadenokarsinom RNA-seq datasett fra Cancer Genome Atlas (Tcga) depotet. Prediksjonsendepunktet var også overlevelse, og vi brukte de samme kriteriene for å definere høyrisiko-og lavrisikogrupper med overlevelsestidsterskelen på to år. Toårsgrensen ble valgt for å balansere antall høyrisiko-og lavrisikopasienter. Detaljer OM datasettet TCGA-lunge-adenokarsinom er gitt I Supplerende Tabell S10.

Filtrering av qpcr-referansedatasettet for å produsere et referansesett av gener

På grunn av variabilitet i qpcr-målinger Og uenigheter mellom qPCR-plattformer7, filtrerte vi qPCR-referansedatasettet for å beholde gener som viste «riktig» oppførsel. Vi brukte deretter disse genene til å beregne referanseverdiene (dvs. nøyaktighet, presisjon, pålitelighet og reproduserbarhet). Slike filtreringsprosessen er oppsummert I Supplerende Fig. S1.

Fra og med det første settet med 20.801 gener analysert Med PrimePCR, filtrerte vi disse genene for å beholde bare gener som ble kvantifisert som ikke-null (dvs. oppdaget) og Med Ct (syklusgrense) verdier ≤ 35 (35 indikerer deteksjon av bare et enkelt molekyl i en prøve). Filtrering PrimePCR data resulterte i 14,014 gener som også matchet Med AceView transkriptome brukes for å kartlegge SEQC-benchmark RNA-seq datasett.Deretter filtrerte vi de 14.014 qpcr-genene for å beholde bare 12.610 gener som viste riktig titreringsordre (TIL) og forventede blandingsforhold (EPJ). Detaljer om denne prosessen er i avsnittet» Filtrering av qpcr-gener ved titreringsordre og forventede blandingsforhold».Til Slutt, Siden noen referansemålinger som nøyaktighet og presisjon er følsomme for null – eller svært lavuttrykkende gener, valgte vi videre gener som ble uttrykt som ikke-null i alle replikater av alle prøver av alle sekvenseringssteder og alle 278 RNA-seq rørledninger. Det endelige referansesettet inneholder bare 10 222 qpcr-gener (referert til som «alle gener») som ble brukt til å beregne alle tre referansemålinger for rna-seq-rørledninger.

Basert på den forrige studien er gener med lavere uttrykk mer sannsynlig å være inkonsekvente blant rørledninger49. Dermed identifiserte vi også et sett med lavuttrykkende gener i de 10 222 genene basert på gjennomsnittlig qpcr-uttrykk for prøver A, B, C og D. de laveste 20% av de 10 222 genene (dvs. 2044 gener, referert til som «lavuttrykkende gener») ble også brukt til å beregne det samme settet med referansemålinger for rna-seq-rørledninger. Denne utformingen gjorde det mulig for OSS å undersøke evnen TIL RNA-seq-rørledninger ved å estimere lavuttrykkende genuttrykk.

Filtrering av qpcr-gener ved titreringsordre og forventede blandingsforhold

SEQC-benchmark-datasettene (RNA-seq og qPCR) har unike egenskaper som muliggjør vurdering av kvantifiseringskorrekthet. Etter å ha identifisert detekterbare (dvs. ikke-null og Ct ≤ 35) og AceView-matchede qPCR-gener, brukte vi to beregninger (TO og EPJ) for ytterligere å filtrere referanseverdien qPCR datasett, slik at bare «riktige» qPCR-gener. Til-og EPJ-beregningene fanger opp unike blandingsegenskaper av dataene, det vil si

$ $ C= \frac{3}{4}a + \frac{1}{4}b\, \ text{and }\, = \frac{1}{4}a + \frac{3}{4}B.$$

på grunn av denne egenskapen forventes alle gener å bli uttrykt i en av følgende ordrer, avhengig av det relative uttrykket av prøver A og B:

$$a\ge C\ge D\Ge B\, \text{or}\, a\le C\le D\le B.$$
$${\stackrel{-}{q}}_{s,\cdot, k}=\frac{1}{N}\sum_{n=1}^{n}{q}_{s ,n,k,}$$

settet Av Qpcr-Gener som følger riktig titreringsordre er

for et Enkelt Replikere qpcr datasett (f. eks., PrimePCR datasettet vi analyserte), kan den iboende variabiliteten av en enkelt qpcr-måling resultere i noen falske negative gener som følger riktig til, men ikke identifiseres. Fra litteraturen50,51 er variasjonskoeffisienten for replikat qpcr-målinger generelt 15% eller større, så vi brukte dette tallet til å justere marginen for å bestemme om et gen følger riktig til. Matematisk beregnet vi rekkevidden av pluss og minus en standardavvik fra hver qpcr-måling og brukte den som margin. De reviderte ligningene for \({k}_{to}\) er som følger:

$${K}_{TO}={K}_{TO,a\ge b}\cup {k}_{TO,a\le B,}$$

hvor \(a=1.15, b=0.85\)

i Tillegg til, prøver bør i tillegg vise et bestemt blandingsforhold. Gitt at forholdet Mellom prøver A og B er

$${r}_{a,B}=\frac{A}{B}$$

EPJ mellom prøver C og D er

$$EM{R}_{C,D}=\frac{3z\cdot {R}_{A,B}+1}{z\cdot {R}_{a,b}}+3}\cdot \Frac{z+3} {3z+1}$$
$${r}_{a,b}\i \venstre\equiv ,$$
$${R}_{c,D}\i \venstre\equiv \venstre,\Tekst{ Og}$$
$$em{r}_{C,d}\i \left\equiv), $$

Og Til slutt Bestemmer et sett med gener som tilfredsstiller epj-kriteriet som følger:

$${K}_{EMR}=\venstre\{k|\venstre({{R}_{C,D}^{Nedre}\le {EMR}_{C,D}^{Øvre}|}_{{k, R}_{C,D}\ge EM{R}_{C,D}\høyre)\vee \venstre({{R}_{C,D}^{Øvre}\ge {EMR}_{C,D}\Høyre)\vee\venstre ({{R}_{C, D}^{Øvre}\ge{EMR}_{C,D}} ^ {lower}|}_{{k,r} _ {c, D} \ LE EM {r} _ {c, d} \ right) \ Right\}$$

Rna-Seq Data Analysis Pipelines—kartlegging, kvantifisering Og normalisering

vi undersøkte 278 RNA-SEQ RØRLEDNINGER SOM inkluderte tretten sekvenskartleggingsalgoritmer18,19,20,21,22,23,24,25,26,27,28,29, tre kategorier av uttrykk kvantifiseringsalgoritmer31, 32, 33 og syv uttrykk normalisering metoder. Supplerende Tabeller S2-S4 oppsummere alle alternativene vurderes for hver rørledning komponent(sekvenstilordning, uttrykk kvantifisering, og uttrykk normalisering). De tretten kartleggingsalgoritmene som er undersøkt Er Bowtie18, Bowtie219, BWA20, GSNAP21, Magic22 (en ny rørledning utviklet av NCBI for seqc-prosjektet: ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic), MapSplice23, Novoalign (en kommersialisert pakke utviklet Av Novocraft: https://www.novocraft.com/products/novoalign/), OSA24, RUM25, STAR26, Subread27, TOPHAT28 og WHAM29. Noen bruker un-spleiset kartlegging av leser til transkriptomet, og noen andre utfører spleiset kartlegging til genomet. Magic bruker både parallelt og sammenligner kvaliteten på hver justering for å holde det beste på tvers av flere mål. Kartleggingsalgoritmer kan bare rapportere unik kartlegging, eller tillate flere kartleggingssteder per lesning. Kvantifiseringsalgoritmer inkluderer enkle tellebaserte metoder (Dvs. HTSeq31) Og Poisson-distribusjonsbaserte probabilistiske metoder som brukes på enten genomiske (Dvs. Cufflinks32) eller transkriptomiske kartleggingsdata (DVS.RSEM33). Den Magiske, ROM og Subread (dvs., featureCounts52) rørledninger inkluderer innebygde kvantifiseringsmetoder som faller inn i kategorien enkle tellebaserte metoder. Normaliseringsmetoder inkluderer enkle skaleringsmetoder (dvs. fragmenter per million kartlagte fragmenter, fragmenter per kilobase av gnlengde per million kartlagte fragmenter , median og øvre kvartil), robuste skaleringsmetoder (dvs.relativ logguttrykk og trimmet gjennomsnitt av m-verdier) og metoder innebygd i bestemte rørledninger (Dvs. Magic expression index).

Sequence mapping

vi kartlagt sekvenser til hver referanse i påfølgende trinn ved hjelp av enten un-skjøtes eller skjøtes kartlegging algoritmer. Un-spleised mapping refererer til algoritmer som justerer hele lesesekvenser (For Eksempel Bowtie2, Bwa Og Novoalign) mens spleised mapping refererer til algoritmer som deler leser i segmenter for å imøtekomme lange hull eller introner i en lese (For Eksempel TopHat og MapSplice). I det første trinnet med un-spleiset kartlegging forsøkte vi å kartlegge alle sammenkoblede sekvenser TIL ercc/MT / rRNA referansen (dvs ., Eksterne RNA Styrer Konsortium-sekvenser, mitokondrielt genom og ribosomale RNA-sekvenser). Alle umappede lesepar ble deretter kartlagt Til AceView-transkriptomet. Til slutt ble alle lesepar som ikke kartlagt TIL ENTEN ERCC/MT/rRNA eller AceView referanser kartlagt til human genome reference. Transkriptomiske kartleggingskoordinater ble deretter oversatt til genomiske kartleggingskoordinater og fusjonert med de menneskelige genomkartleggingsresultatene for å produsere de endelige resultatene (Supplerende Fig. S21, venstre panel). Vi brukte Bowtie2 som mapper for det første trinnet i alle skjøtede kartrørledninger (Supplerende Fig. S21, høyre panel). Mapsplice og GSNAP) eller kartlagt hele un-spleiset leser til transkriptomet og deretter fusjonerte disse kartleggingsresultatene med spleisede kartleggingsresultater av de gjenværende lesene til det menneskelige genomet (F.eks. TopHat og OSA). Supplerende Tabell S2 oppsummerer alle kartleggingsverktøy undersøkt i denne studien.

Bowtie2, Gsnap, Novoalign, Tophat og WHAM tillater kontroll over antall rapporterte tilordninger per lesepar. Som standard rapporterer disse algoritmene vanligvis et enkelt beste kartleggingssted per lesepar. Noen kvantifiseringsalgoritmer kan imidlertid bruke informasjon om flere tvetydige kartleggingssteder for å forbedre estimeringen av genuttrykk. I tillegg til single-hit-rapportering genererte vi derfor også kartleggingsresultater som rapporterte opptil 200 treff per lese (multi-hit). Vi inkluderte Også Bowtie mapping pipeline med kartleggingsparametere som er spesifikke for kvantifisering MED RSEM, som beskrevet i følgende avsnitt33.

Kommandolinjevalg for alle sekvensjusteringsverktøy er beskrevet I Tilleggsnotat 1.

kvantifisering Av Genuttrykk

kvantifiseringsfasen inkluderte tre kategorier av kvantifisatorer-tellebaserte kvantifisatorer—Dvs. HTSeq og innebygde kvantifisatorer For Magic -, RUM-og Subread-rørledningene), sannsynlighetsmodellbaserte kvantifisatorer for genomisk kartlegging( dvs ., Mansjettknapper), og sannsynlighetsmodellbaserte kvantifiseringer for transkriptomisk kartlegging (DVS.RSEM). De viktigste egenskapene til disse kvantifiseringene er oppsummert I Supplerende Tabell S3. Mansjettknapper er En Poisson-modellbasert kvantifier som estimerer lese tildelingssannsynligheter basert på justeringsinformasjonen32. Det er i stand til både å samle transkripsjoner og kvantifisere gen-eller transkriptuttrykk. I denne studien deaktiverte vi monteringsfunksjonen og ga genomannotasjonen GTF-filen som en kvantifiseringsreferanse. HTSeq er en naï tellebasert kvantifier som tilordner kartlagt leser til genes31. HTSeq kan kvantifisere genuttrykk, men ikke transkriptuttrykk. RSEM er ogsa En Poisson-modellbasert kvantifier som er lik I konsept Til Cufflinks33. Informasjon fra multi-hit leser er viktig for Både Mansjettknapper og RSEM. Disse algoritmene bruker multi-hit lese informasjon for å mer nøyaktig estimere gen eller transkript uttrykk.

Kartleggingsresultater fra justeringsrørledninger var ikke alltid kompatible med de tre kategoriene av kvantifiserere. Mansjettknapper krever at justeringsresultatene er sortert etter justeringskoordinater og multi-hit leser er merket med ‘ NH ‘ tag i attributtfeltet I SAM-filen. HTSeq krever at justeringsresultatene sorteres etter lesenavn og AT ‘ NH ‘ – taggen er fraværende i SAM-filen. RSEM kvantifiserer bare transkriptomisk kartlegging, det vil si leser kartlagt og rapportert i transkriptomiske koordinater. VIDERE HÅNDTERER RSEM bare un-gapped justeringer. Dermed er filtrering nødvendig for å fjerne gapped justeringer. På grunn av disse kravene forhåndsbehandlet vi alle justeringsresultater før kvantifisering. I sammendraget, tjue justering rørledninger, inkludert skjøtes, un-skjøtes, single-hit, og multi-hit rørledninger, var egnet for tellebasert kvantifisering. Seksten justeringsrørledninger var egnet For Mansjettknapper, og bare ti var egnet FOR RSEM. RSEM er spesielt designet for å fungere godt med Bowtie. Dermed inkluderte vi også denne innebygde kartleggings-og kvantifiseringsrørledningen.

Kommandolinjevalg for alle kvantifiseringsverktøy er beskrevet I Tilleggsnotat 1.

Genuttrykk normalisering

RNA-seq data normalisering muliggjør inter-sample sammenligning. Vanligvis normaliseringsmetoder riktig bibliotekstørrelse (dvs. det totale antall leser i en prøve), som er den primære kilden til inter-sample varians. Vi undersøkte syv normaliseringsmetoder-fragmenter per million kartlagte fragmenter (FPM), fragmenter per kilobase av gnlengde per million kartlagte fragmenter (fpkm), median (Med.), øvre kvartil (UQ), relativ logguttrykk (RLE), trimmet gjennomsnitt Av M-verdier (TMM) og uttrykksindeks (EIndex, som er spesifikk For Magic pipeline) (se Supplerende Tabell S4). Vi beskriver hver av disse normaliseringsmetodene basert på følgende matematiske beskrivelse AV SEQC-benchmark datasettet.

$$\overline{x}_{s, \cdot ,k} = \frac{1}{N}\mathop \sum \limits_{n = 1}^{N} x_{s,n,k}$$

vi definerte settet av nåværende gener til å være

og det endelige nåværende gensettet er

$$K_{p} = k_{p,bgi} \cap k_{p,mai} .$ $

Vi brukte det samme settet av nåværende gens for alle normaliseringsmetoder for EN RNA-seq-rørledning.

det totale antallet av nåværende gener for en gitt prøve s og replikere n er

$$x_{s,n} = \mathop \sum \limits_{{k \In k_{p} }} x_{s,n,k} ,$$

og gjennomsnittlig totalt antall nåværende gener for alle data fra et enkelt nettsted er

$$\bar{x} = \frac{1}{4}\frac{1}{n}\mathop \sum \limits_{s} \mathop \sum \limits_{{n = 1}}^{n} x_{{s,n}}.dermed definerte VI FPM-normalisert uttrykk for hver prøve s, replikere n og gen k som

$$y_{s, n, k}^{FPM} = \frac{{x_{s,n,k} \cdot \overline{x}}}{{x_{s,n} }}.$$

Median – og øvre kvartil-normalisert uttrykk for hver prøve s, replikere n og gen k defineres deretter som

$$y_{s, n,k}^{med} = \frac{{x_{s,n,k} \cdot \tilde{x}}}{{\tilde{x}_{s,n} }}{\text{og }}y_{s,n,k} dette er en av de beste måtene å gjøre det på.{ } $$

FOR FPKM-normalisering definerte vi lengden på et gen k som \(\ell_{k}\), som er lengden på foreningen av alle eksoner relatert til genet som definert Av AceView-transkriptomet. Den opprinnelige formuleringen AV FPKM brukte vilkårlig skaleringsfaktorer på 1 × 103 for gellengden og 1 × 106 for totalt antall kartlagte fragmenter. For å opprettholde sammenlignbart dynamisk område blant alle normaliseringsmetoder, skaleres vi i stedet av gjennomsnittlig gellengde og gjennomsnittlig totalantall for alle nåværende gener. Den gjennomsnittlige lengden på alle nåværende gener er

$$ \ overline {\ell } = \frac{1}{{\left / {K_ {p} } \ right/}} \ mathop \ sum \ limits_{{k \ in k_{p} }} \ ell_{k}.$$

således rescaled FPKM-normalisert uttrykk for hver prøve s, replikere n, og gen k er

$$y_{s, n,k}^{fpkm} = \frac{{x_{s,n,k} \cdot \overline{\ell}} {{x_{s,n} \cdot \ell_{k}}} {{x_ {s,n} \cdot \ell_ {k}}}.$$

TMM-og rle-normaliseringsmetodene ligner PÅ fpm-normaliseringen, men introduserer en ekstra skaleringsfaktor for å justere bibliotekstørrelsen. Vi brukte edgeR-pakken I R for å estimere en skaleringsfaktor for hver prøvereplikate36, 53. TMM-metoden velger et referansebibliotek fra et utvalg av eksempelreplikatbiblioteker og beregner deretter gene-wise log expression ratio (m-verdier) og gene-wise gjennomsnittlig log expression verdier (A-verdier) mellom målbiblioteket og referansebiblioteket. Ekstreme tall i M-verdier og a-verdier er trimmet, og skaleringsfaktoren for målbiblioteket er det veide gjennomsnittet av gjenværende m-verdier. RLE-metoden bestemmer en skaleringsfaktor ved først å definere medianbiblioteket som det genvise geometriske gjennomsnittet på tvers av prøvereplikater35. Medianforholdet mellom hvert målbibliotek og medianbiblioteket tas som skaleringsfaktor. TMM-og rle-normalisert uttrykk for hver prøve s, replikere n og gen k blir deretter definert som:

hvor \(\hat{f}_{s,n}^{TMM}\) og \(\hat{f} _ {s, n}^{RLE}\) er skaleringsfaktoren for prøve s, replikere n.

rna-seq pipeline performance metrics

Benchmark metrics FOR RNA-seq pipelines er oppsummert I Supplerende Tabell S7.

Nøyaktighet målt som avvik fra qpcr referanser

$${\stackrel{-}{y}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}{y}_{s,n,k}$$

Gitt prøver A og B, det absolutte log-ratio avviket AV RNA-seq-basert uttrykk fra qPCR-basert uttrykk for et gen k Er

$$\delta_{\frac{a}{b},k} = \left | \log_2\left ( \frac{\bar{x}_{A,.,k}}{\bar{x}_{B,., k}} \høyre ) – \log_2 \ venstre (\frac {\bar{q}_{A,.,k}}{\bar{q}_{B,., k}} \høyre ) \høyre|, $$

og den endelige nøyaktighetsmålingen ble definert som medianen for alle \ ({\Delta } _{{\frac{A}{B}, k}}\), \(k = 1 \ldots K\).

Presisjon målt som variasjon av genuttrykk på tvers av replikatbiblioteker

vi beregnet variasjonskoeffisienten (CoV) for hvert gen og hver prøve på tvers av fire replikatbiblioteker som følger:

$$CoV_{s,k} = \frac{{sd\left( {x_{s, \cdot ,k} } \right)}}{{\overline{x}_{s, \cdot ,k} }},$$

Pålitelighet målt som intra-sample korrelasjon av genuttrykk

påliteligheten til et målesystem kan vurderes av intraclass korrelasjonskoeffisienten (ICC)54,55. ICC gjelder for målinger som kan organiseres i grupper, og det beskriver hvordan lignende målinger av samme gruppe er til hverandre. Moderne ICC-definisjon låner rammen for variansanalyse (ANOVA), eller MER spesifikt ANOVA med tilfeldige effekter55. TYPEN ANOVA avhenger av eksperimentell design og følger generelt definisjonen I Shrouts artikkel publisert i 197955. ICC(1,1) OG ICC (1, k) er basert på enveis tilfeldig effektmodell og gjelder for saken at hver gruppe vurderes av et annet sett med k raters tilfeldig valgt fra en større populasjon av raters. ICC(2,1) OG ICC(2,k) er basert på toveis random effects-modellen og gjelder i tilfelle at et tilfeldig utvalg av k-ratere er forhåndsvalgt fra en større populasjon, og hver rater vurderer hver gruppe nøyaktig en gang (dvs ., hver rater vurderer n grupper helt). ICC(3,1) OG ICC (3, k) er basert på toveis mixed effects-modellen og gjelder i tilfelle at hver gruppe vurderes av hver av de samme k-raterne, som er de eneste raterne i befolkningen. Den andre parameteren i ICC(,) angir OM ICC skal måle påliteligheten til en enkelt måling eller gjennomsnittet av k-målinger.

FOR SEQC benchmark datasett med replikere biblioteker for hver prøve, ICC(1,1) ELLER ICC(1,k) tilpasset vårt mål siden, for et gen g, genuttrykk av replikere biblioteker for forskjellige prøver (eller forskjellige grupper i forrige sammenheng) ble ikke vurdert under nøyaktig samme forhold (eller vurdert av de samme raters i forrige sammenheng). VI valgte Å bruke ICC(1, k) som replikere biblioteker er tilgjengelige for de fleste eksperimenter. Matematisk kan en enveis tilfeldig effektmodell formuleres som$$Y_{ij} = \mu + \alpha_{j} +{\varepsilon_{ij}}, $$

$$ICC\left( {1,k} \right) = \frac{BMS-WMS}{{BMS}},$$

div vi beregnet icc for hvert gen k, \(k = 1 \ldots k\), og brukte Deretter Medianen av alle iccs som det endelige målet for pålitelighet.

Vi har også undersøkt andre potensielle beregninger, for eksempel reproduserbarhet, som er definert som Spearman-korrelasjonen mellom to replikerte biblioteker av samme utvalg (Tilleggsnotat 2). Spearman-korrelasjonen varierte fra 0.993 til 0,996 (Supplerende Fig. S8) bruke AllGenes. Vi forkastet reproduserbarhetsmålingen på grunn av det relativt små dynamiske området.

Evaluering av nytten av benchmark metrics for rna-Seq pipeline selection

vi rangerte RNA-seq pipelines base på gjennomsnittlig rangering av de tre benchmark metrics(dvs. nøyaktighet, presisjon og pålitelighet). Vi evaluerte deretter nytten av referanseverdiene ved å undersøke om rørledninger med god ytelse og dårlig ytelse identifisert basert på referanseverdiene var informative for å utlede ytelsen til genuttrykksbasert prediksjon av sykdomsutfall og statistisk signifikans av pasientstratifisering for alle kliniske endepunkter (dvs.SEQC-neuroblastom EFS og OS endepunkter og tcga-lunge-adenokarsinom overlevelse endepunkt).For det første, for de 278 representative rna-seq-rørledningene som ble brukt PÅ SEQC-benchmark datasettet, beregnet vi gjennomsnittlig rangering ved å bruke en delmengde av referansemålingene som den endelige ytelsesindikatoren for hver rørledning. Totalt hadde vi 6 beregninger (3 referansemålinger × 2 gensett ), og vi undersøkte 12 undergrupper (4 × 3) av de 6 beregningene ved hjelp av følgende kriterier:

  1. (1)

    Fire kombinasjoner av de tre referansemålinger med minst to i et delsett—en kombinasjon med alle tre referansemålinger, tre kombinasjoner med to av de tre referansemålinger.

  2. (2)

    Tre undergrupper dannet av beregninger avledet fra alle gener, de som stammer fra lavuttrykkende gener, eller en kombinasjon av begge.

For det Andre, for hver AV de 278 representative rna-seq-rørledningene (156 for overlevelsesendepunktet tcga-lunge-adenokarsinom), beregnet vi nestet kryssvaliderings-AUC OG MCC, som beskrevet i Avsnittet «Metode» «Prediktiv modellering Av Nevroblastom og lungeadenokarsinom», noe som resulterte i 834 (468 FOR overlevelsesendepunktet tcga-lunge-adenokarsinom) AUC-og MCC-verdier for hvert klinisk endepunkt (dvs ., 278 rørledninger × 3 klassifikatorer, eller 156 rørledninger × 3 klassifikatorer) (Supplerende Tabeller S11, S12). Vi modellerte også overlevelsesfunksjoner ved Hjelp Av Kaplan-meier-analyse for hver rørledning, som beskrevet i» Metode «–delen «Kaplan-Meier overlevelsesanalyse». For hver rna-seq-rørledning oppsummerte vi resultatene av genuttrykksbasert prediksjon av sykdomsresultat ved bruk av både gjennomsnittlig AUC og MCC på tvers av klassifiserere og suksessraten for pasientstratifisering (dvs. statistisk signifikant separasjon av To Kaplan-meier-kurver) på tvers av alle iterasjoner og klassifiserere i det nestede kryssvalideringsrammeverket.

til slutt identifiserte vi de beste 10% god ytelse rørledninger og bunnen 10% dårlig ytelse rørledninger basert på gjennomsnittlig rangering av en undergruppe av de tre benchmark beregninger. Tilsvarende prediksjonsprestasjon (dvs., AUC OG MCC) av rørledningene med god ytelse ble testet mot rørledningene med dårlig ytelse ved hjelp Av den ensidige Wilcoxon rank-sum-testen med nullhypotesen om at medianen i den tidligere gruppen ikke var større enn den sistnevnte gruppen.

neuroblastom og lungeadenokarsinom prediktiv modellering

vi vurderte ytelsen til 278 RNA-seq-rørledninger når det gjelder genuttrykksbasert beslutningstaking ved HJELP AV SEQC-neuroblastom dataset48. DATASETTET SEQC-neuroblastom og tilhørende kliniske endepunkter er oppsummert I Supplerende Tabell S9. Rna-seq-rørledningene ble evaluert med tanke på å forutsi pasientresultater for neuroblastom for to kliniske endepunkter ved bruk av nestet kryssvalidering (Supplerende Fig. S13) 56,57. Vi vurderte også ytelsen til 156 rna-seq rørledninger påført tcga-lunge-adenokarsinom datasettet for å forutsi sykdomsutfall. Datasettet TCGA-lunge-adenokarsinom og det tilknyttede kliniske endepunktet er oppsummert I Supplementstabell S10.

Nestet kryssvalidering innebærer opplæring og testing av en optimal prediksjonsmodell. Dette oppnås ved hjelp av tredobbelt optimalisering eller indre kryssvalidering, anvendt på treningsdelen fra den femfoldige ytre kryssvalidering. Når de endelige optimale prediksjonsmodellparametrene (dvs. klassifikatorhyperparametrene og funksjonsstørrelsen) er identifisert, blir den endelige modellen trent ved hjelp av hele treningsdelen, og deretter testet ved hjelp av den gjenværende brettet fra den femfoldige ytre kryssvalideringen. Denne prosessen ble gjentatt i ti iterasjoner. Vi gjennomførte nestet kryssvalidering separat for hver av de tre klassifiseringene (dvs., adaptive boosting, logistisk regresjon og støtte vektormaskiner) og brukte minimum redundans, maksimal relevans (mRMR) funksjonsvalgsmetode for å velge optimale funksjonsstørrelser fra innenfor området 5 til 40 med trinnstørrelsen på 558.

Kaplan-Meier overlevelsesanalyse

for hver rna-seq rørledning og klassifikator (dvs. 278 rørledninger × 3 klassifikatorer FOR SEQC-neuroblastom endepunkter og 156 rørledninger × 3 klassifikatorer FOR TCGA-lunge-adenokarsinom overlevelsesendepunkt), modellerte Vi Kaplan–meier overlevelsesfunksjoner basert på de forventede etikettene til hver prøve. Vi brukte deretter to-tailed log-rank test for å avgjøre om estimerte overlevelseskurver for hver spådd pasientgruppe var statistisk forskjellige.

Analyse av varians Og beregning av bidraget fra hver rna-seq rørledningsfaktor til den totale rørledningsvariansen

Vi brukte analyse av varians (ANOVA) for å avgjøre om hver RNA-seq rørledningsfaktor betydelig bidrar til variansen av hver av de tre referansemålingene (dvs.nøyaktighet, presisjon og pålitelighet) samt til variansen av prediksjonsytelse (DVS. AUC og MCC). For hver av de tre referansemålingene brukte vi en lineær modell (r-funksjonen «lm») for å passe dataene fra alle 278 rørledninger ved hjelp av metriske som den avhengige variabelen og rna-seq rørledningsfaktorene som uavhengige kategoriske variabler. Vi vurderte følgende faktorer som uavhengige kategoriske variabler-kartleggingsalgoritme—kartleggingsstrategi (dvs. spleiset vs un-spleiset), kartleggingsrapportering (dvs.single-hit vs multi-hit), kvantifiseringsalgoritme og normaliseringsalgoritme. Vi inkluderte alle faktorer og deres toveis interaksjoner i den lineære modellen. For hvert av prediksjonsendepunktene brukte vi samme teknikk for å passe dataene fra alle 278 rørledninger ved hjelp av gjennomsnittlig AUC eller MCC som den avhengige variabelen og det samme settet AV rna-seq rørledningsfaktorer som uavhengige kategoriske variabler. VI gjennomførte DERETTER ANOVA på den lineære modellen (r-funksjonen «anova»). ANOVA beregner en «sum av kvadrater» (dvs. varians) tilskrevet hver faktor eller interaksjon og bruker En F-test for å avgjøre om variansen er statistisk signifikant. Vi beregnet prosent at hver faktor eller interaksjon bidrar til den totale variansen ved å beregne forholdet mellom «sum av kvadrater» for hver faktor til den totale summen av kvadrater.

Regresjonsanalyse

vi undersøkte forholdet mellom justeringsprofiler eller genuttrykksfordelingsegenskaper og referansemålinger. Justeringsprofilene inkluderte totalt antall kartlagte fragmenter, totalt antall leser som spenner over intronisk region, totalt antall leser med innsettinger eller slettinger, totalt antall perfekt tilpassede leser, totalt antall leser med maksimalt en mismatch og antall feilmatcher per kartlagt lesing. Hver justeringsalgoritme ble representert av gjennomsnittlig statistikk over 2 sekvenseringssteder, 4 prøver, 4 replikere biblioteker og 2 baner. Ved å bruke» MASSE » – pakken I R, vedtok Vi m-estimeringen Med Huber vekting tilnærming for å passe robuste lineære regresjonsmodeller mellom en avhengig variabel (benchmark metrisk ytelse) og en forklarende variabel (en justeringsprofil). M-estimeringen Med Huber vekting tilnærming er en regresjonsmetode som er robust i nærvær av outliers. Genuttrykksfordelingsegenskapene inkluderte nedre kvartil, median, øvre kvartil, maksimum, interkvartil rekkevidde, standardavvik, skjevhet, kurtose og entropi av en genuttrykksfordeling. Vi brukte samme m-estimering med Huber vekting tilnærming for å passe robuste lineære regresjonsmodeller, og rapporterte deretter reststandardfeilen for hver modell.

Ansvarsfraskrivelse

synspunktene som presenteres i denne artikkelen gjenspeiler ikke nødvendigvis nåværende eller fremtidig mening eller politikk FRA Us Food And Drug Administration. Enhver omtale av kommersielle produkter er for avklaring og ikke ment som en påtegning.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *