Effekt af RNA-sekv-dataanalysealgoritmer på genekspressionsestimering og nedstrøms forudsigelse

FDA sekvc-benchmark datasæt

FDA SEKVC-benchmark datasæt (genekspression omnibus tiltrædelsesnummer GSE47792) inkluderer parrede RNA-sekv-data genereret ved hjælp af Illumina 2000-platformen med læselængden på 100 nukleotider7. Vi brugte en delmængde af det SEKVC-benchmark datasæt sekventeret på to steder—Beijing Genomics Institute (BGI) og Mayo Clinic (maj). Vi brugte fire prøver (dvs. A, B, C og D), hver med fire replikatbiblioteker udarbejdet på sekventeringsstederne. Prøve A indeholder Universal Human Reference RNA (UHRR), prøve B indeholder human Brain Reference RNA (HBRR), prøve C indeholder en blanding af A og B (75% A og 25% B), og prøve D indeholder en blanding af A og B (25% A og 75% B). Vi brugte data fra to baner af en enkelt strømningscelle for hver prøveopgave. Der er også et kvantitativt PCR-benchmarkdatasæt, der omfatter 20.801 gener analyseret med PrimePCR (Bio-Rad, Hercules, Californien). Hvert PrimePCR-gen blev analyseret en gang for hver af de fire prøver (dvs.A, B, C og D). Benchmark datasæt og prøver er opsummeret i supplerende tabeller S5 og S6.

neuroblastom og lunge adenocarcinom datasæt

Vi brugte et 176-prøve neuroblastom datasæt (en delmængde af et større 498-prøve datasæt; i dette manuskript) at vurdere ydeevnen af RNA-sekv-rørledninger med hensyn til genekspressionsbaseret forudsigelse af sygdomsresultat. Disse prøver blev leveret af University Children ‘ s Hospital of Cologne og sekventeret på BGI ved hjælp af Illumina platform48. Alle 176 prøver blev taget fra højrisikopatienter, der blev defineret som dem enten med trin 4 neuroblastom og alder > 18 måneder eller med MYCN-forstærkede tumorer i ethvert trin eller alder. Neuroblastom datasættet blev deponeret til genekspression Omnibus med tiltrædelsesnummer GSE47792.

vi forudsagde to kliniske endepunkter—hændelsesfri overlevelse (EFS), det vil sige forekomsten af begivenheder som fremskridt, tilbagefald eller død og samlet overlevelse (os), det vil sige død. For begge endepunkter blev patienterne opdelt i to grupper (dvs.høje risici versus lave risici). Højrisikopatienter oplevede en hændelse eller døde før en foruddefineret overlevelsestidstærskel, mens lavrisikopatienter oplevede en hændelse eller døde efter tærsklen, eller deres sidste opfølgning oversteg tærsklen. Overlevelsestidstærsklerne for EFS og OS var henholdsvis to og tre år. Tærsklerne blev valgt for at afbalancere antallet af højrisiko-og lavrisikopatienter. Oplysninger om datasættet for neuroblastom findes i supplerende tabel S9.

Vi brugte også en 87-prøve lunge adenocarcinom RNA-sekv datasæt fra Cancer Genome Atlas (TCGA) repository. Forudsigelsesendepunktet var også overlevelse, og vi brugte de samme kriterier til at definere højrisiko-og lavrisikogrupper med overlevelsestidstærsklen på to år. Den toårige tærskel blev valgt for at afbalancere antallet af højrisiko-og lavrisikopatienter. Nærmere oplysninger om tcga-lung-adenocarcinoma datasættet findes i supplerende tabel S10.

filtrering af benchmark-datasættet for at producere et referencesæt af gener

på grund af variabilitet i målinger af benchmark-platforme7 filtrerede vi benchmark-datasættet for at bevare gener, der udviste “korrekt” adfærd. Vi brugte derefter disse gener til at beregne benchmark-metrics (dvs.nøjagtighed, præcision, pålidelighed og reproducerbarhed). En sådan filtreringsprocessen er opsummeret i supplerende Fig. S1.

startende med det oprindelige sæt af 20.801 gener analyseret med PrimePCR, filtrerede vi disse gener for kun at bevare gener, der blev kvantificeret som ikke-nul (dvs.detekteret) og med Ct (cyklustærskel) værdier, der er 35 (35 indikerer påvisning af kun et enkelt molekyle i en prøve). Filtrering af PrimePCR-data resulterede i 14.014 gener, der også matchede med AC-Vis-transkriptomet, der blev brugt til kortlægning af det SEKV-benchmark RNA-sekv-datasæt.

derefter filtrerede vi de 14.014 kpcr-gener for kun at beholde 12.610 gener, der udviste den korrekte titreringsrækkefølge (til) og forventede blandingsforhold (EMR). Detaljer om denne proces findes i afsnittet” filtrering af kpcr-gener efter titreringsrækkefølge og forventede blandingsforhold”.endelig, da nogle benchmarkmålinger såsom nøjagtighed og præcision er følsomme over for nul – eller meget lav-ekspressive gener, valgte vi yderligere gener, der blev udtrykt som ikke-nul i alle replikater af alle prøver af alle sekventeringssteder og alle 278 RNA-sekv-rørledninger. Det endelige referencesæt indeholder kun 10.222 kpcr-gener (kaldet “alle gener”), der blev brugt til at beregne alle tre benchmarkmålinger for RNA-sekv-rørledninger.

baseret på den tidligere undersøgelse er generne med lavere ekspression mere tilbøjelige til at være inkonsekvente blandt rørledninger49. Således identificerede vi også et sæt lavekspressive gener i de 10.222 gener baseret på den gennemsnitlige kpcr-ekspression af prøver A, B, C og D. De laveste 20% af de 10.222 gener (dvs.2044 gener, kaldet “lavekspressive gener”) blev også brugt til at beregne det samme sæt benchmark-målinger for RNA-sekv-rørledninger. Dette design gjorde det muligt for os at undersøge muligheden for RNA-sekv-rørledninger til estimering af genekspression med lav ekspression.

filtrering af kpcr-gener efter titreringsrækkefølge og forventede blandingsforhold

SEKC-benchmark-datasættene (RNA-sekv og kpcr) har unikke egenskaber, der muliggør vurdering af kvantificeringsrigtighed. Efter at have identificeret detekterbare (dvs.ikke-nul-og Ct-Karr 35) og ikke-nul-og Ct-matchede kpcr-gener, brugte vi to målinger (til og EMR) til yderligere at filtrere benchmark-kpcr-datasættet, hvilket kun efterlod “korrekte” kpcr-gener. Til-og EMR-metrics fanger unikke blandingsegenskaber for dataene, det vil sige

$ $ C= \frac{3}{4}A + \frac{1}{4}B\, \tekst{og}\, = \frac{1}{4}A + \frac{3}{4}B.$$

på grund af denne egenskab forventes alle gener at blive udtrykt i en af følgende ordrer afhængigt af den relative ekspression af prøver A og B:

$$a\ge C\ge D\ge B\, \tekst{eller}\, A\le C\le D\le B.$$

$${\stackrel{-}{k}}_{s,\cdot, k}=\frac{1}{n}\sum_{n=1}^{n}{k}_{s, n ,k,}$$

sættet af kpcr-gener,der følger den korrekte titreringsrækkefølge, er

for et enkelt replikat kpcr-datasæt (f. eks., det PrimePCR-datasæt, vi analyserede), kan den iboende variabilitet af en enkelt kpcr-måling resultere i nogle falske negative gener, der følger det korrekte til, men ikke identificeres. Fra litteraturen50, 51 er variationskoefficienten for replikerede kpcr-målinger generelt 15% eller større, så vi brugte dette tal til at justere margenen til bestemmelse af, om et gen følger det korrekte til. Matematisk beregnet vi intervallet plus og minus en standardafvigelse fra hver kpcr-måling og brugte den som margen. De reviderede ligninger for ${K}_{til}$ er som følger:

$ $ {K}_{to}={K} _ {to, a \ ge B} \ cup {K}_{to, a\le B,}$$

hvor $a=1,15, b=0,85$

udover til skal prøver desuden udvise et specifikt blandingsforhold. I betragtning af at forholdet mellem prøver A og B er

$${R}_{A,B}=\frac{A}{b}$$

EMR mellem prøver C og D er

$$EM{R}_{C,D}=\frac{3\cdot {R}_{A,B}+1} {\cdot {R}_{A,B}+3}\cdot \frac{å+3}{3%+1}$$

$${r}_{a,b}\i \venstre\ækvivalent ,$$

$${R}_{C,D}\i \venstre\ækvivalent \venstre,\tekst{ og}$$

$$em{R}_{C,D}\i \venstre\ækvivalent), $$

og endelig bestemmer et sæt gener, der opfylder EMR-kriteriet som følger:

$${K}_{EMR}=\left\{k|\left({{R}_{C,D}^{Left}\le {EMR}_{C,D}^{Upper}|}_{{k, R}_{C,D}\GE EM{R}_{C,D}}\Vee\left({{R}_{C,D}^{Upper} \ge {EMR}_{C,D}}^{lavere}|}_{{K, R}_{C,D}\le em{R}_{C,D}}\Højre)\Højre\}$$

RNA-sek Dataanalyserørledninger—kortlægning, kvantificering og normalisering

Vi undersøgte 278 RNA-SEKV-rørledninger, der omfattede tretten sekvenskortlægningsalgoritmer18,19,20,21,22,23,24,25,26,27,28,29, tre kategorier af udtryk kvantificering algoritmer31, 32, 33og syv udtryk normalisering metoder. Supplerende tabeller S2-S4 opsummerer alle muligheder, der overvejes for hver pipeline-komponent (sekvenskortlægning, ekspressionskvantificering og ekspressionsnormalisering). De tretten kortlægningsalgoritmer, der er undersøgt, er Buetie18, Buetie219, BVA20, GSNAP21, Magic22 (en ny pipeline udviklet af NCBI til projektet: ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic), MapSplice23, Novoalign (en kommercialiseret pakke udviklet af Novocraft: https://www.novocraft.com/products/novoalign/), OSA24, RUM25, STAR26, Subread27, TopHat28 og HVAM29. Nogle bruger un-splejset kortlægning af læser til transkriptomet, og nogle andre udfører splejset kortlægning til genomet. Magic bruger både parallelt og sammenligner kvaliteten af hver justering for at holde det bedste på tværs af flere mål. Kortlægningsalgoritmer rapporterer muligvis kun unik kortlægning eller giver mulighed for flere kortlægningsplaceringer pr. Kvantificeringsalgoritmer inkluderer enkle tællebaserede metoder (dvs.Htsekv31) og Poisson distributionsbaserede probabilistiske metoder anvendt på enten genomisk (dvs. manchetknapper 32) eller transkriptomiske kortlægningsdata (dvs. RSEM33). Magien, Rom, og Subread (dvs., featureCounts52) rørledninger inkluderer indlejrede kvantificeringsmetoder, der falder ind under kategorien enkle tællebaserede metoder. Normaliseringsmetoder inkluderer enkle skaleringsmetoder (dvs.fragmenter pr. million kortlagte fragmenter , fragmenter pr. kilobase af genlængde pr. million kortlagte fragmenter , median og øvre kvartil), robuste skaleringsmetoder (dvs. relativ logekspression og trimmet gennemsnit af m-værdier) og metoder indlejret i specifikke rørledninger (dvs. magisk ekspressionsindeks).

Sekvenskortlægning

Vi kortlagde sekvenser til hver reference i successive trin ved hjælp af enten ikke-splejsede eller splejsede kortlægningsalgoritmer. Un-splejset kortlægning henviser til algoritmer, der justerer hele læsesekvenser (f.eks. Bovtie2, BVAOG Novoalign), mens splejset kortlægning henviser til algoritmer, der opdeler læsninger i segmenter for at rumme lange huller eller introner i en læsning (f. eks. TopHat og MapSplice). I det første trin af un-splejset kortlægning forsøgte vi at kortlægge alle parrede slutsekvenser til ERCC/MT / rRNA-referencen (dvs., Kontrollerer eksternt RNA Konsortiesekvenser, mitokondriegenomet og ribosomale RNA-sekvenser). Alle ikke-kortlagte læsepar blev derefter kortlagt til Transskriptomet. Endelig blev alle læsepar, der ikke kortlagde til enten ERCC/MT/rRNA eller Acevisreferencer, kortlagt til den humane genomreference. Transkriptomiske kortlægningskoordinater blev derefter oversat til genomiske kortlægningskoordinater og fusioneret med de humane genomkortlægningsresultater for at producere de endelige resultater (supplerende Fig. S21, venstre panel). Vi brugte Bovtie2 som mapper til det første trin i alle splejsede kortlægningsrørledninger (supplerende Fig. S21, højre panel). Splejsede kortlægningsalgoritmer enten direkte kortlagt læser til det humane genom (f.eks. MapSplice og GSNAP) eller kortlagt hele ikke-splejsede læser til transkriptomet og fusionerede derefter disse kortlægningsresultater med splejsede kortlægningsresultater af de resterende læser til det humane genom (f. eks. TopHat og OSA). Supplerende tabel S2 opsummerer alle kortlægningsværktøjer undersøgt i denne undersøgelse.2, Gsnap, Novoalign, TopHat og hvad tillader kontrol over antallet af rapporterede kortlægninger pr. Som standard rapporterer disse algoritmer typisk en enkelt bedste kortlægningsplacering pr. Imidlertid kan nogle kvantificeringsalgoritmer bruge information om flere tvetydige kortlægningssteder for at forbedre genekspressionsestimering. Ud over rapportering med et enkelt hit genererede vi således også kortlægningsresultater, der rapporterede op til 200 hits pr. Vi inkluderede også Butterfly mapping pipeline med kortlægningsparametre, der er specifikke for kvantificering med RSEM, som beskrevet i det følgende afsnit33.

kommandolinjeindstillinger for alle sekvensjusteringsværktøjer er beskrevet i supplerende Note 1.

kvantificering af genekspression

kvantificeringsfasen omfattede tre kategorier af kvantificatorer-tællebaserede kvantificatorer (dvs., Manchetknapper) og sandsynlighedsmodelbaserede kvantificatorer til transkriptomisk kortlægning (dvs.RSEM). Nøglekarakteristika for disse kvantificatorer er opsummeret i supplerende tabel S3. Manchetknapper er en Poisson modelbaseret kvantificeringsmaskine, der estimerer læsetildelingssandsynligheder baseret på justeringsinformationen32. Det er i stand til både at samle transkripter og kvantificere gen-eller transkriptionsudtryk. I denne undersøgelse deaktiverede vi samlingsfunktionen og leverede genom-annotationen GTF-fil som en kvantificeringsreference. Htsek er en na-baseret kvantificator baseret på antallet af mennesker, der tildeler kortlagte læsninger til genes31. Htsek er i stand til at kvantificere genekspression, men ikke transkriptekspression. RSEM er også en Poisson modelbaseret kvantifier, der ligner konceptet til Cufflinks33. Information fra multi-hit læser er vigtig for både manchetknapper og RSEM. Disse algoritmer bruger multi-hit læseinformation til mere præcist at estimere gen-eller transkriptionsekspression.

Kortlægningsresultater fra justeringsrørledninger var ikke altid kompatible med de tre kategorier af kvantifikatorer. Manchetknapper kræver, at justeringsresultater sorteres efter justeringskoordinater, og multi-hit-læsninger er markeret med ‘NH’ – mærket i attributfeltet i SAM-filen. Htsek kræver, at justeringsresultaterne sorteres efter læste navne, og at ‘NH’ – tagget er fraværende i SAM-filen. RSEM kvantificerer kun transkriptomisk kortlægning, dvs. læser kortlagt og rapporteret i transkriptomiske koordinater. Desuden håndterer RSEM kun un-gapped justeringer. Således kræves filtrering for at fjerne gapped alignments. På grund af disse krav forbehandlede vi alle justeringsresultater inden kvantificering. Sammenfattende var tyve justeringsrørledninger, herunder splejsede, ikke-splejsede, single-hit og multi-hit rørledninger, egnede til tællebaseret kvantificering. Seksten justeringsrørledninger var egnede til manchetknapper, og kun ti var egnede til RSEM. RSEM er specielt designet til at fungere godt med Butterfly. Således inkluderede vi også denne indlejrede kortlægnings-og kvantificeringsrørledning.

kommandolinjeindstillinger for alle kvantificeringsværktøjer er beskrevet i supplerende Note 1.

normalisering af genekspression

normalisering af RNA-sek-data muliggør sammenligning mellem prøver. Generelt korrigerer normaliseringsmetoder bibliotekets størrelse (dvs.det samlede antal læsninger i en prøve), som er den primære kilde til varians mellem prøver. Vi undersøgte syv normaliseringsmetoder—fragmenter pr.million kortlagte fragmenter (FPM), fragmenter pr. kilobase af genlængde pr. million kortlagte fragmenter (fpkm), median (med.relativ logudtryk (RLE), trimmet gennemsnit af M-værdier (TMM) og ekspressionsindeks (Eindeks, som er specifik for Magic pipeline) (se supplerende tabel S4). Vi beskriver hver af disse normaliseringsmetoder baseret på følgende matematiske beskrivelse af datasættet.

$$\overline{s}_{s, \cdot ,k} = \frac{1}{N}\mathop \sum \limits_{n = 1}^{N} H_{s,n,k}$$

vi definerede sættet af nuværende gener til at være

og det endelige nuværende gensæt er

$$K_{p} = k_{p,BGI} \Cap k_{p,may} .$$

Vi brugte det samme sæt nuværende gens til alle normaliseringsmetoder for en RNA-sek-rørledning.

det samlede antal nuværende gener for en given prøve s og replikere n er

$${s,n} = \mathop \sum \limits_{{k \in K_{p}}} {S,n,k} ,$$

og det gennemsnitlige samlede antal nuværende gener for alle data fra et enkelt sted er

$$\bar {\frac{1} {4}\frac{1} {n}\mathop \sum \limits_{s} \mathop \sum \limits_{{n = 1}}^{n} H_{{s,n}}.$$

således definerede vi FPM-normaliseret ekspression for hver prøve s, replikere n og gen k som

$$y_{s, n, k}^{FPM} = \frac{{s,n,k} \cdot \overline {}}} {{s,n} }}.$$

median – og øvre kvartil-normaliseret ekspression for hver prøve s, replikere n og gen k defineres derefter som

$$y_{s, n,k}^{med} = \frac{{s,n,k} \cdot \tilde {}}} {{\tilde {s,n}}} {\tekst{og}} y_ {s,n,k}^det er en af de mest populære måder at gøre det på.{ } $$

for fpkm-normalisering definerede vi længden af et gen k som $\ell_{k}$, som er længden af foreningen af alle eksoner relateret til genet som defineret af Acevis transkriptom. Den oprindelige formulering af FPKM anvendte vilkårligt skaleringsfaktorer på 1 liter 103 for genlængden og 1 liter 106 for det samlede antal kortlagte fragmenter. For at opretholde sammenligneligt dynamisk interval blandt alle normaliseringsmetoder skaleres vi i stedet af den gennemsnitlige genlængde og det gennemsnitlige samlede antal for alle nuværende gener. Den gennemsnitlige længde af alle nuværende gener er

$$\overline{\ell } = \frac{1}{{\left| {K_{p} } \right|}}\mathop \sum \limits_{{k \in K_{p} }} \ell_{k} .$$

således reskaleret fpkm-normaliseret ekspression for hver prøve s, replikere n og gen k er

$$y_{s, n, k}^{FPKM} = \frac{{s,n,k} \cdot \overline {\ell } \cdot \overline {{S,n} \cdot \ell_ {k}}} {{{S,N} \ cdot \ ell_ {k }}.$ $

TMM-og RLE-normaliseringsmetoderne ligner FPM-normaliseringen, men introducerer en yderligere skaleringsfaktor for at justere bibliotekets størrelse. Vi brugte edgeR-pakken i R til at estimere en skaleringsfaktor for hver prøve replicate36,53. TMM-metoden vælger et referencebibliotek fra en pulje af eksempler på replikatbiblioteker og beregner derefter genvise logekspressionsforhold (M-værdier) og genvise gennemsnitlige logekspressionsværdier (a-værdier) mellem målbiblioteket og referencebiblioteket. Ekstreme tal I M-værdier og A-værdier trimmes, og skaleringsfaktoren for målbiblioteket er det vægtede gennemsnit af de resterende M-værdier. RLE-metoden bestemmer en skaleringsfaktor ved først at definere medianbiblioteket som det genvise geometriske gennemsnit på tværs af prøvereplikater35. Medianforholdet for hvert målbibliotek til medianbiblioteket tages som skaleringsfaktor. TMM-og RLE-normaliseret ekspression for hver prøve s, replikere n og gen k defineres derefter som:

hvor $\hat{f}_{s, n}^{TMM}$ og $\hat{f}_{s,n}^{RLE}$ er skaleringsfaktoren for prøve s, replikere n.

RNA-sek pipeline performance metrics

Benchmark metrics for RNA-sek rørledninger er opsummeret i supplerende tabel S7.

nøjagtighed målt som afvigelse fra kpcr-referencer

$${\stackrel {-} {y}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}{y}_{s,n,k}$$

givne prøver A og B, den absolutte log-ratio afvigelse af RNA-sekv-baseret udtryk fra KPCR-baseret udtryk for et gen K er

$$\delta_{\frac{a}{b},k} = \Left | \log_2\left ( \frac{\bar{h}_{a,.,k}} {\bar {K}_{B,., k}} \højre) – \log_2 \ venstre (\frac {\bar{s}_{a,.,k}} {\bar{S}_{B,., k}} \right ) \right/, $$

og den endelige nøjagtighedsmåling blev defineret som medianen for alle ${\Delta }_{{\frac{A}{B},k}}$, $k = 1 \ldots K$.

præcision målt som variation af genekspression på tværs af replikatbiblioteker

Vi beregnede variationskoefficienten (CoV) for hvert gen og hver prøve på tværs af fire replikatbiblioteker som følger:

$$CoV_{s,k} = \frac{{sd\left( {s, \cdot ,k} } \right)}} {{\overline {K}_{s, \cdot ,k} }},$$

pålidelighed målt som intra-prøve korrelation af genekspression

pålideligheden af et målesystem kan vurderes ved hjælp af intraclass korrelationskoefficienten (ICC)54,55. ICC gælder for målinger, der kan organiseres i grupper, og det beskriver, hvordan lignende målinger af den samme gruppe er til hinanden. Moderne ICC-definition låner rammerne for variansanalyse (ANOVA), eller mere specifikt ANOVA med tilfældige virkninger55. Typen af ANOVA afhænger af det eksperimentelle design og følger generelt definitionen i Shrouts artikel, der blev offentliggjort i 197955. ICC (1,1) og ICC (1, k) er baseret på envejsmodellen for tilfældige effekter og gælder for det tilfælde, at hver gruppe vurderes af et andet sæt k-ratere, der tilfældigt er valgt fra en større population af ratere. ICC (2,1) og ICC (2,k) er baseret på den tovejs tilfældige effektmodel og gælder for det tilfælde, at en tilfældig prøve af k-ratere er forudvalgt fra en større population, og hver rater vurderer hver gruppe nøjagtigt en gang (dvs., hver rater vurderer n grupper helt). ICC (3,1) og ICC (3, k) er baseret på tovejs-modellen med blandede effekter og gælder for det tilfælde, at hver gruppe vurderes af hver af de samme k-ratere, som er de eneste ratere i befolkningen. Den anden parameter i ICC (,) angiver, om ICC skal måle pålideligheden af en enkelt måling eller gennemsnittet af K-målinger.ICC (1,1) eller ICC (1, k) passede vores mål, da genekspression af replikatbiblioteker for forskellige prøver (eller forskellige grupper i den foregående kontekst) for et gen g ikke blev vurderet under nøjagtigt de samme betingelser (eller vurderet af de samme ratere i den foregående kontekst). Vi valgte at bruge ICC(1,k), da replikatbiblioteker er tilgængelige for de fleste eksperimenter. Matematisk kan en envejs tilfældig effektmodel formuleres som

$$Y_{IJ} = \mu + \alpha_{j} +{\varepsilon_{IJ}}, $$

$$ICC\left( {1, k} \right) = \frac{BMS}} {{BMS}},$$

$ $ ICC \left ({1, k} \right) = \ frac {BMS}}, $ $

Vi beregnede ICC for hvert gen K, \ (K = 1 \ ldots k\) og brugte derefter medianen af alle ICC ‘ er som det endelige mål for pålidelighed.

Vi har også undersøgt andre potentielle målinger, såsom Reproducerbarhed, som er defineret som Spearman-korrelationen mellem to replikatbiblioteker af samme prøve (supplerende Note 2). Spearman-korrelationen varierede fra 0.993 til 0,996 (supplerende Fig. S8) ved hjælp af Allgener. Vi kasserede reproducerbarhedsmetrikken på grund af det relativt lille dynamiske område.

evaluering af nytten af benchmark-metrics for RNA-sek rørledningsvalg

Vi rangerede RNA-sek rørledninger baseret på den gennemsnitlige rang af de tre benchmark-metrics (dvs.nøjagtighed, præcision og pålidelighed). Vi evaluerede derefter nytten af benchmark-metrics ved at undersøge, om rørledninger med god ydeevne og dårlig ydeevne identificeret baseret på benchmark-metrics var informative for at udlede ydeevnen af genekspressionsbaseret forudsigelse af sygdomsresultat og statistisk signifikans af patientstratificering for alle kliniske endepunkter (dvs.

for det første beregnede vi for de 278 repræsentative RNA-sekv-rørledninger, der blev anvendt på SEKC-benchmark-datasættet, den gennemsnitlige rang ved hjælp af en delmængde af benchmark-metrics som den endelige præstationsindikator for hver rørledning. I alt havde vi 6 målinger (3 benchmark—målinger, der var lig med 2-gensæt), og vi undersøgte 12 delmængder (4, 3) af de 6 metrics ved hjælp af følgende kriterier:

(1)
fire kombinationer af de tre benchmark-metrics med mindst to i en delmængde-en kombination med alle tre benchmark-metrics, tre kombinationer med to ud af de tre benchmark-metrics.
(2)
tre undergrupper dannet af målinger afledt af alle gener, dem, der stammer fra gener med lav ekspression, eller en kombination af begge.

for det andet beregnede vi for hver af de 278 repræsentative RNA-sekv-rørledninger (156 for tcga-lung-adenocarcinoma survival endpoint) indlejret krydsvalidering AUC og MCC, som beskrevet i afsnittet “metode” “neuroblastom og lung adenocarcinoma predictive modeling”, hvilket resulterede i 834 (468 for tcga-lung-adenocarcinoma survival endpoint) AUC og MCC-værdier for hvert klinisk endepunkt (dvs., 278 rørledninger, 3 klassifikatorer, eller 156 rørledninger, 3 klassifikatorer) (supplerende tabeller S11,S12). Vi modellerede også overlevelsesfunktioner ved hjælp af Kaplan–Meier–analyse for hver rørledning, som beskrevet i afsnittet “metode” “Kaplan-Meier overlevelsesanalyse”. For hver RNA-sekv-rørledning opsummerede vi præstationen af genekspressionsbaseret forudsigelse af sygdomsresultat ved hjælp af både den gennemsnitlige AUC og MCC på tværs af klassifikatorer og succesraten for patientstratificering (dvs., statistisk signifikant adskillelse af to Kaplan–Meier-kurver) på tværs af alle iterationer og klassifikatorer i den indlejrede krydsvalideringsramme.

endelig identificerede vi de øverste 10% gode rørledninger og de nederste 10% dårlige rørledninger baseret på den gennemsnitlige rang af en delmængde af de tre benchmarkmålinger. Den tilsvarende forudsigelsesydelse (dvs. Rank-sum test med nulhypotesen om, at medianen for den tidligere gruppe ikke var større end den for sidstnævnte gruppe.

neuroblastom og lungeadenocarcinom forudsigelig modellering

vi vurderede ydeevnen af 278 RNA-sekv-rørledninger med hensyn til genekspressionsbaseret beslutningstagning ved hjælp af SEKC-neuroblastom dataset48. Datasættet for neuroblastom og tilhørende kliniske endepunkter er opsummeret i supplerende tabel S9. RNA-sekv-rørledningerne blev evalueret med hensyn til forudsigelse af neuroblastompatientresultater for to kliniske endepunkter ved anvendelse af indlejret krydsvalidering (supplerende Fig. S13) 56,57. Vi vurderede også tilsvarende ydeevnen af 156 RNA-sekv-rørledninger anvendt på tcga-lunge-adenocarcinomdatasættet for at forudsige sygdomsresultat. Tcga-lung-adenocarcinomdatasættet og det tilhørende kliniske endepunkt er opsummeret i supplerende tabel S10.indlejret krydsvalidering involverer træning og test af en optimal forudsigelsesmodel. Dette opnås ved hjælp af den tredobbelte optimering eller indre krydsvalidering, anvendt på træningsundersættet fra den femfoldige ydre krydsvalidering. Når de endelige optimale forudsigelsesmodelparametre (dvs.klassificeringshyperparametrene og funktionsstørrelsen) er identificeret, trænes den endelige model ved hjælp af hele træningsundersættet og testes derefter ved hjælp af den resterende fold fra den femfoldige ydre krydsvalidering. Denne proces blev gentaget i ti iterationer. Vi gennemførte indlejret krydsvalidering separat for hver af de tre klassifikatorer (dvs. logistisk regression og supportvektormaskiner) og brugte den minimale redundans, maksimal relevans (mRMR) funktionsvalgsmetode til at vælge optimale funktionsstørrelser inden for området 5 til 40 med trinstørrelsen på 558.

Kaplan–Meier survival analysis

for hver RNA-sekv-rørledning og klassifikator (dvs.278 rørledninger-karrusel 3-klassifikatorer for SEKVC–neuroblastom-endepunkterne og 156 rørledninger-karrusel-3-klassifikatorer for tcga-lung-adenocarcinoma survival endpoint) modellerede vi Kaplan-Meier-overlevelsesfunktioner baseret på de forudsagte etiketter for hver prøve. Vi brugte derefter den to-tailed log-rank test for at bestemme, om estimerede overlevelseskurver for hver forudsagt patientgruppe var statistisk forskellige.

variansanalyse og beregning af bidraget fra hver RNA-sekv-rørledningsfaktor til den samlede rørledningsvarians

Vi brugte variansanalyse (ANOVA) til at bestemme, om hver RNA-sekv-rørledningsfaktor væsentligt bidrager til variansen af hver af de tre benchmarkmålinger (dvs.nøjagtighed, præcision og pålidelighed) såvel som til variansen af forudsigelsesydelse (dvs. AUC og MCC). For hver af de tre benchmarkmålinger brugte vi en lineær model (R-funktion “lm”) til at passe dataene fra alle 278 rørledninger ved hjælp af metricen som den afhængige variabel og RNA-sekv-rørledningsfaktorerne som uafhængige kategoriske variabler. Vi betragtede følgende faktorer som uafhængige kategoriske variabler-kortlægningsalgoritme, kortlægningsstrategi (dvs.splejset vs. ikke-splejset), kortlægningsrapportering (dvs. single-hit vs. multi-hit), kvantificeringsalgoritme og normaliseringsalgoritme. Vi inkluderede alle faktorer og deres tovejsinteraktioner i den lineære model. For hvert af forudsigelsesendepunkterne anvendte vi den samme teknik til at passe dataene fra alle 278 rørledninger ved hjælp af gennemsnitlig AUC eller MCC som den afhængige variabel og det samme sæt RNA-sekv-rørledningsfaktorer som uafhængige kategoriske variabler. Vi gennemførte derefter ANOVA på den lineære model (R-funktion “anova”). ANOVA beregner en” sum af firkanter ” (dvs.varians), der tilskrives hver faktor eller interaktion, og bruger en F-test til at bestemme, om variansen er statistisk signifikant. Vi beregnede den procentdel, som hver faktor eller interaktion bidrager til den samlede varians ved at beregne forholdet mellem “summen af kvadrater” for hver faktor og den samlede sum af kvadrater.

regressionsanalyse

Vi undersøgte forholdet mellem justeringsprofiler eller genekspressionsfordelingsegenskaber og benchmarkmålinger. Justeringsprofilerne omfattede det samlede antal kortlagte fragmenter, det samlede antal læsninger, der spænder over det introniske område, det samlede antal læsninger med indsættelser eller sletninger, det samlede antal perfekt matchede læsninger, det samlede antal læsninger med højst en uoverensstemmelse, og antallet af uoverensstemmelser pr.kortlagt læsning. Hver justeringsalgoritme blev repræsenteret af den gennemsnitlige statistik over 2 sekventeringssteder, 4 prøver, 4 replikatbiblioteker og 2 baner. Ved hjælp af” masse ” -pakken i R vedtog vi M-estimeringen med Huber vægtning tilgang til at passe robuste lineære regressionsmodeller mellem en afhængig variabel (benchmark metrisk ydeevne) og en forklarende variabel (en justeringsprofil). M-estimeringen med Huber vægtning tilgang er en regressionsmetode, der er robust i nærvær af outliers. Genekspressionsfordelingsegenskaberne omfattede det nedre kvartil, median, øvre kvartil, maksimum, interkvartil område, standardafvigelse, skævhed, kurtoseog entropi af en genekspressionsfordeling. Vi brugte den samme m-estimering med Huber vægtning tilgang til at passe robuste lineære regressionsmodeller, og rapporterede derefter den resterende standardfejl for hver model.

ansvarsfraskrivelse

Synspunkterne i denne artikel afspejler ikke nødvendigvis den nuværende eller fremtidige mening eller politik fra US Food and Drug Administration. Enhver omtale af kommercielle produkter er til afklaring og ikke beregnet som en påtegning.