Impact of RNA-seq data analysis algorithms on gen expression estimation and downstream prediction / Scientific Reports

FDA SEQC benchmark datasets

de FDA SEQC-benchmark dataset (Gen Expression omnibus accession number GSE47792) omvat gepaarde RNA-seq data gegenereerd met behulp van het Illumina HiSeq 2000 platform met de leeslengte van 100 nucleotiden 7. We gebruikten een subset van de seqc-benchmark dataset sequenced op twee locaties-Beijing Genomics Institute (BGI) en Mayo Clinic (mei). Wij gebruikten vier steekproeven (d.w.z., A, B, C, en D), elk met vier replicate bibliotheken bereid op de rangschikkende plaatsen. Monster A bevat het universele Humane referentie-RNA (Uhrr), Monster B bevat het menselijke Hersenreferentierna (Hbrr), Monster C bevat een mengsel van A en B (75% A en 25% B), en monster D bevat een mengsel van A en B (25% A en 75% B). We gebruikten gegevens van twee rijstroken van een enkele stroomcel voor elke monsterreplicatie. De SEQC leverde ook een kwantitatieve PCR (qPCR) benchmark dataset die 20.801 genen bevat die met PrimePCR (Bio-Rad, Hercules, Californië) zijn getest. Elk PrimePCR-gen werd eenmaal geanalyseerd voor elk van de vier monsters (d.w.z., A, B, C, en D). De FDA seqc benchmark datasets en monsters zijn samengevat in aanvullende tabellen S5 en S6.

datasets van neuroblastoom en longadenocarcinoom

We gebruikten een dataset van 176 monsters neuroblastoom (een subset van een grotere dataset van 498 monsters); bedoeld als SEQC-neuroblastoma in dit manuscript) om de prestaties van RNA-seq pijpleidingen in termen van genuitdrukking-gebaseerde voorspelling van ziekteuitkomst te beoordelen. Deze monsters werden geleverd door het Universitair Kinderziekenhuis van Keulen en gesequenced op BGI met behulp van het Illumina platform48. Alle 176 monsters werden genomen van patiënten met een hoog risico, gedefinieerd als patiënten met stadium 4 neuroblastoom en leeftijd > 18 maanden of met mycn-versterkte tumoren van elk stadium of elke leeftijd. De seqc-neuroblastoma dataset werd gedeponeerd op de genuitdrukking omnibus met toetredingsnummer GSE47792.

we voorspelden twee klinische eindpunten-event-free survival (EFS), dat wil zeggen het optreden van gebeurtenissen zoals progressie, recidief of overlijden, en totale overleving (OS), dat wil zeggen overlijden. Voor beide eindpunten werden de patiënten verdeeld in twee groepen (d.w.z. hoge risico ’s versus lage risico’ s). Patiënten met een hoog risico ervoeren een gebeurtenis of overleden vóór een vooraf bepaalde overlevingsdrempel, terwijl patiënten met een laag risico ervoeren een gebeurtenis of overleden na de drempel, of hun laatste follow-up de drempel overschreed. Overlevingsdrempels voor EFS en OS waren respectievelijk twee en drie jaar. De drempels werden gekozen om het aantal patiënten met een hoog risico en patiënten met een laag risico in evenwicht te brengen. Details van de dataset SEQC-neuroblastoom zijn te vinden in aanvullende tabel S9.

We gebruikten ook een 87-sample long adenocarcinoma RNA-seq dataset uit de Cancer Genome Atlas (TCGA) repository. Het voorspellingseindpunt was ook overleving, en we gebruikten dezelfde criteria om groepen met een hoog en laag risico te definiëren met de overlevingsduur van twee jaar. De drempel van twee jaar werd gekozen om het aantal patiënten met een hoog risico en patiënten met een laag risico in evenwicht te brengen. Details van de dataset TCGA-lung-adenocarcinoma worden gegeven in aanvullende tabel S10.

het filteren van de qPCR benchmark-dataset om een referentieset van genen te produceren

vanwege variabiliteit in qPCR-metingen en meningsverschillen tussen qPCR-platforms7, filterden we de qPCR benchmark-dataset om genen te behouden die “correct” gedrag vertoonden. Vervolgens gebruikten we deze genen om de benchmarkmetingen te berekenen (d.w.z. nauwkeurigheid, precisie, betrouwbaarheid en reproduceerbaarheid). Dergelijke het filterproces wordt samengevat in aanvullende Fig. S1.

beginnend met de initiële set van 20.801 genen die met PrimePCR werden getest, filterden we deze genen om alleen genen te behouden die werden gekwantificeerd als niet-nul (d.w.z. gedetecteerd) en met Ct (cyclusdrempel) waarden ≤ 35 (35 duidt op detectie van slechts één molecuul in een monster). Het filteren van PrimePCR-gegevens resulteerde in 14.014 genen die ook aan aceview-transcriptome pasten dat Voor het in kaart brengen van de dataset van SEQC-benchmark RNA-seq wordt gebruikt.

vervolgens filterden we de 14.014 qPCR-genen om slechts 12.610 genen te behouden die de juiste titratievolgorde (TO) EN verwachte mengverhoudingen (EMR) vertoonden. Details van dit proces staan in de sectie “Het filteren van qPCR genen door titratievolgorde en verwachte mengverhoudingen”.

ten slotte, aangezien sommige benchmarkmetrics zoals nauwkeurigheid en precisie gevoelig zijn voor nul – of zeer lage-expressie genen, selecteerden we verder genen die als niet-nul werden uitgedrukt in alle replicaten van alle monsters van alle sequencing sites en alle 278 RNA-seq pijpleidingen. De definitieve verwijzingsset bevat slechts 10.222 qPCR-genen (als “alle genen” wordt bedoeld) die werden gebruikt om alle drie benchmarkmetrics voor RNA-seq pijpleidingen te berekenen.

Op basis van het vorige onderzoek is de kans groter dat de genen met een lagere expressie inconsistent zijn bij pipelines49. Aldus, identificeerden wij ook een reeks laag-uitdrukkende genen in de 10.222 genen die op de gemiddelde qPCR uitdrukking van steekproeven A, B, C, en D. worden gebaseerd de laagste 20% van de 10.222 genen (d.w.z., 2044 genen, als “laag-uitdrukkende genen” wordt bedoeld) werden ook gebruikt om de zelfde reeks benchmark metrics voor RNA-seq pijpleidingen te berekenen. Dit ontwerp liet ons toe om het vermogen van RNA-seq pijpleidingen in het schatten van laag-uitdrukkend genuitdrukking te onderzoeken.

qPCR-genen filteren op titratievolgorde en verwachte mengverhoudingen

De seqc-benchmark-datasets (RNA-seq en qPCR) hebben unieke eigenschappen die de beoordeling van kwantificeringsnauwkeurigheid mogelijk maken. Na het identificeren van detecteerbare (dat wil zeggen, niet-nul en Ct ≤ 35) en aceview-matched qPCR genen, gebruikten we twee metrics (TO en EMR) om de benchmark qPCR dataset verder te filteren, waardoor alleen “juiste” qPCR genen. De aan-en EMR-statistieken vangen unieke mengeigenschappen van de gegevens op, dat wil zeggen

$$C = \frac{3}{4}a+ \ frac{1}{4}B\, \ text{en }\, = \frac{1}{4}A + \ frac{3}{4}B.$$

Vanwege deze eigenschap, alle genen verwacht kan worden uitgedrukt in een van de volgende opdrachten, afhankelijk van de relatieve expressie van de monsters A en B:

$$A\ge C\ge D\ge B \,\text{of }\, Een\le C\le D\le B.$$

$${\stackrel{-}{q -}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}{v}_{n,n,k}$$

de set van qPCR genen die volgen op de juiste titratie bestelling

Voor een enkele repliceren qPCR dataset (bijv., de PrimePCR-dataset die we hebben geanalyseerd), kan de inherente variabiliteit van een enkele qPCR-meting resulteren in een aantal vals-negatieve genen die de juiste volgen maar niet worden geïdentificeerd. Uit de literatuur50, 51, de variatiecoëfficiënt voor replicate qPCR metingen is over het algemeen 15% of groter, dus we gebruikten dit nummer om de marge aan te passen om te bepalen of een gen volgt de juiste aan. Wiskundig berekenden we het bereik van plus en minus één standaardafwijking van elke qPCR-meting en gebruikten het als marge. De herziene vergelijkingen voor ${K}_{TO}$ zijn als volgt:

$${K}_{TO}={K}_{TO, a \ ge B} \ cup {K}_{TO, a \ le B,}$$

waarbij $A = 1,15, b = 0,85$

naast TO, moeten de monsters ook een specifieke mengverhouding vertonen. Gezien het feit dat de verhouding tussen de monsters A en B is

$${R}_{A,B}=\frac{A}{B}$$

de EMR tussen de monsters C en D is

$$EM{R}_{C,D}=\frac{3z\cdot {R}_{A,B}+1} / {z\cdot {R}_{A,B}+3}\cdot \frac{z+3}{3z+1}$$

$${R}_{A,B}\in \left\equiv ,$$

$${R}_{C,D}\in \left\equiv \links\text{ en}$$

$$EM{R}_{C,D}\in \left\equiv ),$$

en ten slotte bepaalt een set van genen die voldoet aan de EMR-criterium als volgt:

$${K}_{EMR}=\left\{k|\left({{R}_{C,D}^{Lagere}\le {EMR}_{C,D}^{Boven}|}_{{k, R}_{C,D}\ge EM{R}_{C,D}}\right)\vee \left({{R}_{C,D}^{Boven}\ge {EMR}_{C,D}^{Lagere}|}_{{k, R}_{C,D}\le EM{R}_{C,D}}\right)\right\}$$

RNA-seq data-analyse pijpleidingen—mapping, kwantificering, en normalisatie

We onderzocht 278 RNA-seq pijpleidingen die opgenomen dertien volgorde toewijzing algorithms18,19,20,21,22,23,24,25,26,27,28,29, drie categorieën van meningsuiting kwantificering algorithms31,32,33, en zeven expressie beschikbare methodes. Aanvullende tabellen S2–S4 vatten alle opties samen die worden overwogen voor elke pijplijn component (sequence mapping, expressie kwantificering, en expressie normalisatie). De dertien mapping algoritmen onderzocht zijn Bowtie18, Bowtie219, BWA20, GSNAP21, Magic22 (een nieuwe pijpleiding die is ontwikkeld door NCBI voor de SEQC project: ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic), MapSplice23, Novoalign (een gecommercialiseerd pakket ontwikkeld door Novocraft: https://www.novocraft.com/products/novoalign/), OSA24, RUM25, STAR26, Subread27, TopHat28, en WHAM29. Sommigen gebruiken un-spliced het in kaart brengen Van Leest aan transcriptome, en sommige anderen voeren spliced het in kaart brengen aan het genoom uit. Magic gebruikt zowel in parallel en vergelijkt de kwaliteit van elke uitlijning om het beste te houden over meerdere doelen. Mapping algoritmen kunnen alleen unieke mapping rapporteren, of toestaan voor meerdere mapping locaties per gelezen. Kwantificeringsalgoritmen omvatten eenvoudige count-based methoden (d.w.z., HTSeq31) en Poisson distributie-gebaseerde probabilistische methoden toegepast op genomische (d.w.z., Manchetknopen 32) of transcriptomic mapping data (d.w.z., RSEM33). De magie, RUM en Subread (d.w.z., featureCounts52) pijpleidingen omvatten ingebed kwantificeringsmethoden die vallen in de categorie van eenvoudige op tellen gebaseerde methoden. Normalisatie methoden omvatten eenvoudige schaling methode (d.w.z., deeltjes per miljoen toegewezen fragmenten , scherven per kilobase van gen lengte per miljoen toegewezen fragmenten , de mediaan, en de bovenste kwartiel), robuuste schalen methoden (d.w.z. in vergelijking log expressie en getrimde gemiddelde van de m-waarden ), en methoden ingebed in specifieke pijpleidingen (d.w.z. Magic expressie index).

Sequentieafbeelding

we hebben sequenties in opeenvolgende stappen aan elke referentie toegewezen met behulp van niet-gesplitste of gesplitste afbeeldingsalgoritmen. Un-spliced mapping verwijst naar algoritmen die volledige leesreeksen uitlijnen (bijvoorbeeld Bowtie2, BWA en Novoalign) terwijl spliced mapping verwijst naar algoritmen die lezen splitsen in segmenten om lange hiaten of introns in een read op te nemen (bijvoorbeeld TopHat en MapSplice). In de eerste stap van un-spliced mapping, probeerden we alle gepaarde-eindsequenties in kaart te brengen aan de ERCC/MT / rRNA-referentie (d.w.z., De externe opeenvolgingen van RNA controleert Consortium, het mitochondrial genoom, en ribosomal opeenvolgingen van RNA). Alle unmapped gelezen paren werden vervolgens in kaart gebracht aan de aceview transcriptome. Tot slot werden alle gelezen paren die niet in kaart gebracht aan of de ERCC/MT / rRNA of aceview verwijzingen in kaart gebracht aan de menselijke genoomverwijzing. Transcriptomic het in kaart brengen coördinaten werden toen vertaald in genomic het in kaart brengen coördinaten en samengevoegd met de menselijke resultaten van het genoom in kaart brengen om de definitieve resultaten (aanvullende Fig. S21, linker paneel). We gebruikten Bowtie2 als mapper voor de eerste stap van alle gesplitste mapping pijpleidingen (aanvullende Fig. S21, rechter paneel). Spliced mapping algoritmen of direct in kaart gebracht leest aan het menselijke genoom (b.v., MapSplice en GSNAP) of in kaart gebracht geheel un-spliced leest aan transcriptome en dan samengevoegd deze mapping resultaten met spliced mapping resultaten van de resterende leest aan het menselijke genoom (b. v., TopHat en OSA). Aanvullende tabel S2 geeft een overzicht van alle mapping tools onderzocht in deze studie.

Bowtie2, GSNAP, Novoalign, TopHat en WHAM staan controle toe over het aantal gerapporteerde toewijzingen per leespaar. Standaard rapporteren Deze algoritmen doorgaans één beste locatie voor toewijzing per leespaar. Nochtans, kunnen sommige kwantificeringsalgoritmen informatie over veelvoudige dubbelzinnige het in kaart brengen plaatsen gebruiken om de schatting van de genuitdrukking te verbeteren. Dus, naast single-hit rapportage, we ook gegenereerd mapping resultaten die tot 200 hits per gelezen (multi-hit) gemeld. We hebben ook de Bowtie mapping pipeline opgenomen met mapping parameters die specifiek zijn voor kwantificering met RSEM, zoals beschreven in het volgende paragraaf 33.

commandoregelopties voor alle sequence alignment tools zijn beschreven in aanvullende Noot 1.

genexpressie kwantificering

De kwantificeringsfase omvatte drie categorieën kwantificeerders-telgebaseerde kwantificeerders (d.w.z., HTSeq en ingebouwde kwantificeerders voor de Magic -, RUM-en Subread-pijpleidingen), waarschijnlijkheidsmodellen gebaseerde kwantificeerders voor genomische mapping (d.w.z., Manchetknopen), en waarschijnlijkheidsmodel-gebaseerde kwantifiers voor transcriptomic mapping (d.w.z., RSEM). De belangrijkste kenmerken van deze kwantificeerders zijn samengevat in aanvullende tabel S3. Manchetknopen is een Poisson-modelgebaseerde kwantificeerder die leestoewijzingskansen schat op basis van de uitlijninginformatie32. Het kan zowel transcripten assembleren als gen-of transcript-uitdrukkingen kwantificeren. In deze studie, maakten wij de assemblagefunctie onbruikbaar en verstrekten het dossier GTF van de genoomannotatie als quantificatieverwijzing. HTSeq is een naïeve Tel-gebaseerde kwantificeerder die toegewezen leest aan genes31 toewijst. HTSeq is in staat om genexpressie te kwantificeren, maar niet transcript expressie. RSEM is ook een Poisson model-gebaseerde kwantificeerder die qua concept vergelijkbaar is met Manchetknopen 33. Informatie van multi-hit reads is belangrijk voor zowel Manchetknopen als RSEM. Deze algoritmen gebruiken multi-hit gelezen informatie om gen of transcript uitdrukking nauwkeuriger te schatten.

Mapping resultaten van alignment pijpleidingen waren niet altijd compatibel met de drie categorieën van kwantificeerders. Manchetknopen vereist dat uitlijningsresultaten worden gesorteerd op uitlijncoördinaten en multi-hit reads worden gemarkeerd met de’ NH ‘ tag in het attribuutveld van het SAM-bestand. HTSeq vereist dat de uitlijningsresultaten gesorteerd worden op leesnamen en dat de ‘NH’ tag afwezig is in het SAM-bestand. RSEM kwantificeert alleen transcriptomic mapping, dat wil zeggen, leest in kaart gebracht en gerapporteerd in transcriptomic coördinaten. Bovendien, rsem behandelt alleen niet-gapped uitlijningen. Dus, filtering is vereist om gapped alignments verwijderen. Vanwege deze vereisten hebben we alle aligneresultaten voor kwantificering vooraf verwerkt. Samengevat waren twintig uitlijningspijpleidingen, waaronder gesplitste, ongesplitste, single-hit-en multi-hit-pijpleidingen, geschikt voor telgebaseerde kwantificering. Zestien uitlijning pijpleidingen waren geschikt voor manchetknopen, en slechts tien waren geschikt voor RSEM. RSEM is speciaal ontworpen om goed te werken met vlinderdas. Zo hebben we ook deze embedded mapping and quantification pipeline opgenomen.

commandoregelopties voor alle kwantificeringstools worden beschreven in aanvullende Noot 1.

genexpressie normalisatie

RNA-seq data normalisatie maakt inter-sample vergelijking mogelijk. Over het algemeen, normalisatiemethoden correcte bibliotheekgrootte (d.w.z., het totale aantal leest in een steekproef), die de primaire bron van Inter-steekproefvariantie is. We onderzochten zeven normalisatiemethoden-fragmenten per miljoen in kaart gebrachte fragmenten (FPM), fragmenten per kilobase van genlengte per miljoen in kaart gebrachte fragmenten (FPKM), mediaan (Med.), upper quartile (UQ), relative log expression (RLE), trimmed mean of M-values (TMM), en expression index (EIndex, die specifiek is voor de Magic pipeline) (zie aanvullende tabel S4). We beschrijven elk van deze normalisatiemethoden op basis van de volgende wiskundige beschrijving van de seqc-benchmark dataset.

$$\overline{x}_{s, \cdot ,k} = \frac{1}{N}\mathop \sum \limits_{n = 1}^{n} x_{s,n,k}$$

we definieerden de verzameling van huidige genen als

en de uiteindelijke huidige genverzameling is

$$K_{p} = K_{p,BGI} \cap K_{p,may} .$$

We gebruikten dezelfde verzameling huidige gens voor alle normalisatiemethoden voor een RNA-seq pijplijn.

Het totale aantal aanwezige genen voor een bepaald monster s en repliceren n is

$$x_{n,n} = \mathop \sum \limits_{{k \in K_{p} }} x_{n,n,k} ,$$

en het gemiddelde totale aantal aanwezige genen voor alle gegevens van een enkele site

$$\bar{x} = \frac{1}{4}\frac{1}{N}\mathop \sum \limits_{s} \mathop \sum \limits_{{n = 1}}^{N} x_{{n,n}}.$$

dus definieerden we FPM-genormaliseerde expressie voor elk monster s, repliceren n en Gen k als

$$y_{s,n,k}^{FPM} = \frac{{x_{s,n,k} \cdot \overline{x}}}{{x_{s,n} }}.$$

mediaan – en bovenste kwartiel-genormaliseerde expressie voor elk monster s, repliceren n, en Gen k worden dan gedefinieerd als

$$y_{s,n,k}^{Med} = \frac{{x_{s,n,k} \cdot \tilde{x}}}{{\tilde{x}_{S,n} }}{\text{en }}y_{s,n,k}^{uq} = \frac{{x_{s,n,k} \cdot \hat{X}}}{{\hat{x}_{S,N} }}.{ } $$

voor fpkm normalisatie definieerden we de lengte van een gen k als $\ell_{k}$, wat de lengte is van de Vereniging van alle exonen gerelateerd aan het gen zoals gedefinieerd door het aceview transcriptoom. De oorspronkelijke formulering van FPKM gebruikte willekeurig schaalfactoren van 1 × 103 voor de genlengte en 1 × 106 voor het totale aantal in kaart gebrachte fragmenten. Om een vergelijkbaar dynamisch bereik tussen alle normalisatiemethoden te behouden, hebben we in plaats daarvan geschaald naar de gemiddelde genlengte en de gemiddelde totale telling voor alle aanwezige genen. De gemiddelde lengte van alle aanwezige genen is

$$\overline{\ell } = \frac{1}{{\left| {K_{p} } \right|}}\mathop \sum \limits_{{k \in K_{p} }} \ell_{k} .$$

aldus is fpkm-genormaliseerde expressie voor elk monster s, repliceer n en Gen k

$$y_{s, n, k}^{FPKM} = \frac{{x_{s,n,k} \cdot \overline{\ell } \cdot \overline{x}}}{{x_{s,n} \cdot \ell_{k} }}.$$

de methoden voor TMM-en RLE-normalisatie zijn vergelijkbaar met de FPM-normalisatie, maar introduceren een extra schaalfactor om de bibliotheekgrootte aan te passen. We gebruikten het edgeR-pakket in R om een schaalfactor te schatten voor elk monsterreplicaat36, 53. De TMM-methode selecteert een referentiebibliotheek uit een pool van monsterreplicatiebibliotheken en berekent vervolgens gen-wise log expression ratio ‘ s (m-waarden) en Gen-wise gemiddelde log expression values (a-waarden) tussen de doelbibliotheek en de referentiebibliotheek. Extreme getallen in M-waarden en A-waarden worden bijgesneden, en de schaalfactor voor de doelbibliotheek is het gewogen gemiddelde van de resterende M-waarden. De RLE-methode bepaalt een schaalfactor door eerst de mediaanbibliotheek te definiëren als het gengewijze geometrische gemiddelde over steekproefreplicaten35. De mediaanverhouding van elke doelbibliotheek tot de mediaanbibliotheek wordt als schaalfactor genomen. TMM – en RLE-genormaliseerde expressie voor elk monster s, repliceren n, en Gen k worden dan gedefinieerd als:

waarbij $\hat{f}_{s,n}^{TMM}$ en $\hat{F}_{S,n}^{RLE}$ de schaalfactor zijn voor monster s, repliceren n.

RNA-seq pipeline performance metrics

Benchmark metrics voor RNA-seq pijpleidingen worden samengevat in aanvullende tabel S7.

Nauwkeurigheid gemeten als afwijking van qPCR verwijzingen

$${\stackrel{-}{y}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}{y}_{n,n,k)}$$

Gegeven monsters A en B, de absolute log-ratio afwijking van RNA-seq-gebaseerd expressie van qPCR op basis van expressie van een gen k

$$\Delta_{\frac{A}{B},k} = \left | \log_2\left ( \frac{\bar{x}_{A,., k}} {\bar{x}_{B,., k}} \ right ) – \log_2 \left (\frac {\bar{q}_{A,., k}} {\bar{q}_{B,., k}} \ right) \ right/, $$

en de uiteindelijke nauwkeurigheid werd gedefinieerd als de mediaan van alle ${\Delta } _{{\frac{A}{B}, k}}$, $k = 1 \ldots K$.

precisie gemeten als variatie van genexpressie in replicaatbibliotheken

we berekenden de variatiecoëfficiënt (COV) voor elk gen en elk monster in vier replicaatbibliotheken als volgt:

$$CoV_{s,k} = \frac{{sd\left( {x_{s, \cdot ,k} } \right)}}{{\overline{x}_{S, \cdot ,k} }},$$

betrouwbaarheid gemeten als intra-sample correlatie van genexpressie

de betrouwbaarheid van een meetsysteem kan worden beoordeeld aan de hand van de intraclass correlatiecoëfficiënt (ICC)54,55. ICC is van toepassing op metingen die kunnen worden georganiseerd in groepen, en het beschrijft hoe soortgelijke metingen van dezelfde groep zijn aan elkaar. Moderne ICC-definitie leent het framework of analysis of variance (ANOVA), of meer specifiek ANOVA met willekeurige effecten55. Het type ANOVA hangt af van het experimentele ontwerp en volgt over het algemeen de definitie in het artikel van Shrout gepubliceerd in 197955. ICC (1,1) en ICC(1,k) zijn gebaseerd op het eenrichtings-random-effectenmodel en zijn van toepassing op het geval dat elke groep wordt beoordeeld aan de hand van een andere reeks k-raters die willekeurig wordt geselecteerd uit een grotere populatie raters. ICC (2,1) en ICC(2,k) zijn gebaseerd op het two-way random effects model en zijn van toepassing op het geval dat een aselecte steekproef van K raters is voorgeselecteerd uit een grotere populatie en elke rater beoordeelt elke groep precies een keer (d.w.z., elke rater beoordeelt n groepen in totaal). ICC(3,1) en ICC(3,k) zijn gebaseerd op het tweerichtingsmodel voor gemengde effecten en zijn van toepassing op het geval dat elke groep wordt beoordeeld door elk van dezelfde K-raters, die de enige raters in de populatie zijn. De tweede parameter in ICC (,) geeft aan of het ICC de betrouwbaarheid van een enkele meting moet meten of het gemiddelde van k-metingen.

voor de seqc-benchmark-dataset met replicaatbibliotheken voor elk monster, paste ICC(1,1) of ICC(1,k) in ons doel, aangezien voor een gen g, genexpressie van replicaatbibliotheken voor verschillende monsters (of verschillende groepen in de vorige context) niet onder precies dezelfde omstandigheden werden beoordeeld (of door dezelfde raters in de vorige context werden beoordeeld). We kozen ervoor om ICC(1,k) te gebruiken omdat replicate libraries beschikbaar zijn voor de meeste experimenten. Wiskundig kan een eenrichtings-willekeurig effectenmodel worden geformuleerd als

$$y_{ij} = \mu + \alpha_{j} +{\varepsilon_{ij}}, $$

$$ICC\left( {1, k} \right) = \frac{BMS – WMS}{{BMS}},$$

we calculated ICC voor elk gen K, $K = 1 \ldots k$, en vervolgens gebruikt de mediaan van alle ICC ‘ s als de laatste maat voor betrouwbaarheid.

We hebben ook andere potentiële metrics onderzocht, zoals reproduceerbaarheid, die wordt gedefinieerd als de Spearman correlatie tussen twee replicate libraries van hetzelfde monster (aanvullende noot 2). De Spearman correlatie varieerde van 0.993 tot 0,996 (aanvullende Fig. S8) met behulp van AllGenes. We hebben de reproduceerbaarheidsmetrie weggegooid vanwege het relatief kleine dynamische bereik.

evaluatie van het nut van de benchmarkmetingen voor RNA-Seq-pijpleidingsselectie

we rangschikken RNA-seq-pijpleidingen op basis van de gemiddelde rangorde van de drie benchmarkmetingen (d.w.z. nauwkeurigheid, precisie en betrouwbaarheid). Vervolgens evalueerden we het nut van de benchmark metrics door te onderzoeken of goed presterende en slecht presterende pijpleidingen geïdentificeerd op basis van de benchmark metrics informatief waren voor het afleiden van de prestaties van op genexpressie gebaseerde voorspelling van de ziekteuitkomst en statistische significantie van patiëntenstratificatie voor alle klinische eindpunten (d.w.z. de seqc-neuroblastoom EFS en OS eindpunten en het TCGA-long-adenocarcinoom survival endpoint).

ten eerste hebben we voor de 278 representatieve RNA-seq-pijpleidingen toegepast op de seqc-benchmark-dataset, de gemiddelde rang berekend met behulp van een subset van de benchmarkmetrics als de uiteindelijke prestatie-indicator voor elke pijpleiding. In totaal hadden we 6 metrics (3 benchmark metrics × 2 gen sets), en we onderzochten 12 subsets (4 × 3) van de 6 metrics met behulp van de volgende criteria:

(1)
vier combinaties van de drie benchmark metrics met ten minste twee in een subset—een combinatie met alle drie benchmark metrics, drie combinaties met twee van de drie benchmark metrics.
(2)
drie subgroepen gevormd door metrics afgeleid van alle genen, die afgeleid zijn van genen met lage expressie, of een combinatie van beide.

ten tweede hebben we voor elk van de 278 representatieve RNA-seq-pijpleidingen (156 voor het TCGA-lung-adenocarcinoom overlevingseindpunt) geneste kruisvalidatie AUC en MCC berekend, zoals beschreven in de sectie” Neuroblastoma and lung adenocarcinoma predictive modeling”, wat resulteerde in 834 (468 voor het TCGA-lung-adenocarcinoom overlevingseindpunt) AUC en MCC-waarden voor elk klinisch eindpunt (d.w.z., 278 pijpleidingen × 3 classifiers, of 156 pijpleidingen × 3 classifiers) (aanvullende tabellen S11,S12). We hebben ook overlevingsfuncties gemodelleerd met behulp van Kaplan-Meier analyse voor elke pijplijn, zoals beschreven in de sectie” methode “”Kaplan–Meier survival analyse”. Voor elke RNA-seq pijpleiding, vatte wij de prestaties van gen-uitdrukking-gebaseerde voorspelling van ziekteuitkomst samen gebruikend zowel de gemiddelde AUC als MCC over classifiers en het slagingspercentage van geduldige stratificatie (d.w.z., statistisch significante scheiding van twee Kaplan-Meier curves) over alle iteraties en classifiers in het geneste cross-validation framework.

ten slotte hebben we de top 10% goed presterende pijpleidingen en de onderste 10% slecht presterende pijpleidingen geïdentificeerd op basis van de gemiddelde rangorde van een subset van de drie benchmarkmetrics. De overeenkomstige voorspellingsprestatie (d.w.z., AUC en MCC) van de goed presterende pijpleidingen werd getoetst aan die van de slecht presterende pijpleidingen met behulp van de eenzijdige Wilcoxon rank-sum-test met de nulhypothese dat de mediaan van de eerste groep niet groter was dan die van de laatste groep.

neuroblastoom en longadenocarcinoom voorspellende modellering

we beoordeelden de prestaties van 278 RNA-seq pijpleidingen in termen van genexpressie-gebaseerde besluitvorming met behulp van de seqc-neuroblastoomdataset48. De seqc-neuroblastoomdataset en geassocieerde klinische eindpunten zijn samengevat in aanvullende tabel S9. De RNA-seq pijpleidingen werden geëvalueerd in termen van het voorspellen van neuroblastoom patiënt uitkomsten voor twee klinische eindpunten met behulp van geneste kruis-validatie (aanvullende Fig. S13) 56,57. We beoordeelden ook op dezelfde manier de prestaties van 156 RNA-seq pijpleidingen toegepast op de TCGA-long-adenocarcinoma dataset om de uitkomst van de ziekte te voorspellen. De dataset TCGA-lung-adenocarcinoom en het bijbehorende klinische eindpunt zijn samengevat in aanvullende tabel S10.

geneste kruisvalidatie omvat training en testen van een optimaal voorspellingsmodel. Dit wordt bereikt met behulp van de drievoudige optimalisatie of innerlijke kruisvalidatie, toegepast op de training subset van de vijfvoudige buitenste kruisvalidatie. Zodra de uiteindelijke parameters van het optimale voorspellingsmodel (d.w.z. de classificatiehyperparameters en de grootte van de functie) zijn geïdentificeerd, wordt het uiteindelijke model getraind met behulp van de volledige trainingssubset en vervolgens getest met behulp van de resterende vouw van de vijfvoudige buitenste kruisvalidatie. Dit proces werd herhaald voor tien iteraties. We voerden geneste kruisvalidatie afzonderlijk uit voor elk van de drie classifiers (d.w.z., adaptive boosting, logistic regression, en support vector machines) en gebruikte de minimale redundantie, maximale relevantie (mRMR) functie selectie methode om optimale functie maten te kiezen van binnen het bereik van 5 tot 40 met de stap grootte van 558.

Kaplan-Meier survival analysis

voor elke RNA-seq pijpleiding en classifier (d.w.z. 278 pijpleidingen × 3 classifiers voor de seqc-neuroblastoom eindpunten en 156 pijpleidingen × 3 classifiers voor de TCGA-lung-adenocarcinoom survival endpoints), hebben we Kaplan–Meier overlevingsfuncties gemodelleerd op basis van de voorspelde labels van elk monster. Vervolgens gebruikten we de tweestaart log-rank test om te bepalen of Geschatte overlevingscurven voor elke voorspelde patiëntengroep statistisch verschillend waren.

variantieanalyse en berekening van de bijdrage van elke RNA-seq-pijpleidingsfactor aan de totale variantie van de pijpleiding

We gebruikten variantieanalyse (ANOVA) om te bepalen of elke RNA-seq-pijpleidingsfactor significant bijdraagt aan de variantie van elk van de drie benchmarkmetingen (d.w.z. nauwkeurigheid, precisie en betrouwbaarheid) en aan de variantie van voorspellingsprestaties (d.w.z. AUC en MCC). Voor elk van de drie benchmarkmetrics, gebruikten we een lineair model (R-functie “lm”) om de gegevens van alle 278 pijpleidingen te passen met behulp van de metriek als de afhankelijke variabele en de RNA-seq pijpleidingsfactoren als onafhankelijke categorische variabelen. We beschouwden de volgende factoren als onafhankelijke categorische variabelen-mapping algoritme, mapping strategie (dwz, gesplitste vs. un-gesplitste), mapping rapportage (dwz, single-hit vs. multi-hit), kwantificering algoritme, en normalisatie algoritme. We hebben alle factoren en hun interacties in twee richtingen opgenomen in het lineaire model. Voor elk van de voorspellingseindpunten, pasten wij dezelfde techniek toe om de gegevens van alle 278 pijpleidingen te passen gebruikend gemiddelde AUC of MCC als afhankelijke variabele en de zelfde reeks van RNA-seq pijpleidingsfactoren als onafhankelijke categorische variabelen. Vervolgens voerden we de ANOVA uit op het lineaire model (R-functie “anova”). ANOVA berekent een” kwadratensom ” (variantie) die aan elke factor of interactie wordt toegeschreven en gebruikt een F-test om te bepalen of de variantie statistisch significant is. We berekenden het percentage dat elke factor of interactie bijdraagt aan de totale variantie door de verhouding van “kwadratensom” voor elke factor tot de totale kwadratensom te berekenen.

regressieanalyse

we onderzochten de relatie tussen uitlijningsprofielen of genexpressie distributiekarakteristieken en benchmarkmetrics. De uitlijningsprofielen omvatten het totale aantal in kaart gebrachte fragmenten, het totale aantal reads dat het intronische gebied overspant, het totale aantal reads met inserties of verwijderingen, het totale aantal Perfect overeenkomende reads, het totale aantal reads met maximaal één mismatch en het aantal mismatches per in kaart gebrachte read. Elk uitlijningsalgoritme werd vertegenwoordigd door de gemiddelde statistieken over 2 sequencing sites, 4 monsters, 4 replicate libraries en 2 rijstroken. Met behulp van het” MASS ” pakket in R, hebben we de M-schatting met Huber wegingsbenadering aangenomen om robuuste lineaire regressiemodellen te passen tussen een afhankelijke variabele (benchmark metrische prestaties) en een verklarende variabele (een uitlijningsprofiel). De M-schatting met Huber wegingsbenadering is een regressiemethode die robuust is in aanwezigheid van uitschieters. De distributiekarakteristieken van de genexpressie omvatten het onderste kwartiel, mediaan, bovenste kwartiel, maximum, interkwartielbereik, standaarddeviatie, scheefheid, kurtose en entropie van een genexpressiedistributie. We gebruikten dezelfde m-schatting met Huber wegingsbenadering om robuuste lineaire regressiemodellen te passen en rapporteerden vervolgens de resterende standaardfout voor elk model.

Disclaimer

De standpunten in dit artikel geven niet noodzakelijk het huidige of toekomstige advies of beleid van de Amerikaanse Food and Drug Administration weer. Elke vermelding van commerciële producten is ter verduidelijking en niet bedoeld als een goedkeuring.

Impact of RNA-seq data analysis algorithms on gen expression estimation and downstream prediction