Impact of RNA-seq data analysis algorithms on gene expression estimation and downstream prediction/Scientific Reports

FDA SEQC benchmark dataset

FDA SEQC-benchmark dataset (Gene Expression Omnibus accession number GSE47792) include-end RNA-seq data generated using the Illumina HiSeq 2000 platform with the read length of 100 nukleotides7. Käytimme osajoukkoa SEQC-benchmark-aineistosta, joka on sekvensoitu kahteen kohteeseen—Beijing Genomics Institute (BGI) ja Mayo Clinic (toukokuu). Käytimme neljää näytettä (eli A, B, C ja D), joista jokaisessa oli neljä toistokirjastoa, jotka oli laadittu sekvensointipaikoilla. Näyte a Sisältää Yleismaailmallisen ihmisen viite-RNA: n (UHRR), näyte B sisältää ihmisen aivojen viite-RNA: n (Hbrr), näyte C sisältää A: n ja B: n seoksen (75% A ja 25% B) ja näyte D sisältää A: n ja B: n seoksen (25% A ja 75% B). Käytimme kahden virtauskennon tietoja jokaisesta näytekappaleesta. SEQC toimitti myös kvantitatiivisen PCR: n (qPCR) vertailuaineiston, joka sisältää 20 801 primepcr: llä (Bio-Rad, Hercules, Kalifornia) määritettyä geeniä. Jokainen PrimePCR-geeni määritettiin kerran jokaisesta neljästä näytteestä (eli A, B, C ja D). FDA: n SEQC-vertailuaineistot ja-näytteet on koottu täydentäviin taulukoihin S5 ja S6.

neuroblastooma – ja keuhkoadenokarsinooma-aineistot

käytimme 176 näytteen neuroblastooma-aineistoa (suuremman 498 näytteen aineiston osajoukko; tähän käsikirjoitukseen viitataan nimellä SEQC-neuroblastooma) arvioimaan RNA-SEQ-putkistojen suorituskykyä geeniekspressioon perustuvan taudin lopputuloksen ennustamisen kannalta. Nämä näytteet toimitti Kölnin yliopistollinen lastensairaala ja ne sekvensoitiin BGI: llä käyttäen Illumina platform48-alustaa. Kaikki 176 näytettä otettiin suuririskisiltä potilailta, jotka määriteltiin joko vaiheen 4 neuroblastoomaksi ja ikä > 18 kuukautta tai MYCN-monistetuiksi kasvaimiksi missä tahansa vaiheessa tai iässä. SEQC-neuroblastoma-aineisto talletettiin Geeniekspressioon Omnibus liittymisnumerolla GSE47792.

ennustimme kahta kliinistä päätetapahtumaa—tapahtumatonta elossaoloa (EFS) eli sellaisten tapahtumien kuin edistymisen, uusiutumisen tai kuoleman esiintymistä ja kokonaiselossaoloa (os) eli kuolemaa. Molempien päätetapahtumien osalta potilaat jaettiin kahteen ryhmään (eli suuret ja pienet riskit). Korkean riskin potilaat kokivat tapahtuman tai kuolivat ennen ennalta määriteltyä elossaolokynnystä, kun taas matalan riskin potilaat kokivat tapahtuman tai kuolivat kynnyksen jälkeen tai heidän viimeinen seurantansa ylitti kynnyksen. EFS: n eloonjäämisajan raja-arvot olivat kaksi vuotta ja OS: n kolme vuotta. Raja – arvot valittiin tasapainottamaan korkean ja matalan riskin potilaiden määrää. Lisätietoja SEQC-neuroblastoma-aineistosta on täydentävässä taulukossa S9.

käytimme myös 87-näytettä keuhkoadenokarsinooma RNA-seq-aineistoa Cancer Genome Atlas (TCGA) – arkistosta. Ennusteen päätetapahtuma oli myös eloonjääminen, ja käytimme samoja kriteerejä määrittääksemme korkean ja matalan riskin ryhmät, joiden elinaikakynnys on kaksi vuotta. Kahden vuoden raja valittiin tasapainottamaan korkean ja matalan riskin potilaiden määrää. Lisätietoja tcga-keuhko-adenokarsinooma-aineistosta on täydentävässä taulukossa S10.

suodattamalla qPCR-vertailutietokanta tuottamaan vertailukokonaisuuden geenejä

qPCR-mittausten vaihtelun ja qPCR-alustojen välisten erimielisyyksien7 vuoksi suodatimme qPCR-vertailutietokannan säilyttääksemme geenit, jotka osoittivat ”oikeaa” käyttäytymistä. Tämän jälkeen käytimme näitä geenejä vertailumittareiden (eli tarkkuuden, tarkkuuden, luotettavuuden ja toistettavuuden) laskemiseen. Tällainen suodatus prosessi on tiivistetty täydentävä Kuva. S1.

alkaen PrimePCR: llä määritetystä 20 801 geenin alkujoukosta, suodatimme nämä geenit säilyttääksemme vain sellaiset geenit, joiden kvantifiointi ei ollut nolla (Eli havaittu) ja joilla Ct (syklin kynnysarvo)-arvot olivat ≤ 35 (35 osoittaa vain yhden molekyylin havaitsemista näytteessä). Primepcr-datan suodattaminen tuotti 14 014 geeniä, jotka sopivat myös Seqc-vertailuarvon RNA-seq-aineiston kartoittamiseen käytettävään AceView-transkriptomiin.

tämän jälkeen suodatimme 14 014 qPCR-geeniä säilyttääksemme vain 12 610 geeniä, joilla oli oikea titrausjärjestys (TO) ja odotetut sekoitussuhteet (EMR). Tämän prosessin yksityiskohdat ovat kohdassa ”Filtering qPCR genes by titration order and expected mixing rations”.

lopuksi, koska jotkut vertailumittarit, kuten tarkkuus ja tarkkuus, ovat herkkiä nolla – tai hyvin vähän ilmentäville geeneille, valitsimme lisäksi geenejä, jotka ilmaistiin ei-nollana kaikkien sekvensointipaikkojen kaikkien näytteiden ja kaikkien 278 RNA-seq-putkiston kaikissa toisinnoissa. Lopullisessa vertailusarjassa on vain 10 222 qPCR-geeniä (”kaikki geenit”), joita käytettiin kaikkien kolmen vertailumittarin laskemiseen RNA-seq-putkistoille.

edellisen tutkimuksen perusteella vähemmän ilmentyviä geenejä esiintyy todennäköisemmin pipeliini49. Niinpä tunnistimme myös joukon 10 222 geenissä olevia heikosti ilmentäviä geenejä, jotka perustuivat näytteiden A, B, C ja D keskimääräiseen qPCR-ilmentymään.alinta 20%: a 10 222 geenistä (eli 2044 geeniä, joita kutsutaan ”vähän ilmentäviksi geeneiksi”) käytettiin myös saman vertailumittariston laskemiseen RNA-seq-putkistoille. Tämän rakenteen avulla pystyimme tutkimaan RNA-seq-putkistojen kykyä arvioida heikosti ilmentyviä geenejä.

qPCR-geenien suodattaminen titrausjärjestyksen ja odotettujen sekoitussuhteiden perusteella

SEQC-vertailuaineistoilla (RNA-seq ja qPCR) on ainutlaatuisia ominaisuuksia, jotka mahdollistavat kvantifioinnin oikeellisuuden arvioinnin. Tunnistettuamme havaittavat (eli ei-nolla ja Ct ≤ 35) ja AceView-yhteensopivat qPCR-geenit, käytimme kahta mittaria (TO ja EMR) suodattaaksemme edelleen qPCR-vertailuaineistoa, jättäen jäljelle vain ”oikeat” qPCR-geenit. TO-ja EMR-mittarit kuvaavat datan ainutlaatuisia sekoitusominaisuuksia, toisin sanoen

$$C= \frac{3}{4}a + \frac{1} {4}b\, \text{and}\, = \frac{1}{4}a + \frac{3}{4}B.$$

tämän ominaisuuden vuoksi kaikkien geenien oletetaan ilmentyvän jossakin seuraavista järjestyksistä riippuen näytteiden A ja B suhteellisesta lausekkeesta:

$$a\ge C\ge d\GE b\, \text{tai}\, a\le c\le d\Le B.$$

$${\stackrel{-}{q}}_{s,\cdot, k}=\frac{1}{n}\sum_{n=1}^{n}{Q}_{S, n ,k,}$$

niiden qPCR-geenien joukko,jotka noudattavat oikeaa titrausjärjestystä, on

yksittäiselle Toisinnetulle qPCR-datajoukolle (esim., PrimePCR-aineisto, jonka analysoimme), yksittäisen qPCR-mittauksen luontainen vaihtelu voi johtaa joihinkin vääriin negatiivisiin geeneihin, jotka seuraavat oikeaa, mutta joita ei tunnisteta. Alkaen literature50, 51, variaatiokerroin toistettavissa qPCR mittaukset on yleensä 15% tai suurempi, joten käytimme tätä numeroa säätää marginaali määritettäessä, onko geeni seuraa oikein. Laskimme matemaattisesti asteikon plus ja miinus yksi keskihajonta jokaisesta qPCR-mittauksesta ja käytimme sitä marginaalina. Uudistetut yhtälöt ${K}_{to}$ ovat seuraavat:

$${K}_{to}={K}_{to,a\ge B}\cup {K}_{TO,a\le B,}$$

missä $a=1,15, B=0,85$

TO: n lisäksi näytteissä tulisi lisäksi olla erityinen sekoitussuhde. Koska näytteiden A ja B välinen suhde on

$${R}_{A,B}=\frac{a}{b}$$

näytteiden C ja D välinen EMR on

$$EM{R}_{C,D}=\frac{3Z\cdot {R}_{A,B}+1}{z\cdot {R}_{A,B}+3}\cdot \frac{z+3}{3Z+1}$$

$${R}_{A,B}\in \left\equiv ,$$

$${R}_{C,D}\in \left\equiv \Left,\text{ and}$$

$$em{R}_{C,D}\in \left\equiv), $$

ja lopuksi määrittää joukon geenejä, jotka täyttävät EMR-kriteerin seuraavasti:

$${K}_{EMR}=\left\{k|\left({{R}_{C,D}^{Alempi}\le {EMR}_{C,D}^{Ylempi}|}_{{K, R}_{C,D}}\GE EM{R}_{C,D}}\right)\vee \left({{R}_{C,D}^{Ylempi}\ge {EMR}_{C,D}^{Ylempi}\ge {EMR}_{C, D} ^ {Ylempi}\ge{EMR}_{C,D} ^ ^ {lower}|}_{{k,r} _ {c, d}\Le em {r} _ {c, d}}\right) \ right\}$$

RNA-SEQ Data Analysis Pipels—mapping, quantification, and normalization

tutkimme 278 RNA-SEQ-putkistoa, jotka sisälsivät kolmetoista sekvenssikartoitusalgoritmia18,19,20,21,22,23,24,25,26,27,28,29, kolme kategoriaa lausekkeen kvantifiointi algorithms31, 32, 33, ja seitsemän lausekkeen normalisointi menetelmiä. Lisätaulukot S2-S4 tiivistävät kaikki kunkin putkikomponentin vaihtoehdot (sekvenssikartoitus, lausekkeen kvantifiointi ja lausekkeen normalisointi). Tutkitut kolmetoista kartoitusalgoritmia ovat Bowtie18, Bowtie219, BWA20, GSNAP21, Magic22 (NCBI: n kehittämä uusi putki SEQC-projektia varten: ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic), MapSplice23, Novoalign (Novocraftin kehittämä kaupallistettu paketti: https://www.novocraft.com/products/novoalign/), OSA24, RUM25, STAR26, Subread27, TopHat28 ja WHAM29. Jotkut käyttävät un-spliced kartoitus lukee transkriptome, ja jotkut toiset suorittavat spliced kartoitus genomin. Magic käyttää sekä rinnakkain ja vertailee laatua kunkin kohdistus pitää paras yli useita kohteita. Kartoitusalgoritmit voivat ilmoittaa vain yksilöllisen kartoituksen tai sallia useita kartoituspaikkoja lukua kohden. Kvantifiointialgoritmeja ovat yksinkertaiset laskentaan perustuvat menetelmät (eli HTSeq31) ja Poisson-jakeluun perustuvat probabilistiset menetelmät, joita sovelletaan joko genomiseen (eli Cufflinks32) tai transkriptomiseen kartoitustietoon (eli RSEM33). Taikaa, rommia ja Alaleukua (ts., featureCounts52) putkistot sisältävät sulautettuja kvantifiointimenetelmiä, jotka kuuluvat yksinkertaisten laskentaan perustuvien menetelmien luokkaan. Normalisointimenetelmiä ovat yksinkertaiset skaalausmenetelmät (eli fragmentit miljoonaa kartoitettua fragmenttia kohti , fragmentit per kilobaasi geenin pituus miljoonaa kartoitettua fragmenttia kohti , mediaani ja yläkvartiili), vankat skaalausmenetelmät (eli suhteellinen log-ekspressio ja typistetty m-arvojen keskiarvo) ja tiettyihin putkistoihin upotetut menetelmät (eli Taikalauseindeksi).

Sekvenssikartoitus

kartoitimme sekvenssit jokaiseen viittaukseen peräkkäisissä vaiheissa käyttäen joko yhdistämättömiä tai yhdistettyjä kartoitusalgoritmeja. Un-spliced kartoitus viittaa algoritmeja, jotka yhdenmukaistaa koko lukea sekvenssejä (esim.Bowtie2, BWA, ja Novoalign) taas spliced kartoitus viittaa algoritmeja, jotka jakavat lukee segmentteihin mahtuu pitkiä aukkoja tai introns luetaan (esim., TopHat ja MapSplice). Ensimmäisessä vaiheessa un-saumaton kartoitus, yritimme kartoittaa kaikki pareittain päättyvät sekvenssit ERCC / MT / rRNA-referenssiin (ts., Ulkoinen RNA kontrolloi Konsortiosekvenssejä, mitokondriaalista genomia ja ribosomaalista RNA-sekvenssejä). Kaikki käyttämättömät lukuparit kartoitettiin AceView transkriptomeen. Lopuksi kaikki lukuparit, jotka eivät kartoittaneet ERCC/MT/rRNA-tai AceView-viittauksia, kartoitettiin ihmisen genomiviittaukseen. Transkriptomiset kartoituskoordinaatit käännettiin sitten genomikartoituskoordinaateiksi ja yhdistettiin ihmisen genomikartoitustuloksiin lopullisten tulosten tuottamiseksi (Supplementary Fig. S21, vasen paneeli). Käytimme Bowtie2: ta kartoittajana kaikkien saumattujen kartoitusputkistojen ensimmäisessä vaiheessa(täydentävä Kuva. S21, oikea paneeli). Spliced kartoitus algoritmeja joko suoraan kartoitettu lukee ihmisen genomin (esim., MapSplice ja GSNAP) tai kartoitettu koko yhdistämätön lukee transkriptome ja sitten yhdistettiin nämä kartoitustulokset saumattu kartoitustulokset jäljellä lukee ihmisen genomin (esim., TopHat ja OSA). Täydentävässä taulukossa S2 on yhteenveto kaikista tässä tutkimuksessa tutkituista kartoitusvälineistä.

Bowtie2, GSNAP, Novoalign, TopHat ja WHAM mahdollistavat raportoitujen kartoitusten määrän kontrolloinnin lukuparia kohti. Oletusarvoisesti nämä algoritmit ilmoittavat tyypillisesti yhden parhaan kartoituspaikan lukuparia kohti. Jotkin kvantifiointialgoritmit voivat kuitenkin käyttää tietoa useista monitulkintaisista kartoituspaikoista parantaakseen geenien ekspression estimointia. Näin ollen yhden osuman raportoinnin lisäksi saimme aikaan kartoitustuloksia, jotka raportoivat jopa 200 osumaa lukua kohden (multi-hit). Sisällytimme myös Bowtie kartoitusputken kartoitusparametreilla, jotka ovat spesifisiä RSEM: n kvantifiointia varten, kuten seuraavassa osiossa33 kuvataan.

kaikkien sekvenssien kohdistustyökalujen komentorivivalinnat on esitetty lisähuomautuksessa 1.

geeniekspression kvantifiointi

kvantifiointivaihe sisälsi kolme kategoriaa kvantifioijia—laskentaperusteiset kvantifioijat (eli Htseq ja sisäänrakennetut Kvantifioijat Magic -, RUM-ja Alilukuputkistoille), todennäköisyysmallipohjaiset kvantifioijat genomikartoitusta varten (ts., Kalvosinnapit) ja todennäköisyysmallipohjaiset kvantifierit transkriptomiselle kartoitukselle (TS.RSEM). Näiden kvantifioijien keskeiset ominaisuudet esitetään tiivistetysti täydentävässä taulukossa S3. Kalvosinnapit on Poisson-malliin perustuva kvantifioija, joka arvioi lukutodennäköisyyksiä kohdistusinformaation mukaan32. Se pystyy sekä kokoamaan transkriptioita että kvantifioimaan geenin tai transkriptioiden lausekkeita. Tässä tutkimuksessa poistimme kokoonpanotoiminnon käytöstä ja toimitimme genomiliitteen GTF-tiedoston kvantifiointiviitteeksi. Htseq on naiivi laskentaperusteinen kvantifioija, joka määrittää kartoitetut lukemat genes31: lle. HTSeq pystyy kvantifioimaan geeniekspression, mutta ei transkriptioekspressiota. RSEM on myös Poisson-malliin perustuva kvantifier, joka on käsitteeltään samankaltainen kuin Cufflinks33. Tiedot multi-osuma lukee on tärkeää sekä kalvosinnapit ja RSEM. Nämä algoritmit käyttävät moniosaista lukutietoa arvioidakseen tarkemmin geenin tai transkription lauseketta.

yhdenmukaistamisputkistojen Kartoitustulokset eivät aina olleet yhteensopivia kolmen kvantifioijaryhmän kanssa. Kalvosinnapit edellyttävät, että kohdistustulokset lajitellaan kohdistuskoordinaattien mukaan ja moniosumat merkitään Sam-tiedoston attribuuttikentässä ” NH ” – merkillä. Htseq edellyttää, että linjaustulokset lajitellaan lukunimien mukaan ja että ” NH ” – tagi puuttuu SAM-tiedostosta. RSEM kvantifioi vain transkriptomisen kartoituksen, eli lukee kartoitettuna ja raportoituna transkriptomisina koordinaatteina. Lisäksi RSEM käsittelee vain päällystämättömiä linjauksia. Näin ollen, suodatus on tarpeen poistaa gapped linjaukset. Näiden vaatimusten vuoksi esikäsiteltiin kaikki linjaustulokset ennen kvantifiointia. Yhteenvetona voidaan todeta, että kaksikymmentä linjausputkea, mukaan lukien saumatut, saumattomat, yhden osuman ja usean osuman putket, soveltuivat laskuperusteiseen määritykseen. Kalvosinnapeille soveltui kuusitoista linjausputkea ja RSEM: lle vain kymmenen. RSEM on suunniteltu erityisesti toimimaan hyvin Bowtie. Niinpä otimme mukaan myös tämän sulautetun kartoitus-ja kvantifiointiputken.

kaikkien kvantifiointityökalujen komentorivivalinnat on esitetty lisähuomautuksessa 1.

geeniekspression normalisointi

RNA-seq-datan normalisointi mahdollistaa näytteiden välisen vertailun. Yleensä normalisointiMenetelmät korjaavat kirjaston kokoa (eli otoksen lukujen kokonaismäärää), joka on otosten välisen varianssin ensisijainen lähde. Tutkimme seitsemän normalisointimenetelmää-fragmentit miljoonaa kartoitettua fragmenttia (FPM), fragmentit per kilobaasi per geenin pituus miljoonaa kartoitettua fragmenttia (fpkm), mediaani (Med.), yläkvartiili (UQ), suhteellinen log-lauseke (RLE), typistetty m-arvojen keskiarvo (TMM) ja lausekeindeksi (Eindex, joka on erityinen Taikaputkelle) (KS.täydentävä taulukko S4). Kuvaamme jokaisen näistä normalisointimenetelmistä seuraavan seqc-benchmark-aineiston matemaattisen kuvauksen perusteella.

$$\overline{x}_{s, \cdot ,k} = \frac{1}{n}\mathop \sum \limits_{n = 1}^{n} x_{s,n,k}$$

määrittelimme nykyisten geenien joukon olevan

ja lopullinen nykyinen geenijoukko on

$$K_{p} = K_{p,BGI} \Cap K_{P,toukokuu} .$$

käytimme samaa nykyisten gensien joukkoa kaikkiin normalisointimenetelmiin RNA-seq-putkelle.

tietyn näytteen s ja replikaation n nykyisten geenien kokonaislukumäärä on

$$x_{s,n} = \mathop \sum \limits_{{k \in K_{p} }} x_{s,n,k} ,$$

ja kaikkien yhdestä paikasta peräisin olevien tietojen keskimääräinen kokonaislukumäärä on

$$\bar{x} = \frac{1}{4}\frac{1}{n}\mathop \sum \limits_{s} \mathop \sum \limits_{{n = 1}}^{n} x_{{s,n}}.$$

näin määriteltiin FPM-normalisoitu lauseke jokaiselle näytteelle s, replikoida n ja geeni k: lle seuraavasti:

$$y_{s, n, k}^{FPM} = \frac{{x_{s,n,k} \cdot \overline{x}}}{{x_{s,n} }}.$$

mediaani – ja ylemmän kvartiilin normalisoitu lauseke kullekin näytteelle s, replikaatio n ja geeni k määritellään seuraavasti:

$$y_{s, n,k}^{Med} = \frac{{x_{S,n,k} \cdot \tilde{x}_{S,n}}} {\text{ja}} y_{s,n,k}^{UQ} = \frac {{x_{s,n,k} \cdot \Hat {X}}} {{\hat{x}_{S,n}}}.{ } $$

Fpkm-normalisoinnissa määrittelimme geenin k pituuden $\ell_{K}$, joka on kaikkien geeniin liittyvien eksonien liiton pituus AceView-transkriptomilla määriteltynä. Fpkm: n alkuperäisessä formulaatiossa käytettiin mielivaltaisesti skaalauskertoimia, jotka olivat 1 × 103 geenin pituudelle ja 1 × 106 kartoitettujen fragmenttien kokonaismäärälle. Jotta voitaisiin säilyttää vertailukelpoinen dynaaminen alue kaikkien normalisointi menetelmiä, me sen sijaan skaalattiin keskimääräinen geenin pituus ja keskimääräinen kokonaismäärä kaikkien nykyisten geenien. Kaikkien nykyisten geenien keskimääräinen pituus on

$$\overline{\ell } = \frac{1}{{\left|{K_{p} } \right/}}\mathop \sum \limits_{{k \in K_{p} }} \ell_{k} .$$

näin muunnetaan fpkm-normalisoitu lauseke jokaiselle näytteelle s, replikoidaan n ja geeni k on

$$y_{s, n, k}^{FPKM} = \frac{{x_{S,n,k} \cdot \overline{\ell}}} {{x_{S,n} \cdot \ell_{k}}}.$$

TMM-ja RLE-normalisointiMenetelmät ovat samanlaisia kuin FPM-normalisointi, mutta ottavat käyttöön ylimääräisen skaalauskertoimen kirjaston koon säätämiseksi. Käytimme edgeR-pakettia R: ssä arvioidaksemme skaalauskertoimen jokaiselle näytekappaleelle 36,53. TMM-menetelmä valitsee referenssikirjaston otoskopioituvien kirjastojen joukosta ja laskee sitten kohdekirjaston ja referenssikirjaston välille geeniviisaat log-ekspressiosuhteet (M-arvot) ja geeniviisaat keskimääräiset log-ekspressioarvot (a-arvot). Ääriluvut m-ja A-arvoissa trimmataan, ja kohdekirjaston skaalauskerroin on jäljellä olevien M-arvojen painotettu keskiarvo. RLE-menetelmä määrittää skaalauskertoimen määrittelemällä ensin mediaanikirjaston geenien geometriseksi keskiarvoksi näytereplikaatioissa 35. Skaalauskertoimeksi otetaan kunkin kohdekirjaston mediaanisuhde mediaanikirjastoon. TMM-ja RLE-normalisoitu lauseke kullekin näytteelle s, replikaatio n ja geeni k määritellään seuraavasti:

missä $\hat{F}_{S,n}^{TMM}$ ja $\hat{F}_{S,n}^{RLE}$ ovat näytteen s skaalaustekijä, replikaatio n.

RNA-SEQ-putkilinjojen suorituskykymittarit

Vertailumittarit RNA-seq-putkistoille on tiivistetty täydentävään taulukkoon S7.

tarkkuus mitattuna poikkeamana qPCR-viitteistä

$${\stackrel {-} {y}}_{s,\cdot ,k}=\frac{1}{n}\sum_{n=1}^{n}{y}_{s,n,k}$$

annetut näytteet A ja B, RNA-seq-pohjaisen lausekkeen absoluuttinen log-suhde poikkeama qPCR: stä-pohjainen lauseke geenille K on

$$\delta_{\frac{a}{b},k} = \left | \log_2\Left ( \frac{\Bar{X}_{a,.,k}}{\bar{x} _ {B,.,k}} \right) – \log_2 \left (\frac{\bar{q} _ {A,.,k}}{\bar{q} _ {B,.,k}} \right) \right/, $$

ja lopullinen tarkkuusmittari määriteltiin kaikkien ${\Delta }_{{\frac{a}{B}, k}}$, $k = 1 \ldots K$ mediaaniksi.

tarkkuus mitattuna geeniekspression vaihteluna toisintokirjastoissa

laskimme variaatiokertoimen (COV) jokaiselle geenille ja jokaiselle näytteelle neljän toisintokirjaston alueella seuraavasti:

$$CoV_{s,k} = \frac{{sd\left( {x_{s, \cdot ,k} } \right)}}{{\overline{x}_{S, \cdot ,k} }},$$

luotettavuus mitattuna geeniekspression näytteensisäisenä korrelaationa

mittausjärjestelmän luotettavuutta voidaan arvioida intraclass correlation coefficient (ICC)54,55. ICC soveltuu mittauksiin, jotka voidaan järjestää ryhmiin, ja se kuvaa, kuinka samanlaisia saman ryhmän mittaukset ovat keskenään. Moderni ICC määritelmä lainaa viitekehys analyysin varianssi (ANOVA), tai tarkemmin ANOVA random effects55. Anovan tyyppi riippuu koesuunnittelusta ja noudattaa yleisesti shroutin artikkelissa vuonna 197955 julkaistua määritelmää. ICC(1,1) ja ICC(1,k) perustuvat yksisuuntaiseen satunnaisvaikutusmalliin, ja niitä voidaan soveltaa siinä tapauksessa, että kutakin ryhmää arvioi eri joukko k-ratereita, jotka on satunnaisesti valittu suuremmasta ratereiden populaatiosta. ICC (2,1) ja ICC(2,k) perustuvat kaksisuuntaiseen satunnaisvaikutusmalliin, ja niitä sovelletaan siinä tapauksessa, että satunnaisotos k raters valitaan ennalta suuremmasta populaatiosta ja kukin rater arvioi kunkin ryhmän täsmälleen kerran (ts., jokainen rater arvioi n ryhmät kokonaan). ICC(3,1) ja ICC (3,k) perustuvat kaksisuuntaiseen sekamuotoiseen vaikutusmalliin, ja niitä sovelletaan siinä tapauksessa, että kukin ryhmä arvioidaan samojen k-ratereiden toimesta, jotka ovat populaation ainoat raterit. Toinen parametri ICC: ssä(,) tarkoittaa sitä, mitataanko ICC: llä yksittäisen mittauksen luotettavuutta vai k-mittausten keskiarvoa.

seqc-vertailutietokannassa, jossa on kunkin näytteen toisintokirjastot,ICC(1,1) tai ICC(1, k) sopi tavoitteeseemme, koska g-geenin osalta eri näytteiden (tai eri ryhmien) toisintokirjastojen geeniekspressiota ei arvioitu täsmälleen samoissa olosuhteissa (tai samat raterit arvioivat sitä edellisessä yhteydessä). Päätimme käyttää ICC: tä (1, k), koska monistuskirjastot ovat saatavilla useimpiin kokeisiin. Matemaattisesti yksisuuntainen satunnaisefektimalli voidaan muotoilla seuraavasti:

$$Y_{ij} = \mu + \alpha_{j} +{\varepsilon_{ij}}, $$

$$ICC\left( {1, k} \right) = \frac{BMS-WMS}{{BMS}},$$

laskimme ICC: n jokaiselle geenille K, $K = 1 \ldots K$, ja sitten käytimme kaikkien ICC: iden mediaania luotettavuuden lopullisena mittana.

olemme tutkineet myös muita potentiaalisia mittareita, kuten toistettavuutta, joka määritellään Spearmanin korrelaationa saman otoksen kahden toistokirjaston välillä (lisähuomautus 2). Keihäskorrelaatio vaihteli nollasta.993 – 0,996 (täydentävä Kuva. S8) allgenesin avulla. Hylkäsimme toistettavuusmittarin suhteellisen pienen dynaamisen alueen vuoksi.

arvioimme vertailumittareiden hyödyllisyyttä RNA-Seq-putkiston valinnassa

pisteytimme RNA-seq-putkistojen pohjan kolmen vertailumittarin keskiarvon perusteella (eli tarkkuus, tarkkuus ja luotettavuus). Tämän jälkeen arvioimme vertailuarvomittareiden hyödyllisyyttä tarkastelemalla, olivatko vertailuarvomittareiden perusteella yksilöidyt hyvin ja huonosti suoriutuvat putkistot informatiivisia pääteltäessä geeniekspressioon perustuvan taudin tuloksen ennustamisen suorituskykyä ja potilaan osituksen tilastollista merkitsevyyttä kaikkien kliinisten päätetapahtumien osalta (TS.SEQC-neuroblastooma EFS-ja OSITUSMUUTTUJAT sekä tcga-keuhko-adenokarsinooman eloonjäämisen päätetapahtuma).

ensinnäkin laskimme keskiarvon 278 edustavan RNA-seq-putkiston osalta, joita sovellettiin SEQC-benchmark-aineistoon, käyttäen vertailumittareiden osajoukkoa kunkin putkiston lopullisena suorituskykyindikaattorina. Meillä oli yhteensä 6 mittaria (3 vertailumittaria × 2 geenijoukkoa ), ja tutkimme 12 osajoukkoa (4 × 3) 6 mittarista käyttäen seuraavia kriteerejä:

(1)
neljä kolmen vertailumittarin yhdistelmää, joissa oli vähintään kaksi osajoukossa—yksi yhdistelmä kaikkien kolmen vertailumittarin kanssa, kolme yhdistelmää, joissa oli kaksi kolmesta vertailumittarista.
(2)
kolme osajoukkoa, jotka muodostuvat kaikista geeneistä johdetuista, vähän ilmentävistä geeneistä johdetuista tai näiden yhdistelmästä.

toiseksi laskimme kullekin 278 edustavalle RNA-seq-putkistolle (156 tcga-keuhko-adenokarsinooman eloonjäämisen päätetapahtumalle) sisäkkäisen ristiinvalidoinnin AUC: n ja MCC: n, jotka on kuvattu ”Method”-osiossa ”Neuroblastoma and lung adenokarsinooma predictive modeling modeling”, tuloksena 834 (468 tcga-keuhko-adenokarsinooman eloonjäämisen päätetapahtumalle) AUC-ja MCC-arvot kullekin kliiniselle päätetapahtumalle (ts., 278 putkijohtoa × 3 luokitusta tai 156 putkijohtoa × 3 luokitusta) (Lisätaulukot S11,S12). Mallinnimme myös selviytymisfunktioita käyttäen Kaplan-Meier-analyysiä jokaiselle putkelle, kuten on kuvattu ”Method ”–osiossa”Kaplan-Meier survival analysis”. Jokaisen RNA-seq-putken osalta teimme yhteenvedon taudin lopputuloksen geeniekspressioon perustuvan ennustamisen suorituskyvystä käyttäen sekä luokittajien keskimääräistä AUC-ja MCC-arvoa että potilaiden osituksen onnistumisprosenttia (ts., kahden Kaplan-Meier-käyrän tilastollisesti merkitsevä erottaminen) kaikissa iteraatioissa ja luokittajissa sisäkkäisessä ristiintarkistuskehyksessä.

lopulta tunnistimme 10%: n parhaimmat ja 10%: n huonokuntoiset putkistot kolmen vertailumittarin osajoukon keskiarvon perusteella. Vastaava ennustus suorituskyky (ts., AUC ja MCC) hyvin suoriutuneita putkistoja testattiin huonosti suoriutuvia putkistoja vastaan yksipuolisella Wilcoxon rank-sum-testillä, jossa nollahypoteesi oli, että edellisen ryhmän mediaani ei ollut suurempi kuin jälkimmäisen ryhmän.

neuroblastooma ja keuhkoadenokarsinooman ennustava mallinnus

arvioimme 278 RNA-seq-putkiston suorituskykyä geeniekspressioon perustuvan päätöksenteon kannalta SEQC-neuroblastooma-aineiston48 avulla. SEQC-neuroblastooma-tietokokonaisuus ja siihen liittyvät kliiniset päätetapahtumat on koottu täydentävään taulukkoon S9. RNA-seq-putkistoja arvioitiin neuroblastooma-potilastulosten ennustamiseksi kahden kliinisen päätetapahtuman osalta käyttäen sisäkkäistä ristivalidointia (täydentävä Kuva. S13) 56,57. Arvioimme samalla tavalla myös 156 RNA-seq-putkiston suorituskykyä, joita käytettiin tcga-keuhko-adenokarsinooma-aineistoon taudin lopputuloksen ennustamiseksi. TCGA-keuhko-adenokarsinooma-aineisto ja siihen liittyvä kliininen päätetapahtuma on tiivistetty täydentävään taulukkoon S10.

sisäkkäinen ristivalidointi edellyttää optimaalisen ennustemallin koulutusta ja testausta. Tämä tapahtuu kolminkertaisella optimoinnilla tai sisäisellä ristivalidoinnilla, jota sovelletaan koulutuksen osajoukkoon viisinkertaisesta ulkoisesta ristivalidoinnista. Kun lopulliset optimaaliset ennustemallin parametrit (eli luokittelijan hyperparametrit ja ominaisuuskoko) on tunnistettu, lopullinen malli koulutetaan käyttäen koko koulutusalajoukkoa, ja sitten testataan jäljellä olevalla taitoksella viisinkertaisesta ulkoisesta ristivalidoinnista. Tätä prosessia toistettiin kymmenen iteraation ajan. Suoritimme sisäkkäisen ristiintarkastuksen erikseen jokaiselle kolmelle luokittajalle (ts., Adaptiivinen tehostaminen, logistinen regressio ja tukivektorikoneet) ja käytti minimiyksityiskohtaa, maksimaalista relevanssia (mRMR) valitakseen optimaaliset ominaisuuskoot välillä 5-40 ja askelkoko 558.

Kaplan–Meier-eloonjäämisanalyysi

kullekin RNA-SEQ-putkistolle ja luokittajalle (eli 278 putkistoa × 3 luokittelijaa SEQC-neuroblastoomalle ja 156 putkistoa × 3 luokittelijaa tcga–keuhko-adenokarsinooman eloonjäämisen päätetapahtumalle) mallinnimme Kaplan-Meier-eloonjäämisfunktiot kunkin näytteen ennustettujen merkintöjen perusteella. Sitten käytimme kaksihäntäistä log-rank-testiä selvittääksemme, olivatko kunkin ennustetun potilasryhmän arvioidut eloonjäämiskäyrät tilastollisesti erilaiset.

varianssianalyysi ja kunkin RNA-seq-putkikertoimen osuuden laskeminen putken kokonaisvarianssiin

käytimme varianssianalyysiä (ANOVA) määrittääksemme, vaikuttaako jokainen RNA-seq-putkikerroin merkittävästi kunkin kolmen vertailumittarin varianssiin (eli tarkkuuteen, tarkkuuteen ja luotettavuuteen) sekä ennustuskyvyn varianssiin (AUC ja MCC). Jokaista kolmea vertailumittaria varten käytimme lineaarista mallia (R-funktio ”lm”), joka sovitti kaikkien 278 putkiston tiedot käyttäen metriikkaa riippuvaisena muuttujana ja RNA-seq-putkiston tekijöitä itsenäisinä kategorisina muuttujina. Pidimme seuraavia tekijöitä itsenäisinä kategoriallisia muuttujia-mapping algoritmi, mapping strategia (eli, saumattu vs. un-saumattu), mapping reporting (eli, single-hit vs. multi-hit), kvantifiointi algoritmi, ja normalisointi algoritmi. Sisällytimme lineaariseen malliin kaikki tekijät ja niiden kaksisuuntaiset vuorovaikutukset. Kunkin ennusteen päätepisteen osalta sovitimme saman tekniikan kaikkien 278 putkiston tietoihin käyttäen keskimääräistä AUC: tä tai MCC: tä riippuvaisena muuttujana ja samaa RNA-seq-putkiston tekijäjoukkoa itsenäisinä kategorisina muuttujina. Tämän jälkeen suoritettiin ANOVA lineaarisella mallilla (R-funktio ”anova”). ANOVA laskee kullekin tekijälle tai vuorovaikutukselle osoitetun” neliöiden summan ” (eli varianssin) ja käyttää F-testiä määrittääkseen, onko varianssi tilastollisesti merkitsevä. Laskimme sen prosentin, että jokainen tekijä tai vuorovaikutus vaikuttaa kokonaisvarianssiin laskemalla kunkin tekijän ”neliöiden summan” suhteen neliöiden kokonaissummaan.

regressioanalyysi

selvitimme kohdistusprofiilien tai geeniekspressiojakauman ominaisuuksien ja vertailumittareiden välistä suhdetta. Kohdistusprofiilit sisälsivät kartoitettujen fragmenttien kokonaismäärän, intronisen alueen ylittävien lukujen kokonaismäärän, lisäyksin tai poistoin varustettujen lukujen kokonaismäärän, täysin yhteen sovitettujen lukujen kokonaismäärän, enintään yhden yhteensopimattoman lukujen kokonaismäärän ja yhteenlaskettujen lukujen lukumäärän. Jokainen kohdistus algoritmi edusti keskimäärin tilastot yli 2 sekvensointi sivustoja, 4 näytteitä, 4 jäljitellä kirjastot, ja 2 kaistaa. Käyttämällä ”massa” -pakettia R: ssä, otimme käyttöön m-estimoinnin Huber-painotusmenetelmällä, jotta voimme sovittaa vankat lineaariset regressiomallit riippuvan muuttujan (vertailumittarin suorituskyky) ja selittävän muuttujan (kohdistusprofiili) välille. M-estimointi Huber weighting approach-menetelmällä on regressiomenetelmä, joka on luotettava poikkeavien havaintojen esiintyessä. Geenin ilmentymäjakauman ominaisuuksia olivat geenin ilmentymäjakauman alakvartiili, mediaani, yläkvartiili, maksimi, kvartiilien välinen alue, keskihajonta, vinous, kurtoosi ja entropia. Käytimme samaa M-estimointia Huber weighting approachin kanssa tukevan lineaarisen regressiomallin sovittamiseksi ja raportoimme sitten kunkin mallin jäännöskeskivirheen.

Vastuuvapauslauseke

tässä artikkelissa esitetyt näkemykset eivät välttämättä vastaa Yhdysvaltain elintarvike-ja lääkeviraston nykyistä tai tulevaa mielipidettä tai politiikkaa. Kaikki maininnat kaupallisista tuotteista ovat selvennyksiä varten, eikä niitä ole tarkoitettu maininnaksi.

Impact of RNA-seq data analysis algorithms on gene expression estimation and downstream prediction