Impactul algoritmilor de analiză a datelor ARN-seq asupra estimării expresiei genelor și a Predicției în aval

FDA SEQC benchmark seturile de date

FDA SEQC-benchmark dataset (Gene Expression Omnibus accession number GSE47792) include date ARN-seq asociate generate utilizând platforma Illumina HiSeq 2000 cu lungimea de citire de 100 nucleotide7. Am folosit un subset al setului de date seqc—benchmark secvențiat la două site-uri-Beijing Genomics Institute (BGI) și Mayo Clinic (mai). Am folosit patru eșantioane (adică A, B, C și D), fiecare cu patru biblioteci replicate pregătite la site-urile de secvențiere. Proba A conține ARN universal de referință umană (UHRR), proba B conține ARN de referință pentru creierul uman (HBRR), proba C conține un amestec de a și B (75% a și 25% B), iar proba D conține un amestec de a și B (25% a și 75% B). Am folosit date din două benzi ale unei singure celule de flux pentru fiecare probă replicată. SEQC a furnizat, de asemenea, un PCR cantitativ (qPCR) set de date de referință care include 20.801 de gene testate cu PrimePCR (Bio-Rad, Hercules, California). Fiecare genă PrimePCR a fost testată o dată pentru fiecare dintre cele patru probe (adică A, B, C și D). Seturile de date de referință FDA SEQC și eșantioanele sunt rezumate în tabelele suplimentare S5 și S6.

Seturi de date pentru neuroblastom și adenocarcinom pulmonar

am folosit un set de date pentru neuroblastom cu 176 de eșantioane (un subset al unui set de date mai mare de 498 de eșantioane; seqc-neuroblastom în acest manuscris) pentru a evalua performanța conductelor ARN-seq în ceea ce privește predicția bazată pe expresia genelor a rezultatului bolii. Aceste probe au fost furnizate de Spitalul Universitar de copii din Koln și secvențiate la BGI folosind platforma Illumina48. Toate cele 176 de probe au fost prelevate de la pacienți cu risc crescut care au fost definiți ca fiind cei cu neuroblastom în stadiul 4 și vârsta > 18 luni sau cu tumori amplificate de MYCN de orice stadiu sau vârstă. Setul de date SEQC-neuroblastom a fost depus la expresia genică Omnibus cu numărul de aderare GSE47792.

am prezis două obiective clinice—supraviețuirea fără evenimente (EFS), adică apariția unor evenimente precum progresul, recidiva sau moartea și supraviețuirea generală (OS), adică moartea. Pentru ambele criterii finale, pacienții au fost împărțiți în două grupuri (de exemplu, riscuri mari față de riscuri mici). Pacienții cu risc crescut au prezentat un eveniment sau au decedat înainte de un prag predefinit de timp de supraviețuire, în timp ce pacienții cu risc scăzut au prezentat un eveniment sau au murit după prag sau ultima lor urmărire a depășit pragul. Pragurile de timp de supraviețuire pentru EFS și OS au fost de doi și, respectiv, trei ani. Pragurile au fost alese pentru a echilibra numărul de pacienți cu risc ridicat și cu risc scăzut. Detalii privind setul de date SEQC-neuroblastom sunt furnizate în tabelul suplimentar S9.

am folosit, de asemenea, un set de date ARN-seq pentru adenocarcinomul pulmonar cu 87 de probe din depozitul Cancer Genome Atlas (TCGA). Obiectivul de predicție a fost, de asemenea, supraviețuirea și am folosit aceleași criterii pentru a defini grupurile cu risc ridicat și cu risc scăzut, cu pragul de supraviețuire de doi ani. Pragul de doi ani a fost ales pentru a echilibra numărul de pacienți cu risc ridicat și cu risc scăzut. Detalii privind setul de date TCGA-pulmonar-adenocarcinom sunt furnizate în tabelul suplimentar S10.

filtrarea setului de date de referință qPCR pentru a produce un set de referință de gene

Din cauza variabilității măsurătorilor qPCR și a dezacordurilor dintre platformele qpcr7, am filtrat setul de date de referință qPCR pentru a reține genele care au prezentat un comportament „corect”. Apoi am folosit aceste gene pentru a calcula valorile de referință (adică acuratețea, precizia, fiabilitatea și reproductibilitatea). Astfel procesul de filtrare este rezumat în Fig suplimentar. S1.

pornind de la setul inițial de 20.801 de gene testate cu PrimePCR, am filtrat aceste gene pentru a reține doar gene care au fost cuantificate ca non-zero (adică detectate) și cu valori Ct (prag de ciclu) 35 (35 indică detectarea unei singure molecule într-o probă). Filtrarea datelor PrimePCR a dus la 14.014 gene care s-au potrivit și cu transcriptomul AceView utilizat pentru cartografierea SEQC-benchmark ARN-seq set de date.ulterior, am filtrat cele 14.014 gene qPCR pentru a reține doar 12.610 gene care au prezentat ordinea corectă de titrare (TO) și rapoartele de amestecare așteptate (EMR). Detalii despre acest proces sunt în secțiunea” filtrarea genelor qPCR după ordinea de titrare și rapoartele de amestecare așteptate”.în cele din urmă, deoarece unele valori de referință, cum ar fi precizia și precizia, sunt sensibile la genele cu expresie zero sau foarte scăzută, am selectat în continuare gene care au fost exprimate ca non – zero în toate replicatele tuturor probelor din toate siturile de secvențiere și toate cele 278 de conducte ARN-seq. Setul final de referință conține doar 10.222 de gene qPCR (denumite „toate genele”) care au fost utilizate pentru a calcula toate cele trei valori de referință pentru conductele ARN-seq.

pe baza studiului anterior, genele cu expresie mai scăzută sunt mai susceptibile de a fi inconsistente între conducte49. Astfel, am identificat, de asemenea, un set de gene cu exprimare scăzută în cele 10.222 de gene bazate pe expresia medie qPCR a probelor A, B, C și D. Cel mai mic 20% din cele 10.222 de gene (adică 2044 de gene, denumite „gene cu exprimare scăzută”) au fost, de asemenea, utilizate pentru a calcula același set de valori de referință pentru conductele ARN-seq. Acest design ne-a permis să investigăm capacitatea conductelor ARN-seq în estimarea expresiei genelor cu exprimare scăzută.

filtrarea genelor qPCR după ordinea de titrare și rapoartele de amestecare așteptate

seturile de date SEQC-benchmark (ARN-seq și qPCR) au proprietăți unice care permit evaluarea corectitudinii cuantificării. După identificarea genelor qPCR detectabile (adică non-zero și Ct 35) și a genelor qPCR potrivite cu AceView, am folosit două valori (TO și EMR) pentru a filtra în continuare setul de date qPCR de referință, lăsând doar genele qPCR „corecte”. Valorile TO și EMR captează proprietățile unice de amestecare ale datelor, adică

$$c= \frac{3}{4}a+\frac{1}{4}B\, \text{și}\, = \frac{1}{4}a + \ frac{3}{4}B.$$

datorită acestei proprietăți, se așteaptă ca toate genele să fie exprimate într-una din următoarele ordine, în funcție de expresia relativă a probelor A și B:

$$a\ge C\ge D\Ge B \,\text{or }\, a\le C\le d\le B.$$

$${\stackrel { – } {q}}_{s,\cdot ,k}=\frac{1}{n}\sum_{N=1}^{n}{q}_{s,n,k,}$$

setul de gene qPCR care urmează ordinea corectă de titrare este

pentru un singur set de date qPCR replicat (de ex., setul de date PrimePCR pe care l-am analizat), variabilitatea inerentă a unei singure măsurători qPCR poate duce la unele gene fals negative care urmează corect, dar nu reușesc să fie identificate. Din literatură50, 51, coeficientul de variație pentru măsurătorile qPCR replicate este în general de 15% sau mai mare, așa că am folosit acest număr pentru a ajusta marja pentru a determina dacă o genă urmează corect la. Matematic, am calculat intervalul de plus și minus o abatere standard de la fiecare măsurare qPCR și am folosit-o ca marjă. Ecuațiile revizuite pentru ${K} _ {TO}$ sunt după cum urmează:

$${K}_{TO}={K}_{to,a\ge B}\cup {K}_{TO,a\le B,}$$

unde $a=1,15, b=0,85$

în afară de TO, probele ar trebui să prezinte suplimentar un raport de amestecare specific. Având în vedere că raportul dintre probele a și B este

$${R}_{A,B}=\frac{A}{B}$$

EMR între probele C și D este

$$EM{R}_{C,D}=\frac{3Z\cdot {R}_{A,B}+1}{z\cdot {R}_{A,B}}+3}\cdot \frac{Z+3} {3Z+1}$$

$${R}_{A,B}\în \stânga\equiv ,$$

$${R}_{C,D}\în \stânga\equiv \stânga,\text{ și}$$

$$em{R}_{C,D}\in \left\equiv ),$$

și determină în final un set de gene care satisface criteriul EMR după cum urmează:

$${K}_{EMR}=\stânga\{k|\stânga({{R}_{C,D}^{jos}\le {EMR}_{C,D}^{sus}|}_{{K, R}_{C,D}\ge EM{R}_{C,D}}\dreapta)\vee \stânga({{R}_{C,D}^{sus}\ge {EMR}_{C,D}^{lower}|}_{{k, r}_{c,d}\le em{R}_{C,D}}\Right)\Right\}$$

ARN-Seq conducte de analiză a datelor—cartografiere, cuantificare și normalizare

am investigat 278 de conducte ARN-SEQ care includeau treisprezece algoritmi de cartografiere a secvențelor18,19,20,21,22,23,24,25,26,27,28,29, trei categorii de algoritmi de cuantificare a expresiei31, 32, 33 și șapte metode de normalizare a expresiei. Tabelele suplimentare S2–S4 rezumă toate opțiunile luate în considerare pentru fiecare componentă a conductei (cartografierea secvenței, cuantificarea expresiei și normalizarea expresiei). Cei treisprezece algoritmi de cartografiere investigați sunt Bowtie18, Bowtie219, BWA20, GSNAP21, Magic22 (o nouă conductă dezvoltată de NCBI pentru proiectul SEQC: ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic), MapSplice23, Novoalign (un pachet comercializat dezvoltat de Novocraft: https://www.novocraft.com/products/novoalign/), OSA24, RUM25, STAR26, SUBREAD27, TopHat28 și WHAM29. Unii folosesc cartografierea ne-îmbinată a citirilor la transcriptom, iar alții efectuează maparea îmbinată la genom. Magic folosește atât în paralel, cât și compară calitatea fiecărei alinieri pentru a păstra cele mai bune pe mai multe ținte. Algoritmii de mapare pot raporta doar maparea unică sau pot permite mai multe locații de mapare pe citire. Algoritmii de cuantificare includ metode simple bazate pe numărare (adică HTSeq31) și metode probabilistice bazate pe distribuția Poisson aplicate fie datelor genomice (adică Butonelor32), fie datelor de cartografiere transcriptomică (adică RSEM33). Magia, romul și Subreadul (adică., featureCounts52) conductele includ metode de cuantificare încorporate care se încadrează în categoria metodelor simple bazate pe numărare. Metodele de normalizare includ metode simple de scalare (adică fragmente pe milion de fragmente mapate , fragmente pe kilobază de lungime a genei pe milion de fragmente mapate , mediană și quartila superioară), metode robuste de scalare (adică expresia relativă a jurnalului și media tăiată a valorilor m) și metode încorporate în conducte specifice (adică indicele expresiei magice).

maparea secvențelor

am mapat secvențe la fiecare referință în pași succesivi folosind algoritmi de mapare ne-îmbinați sau îmbinați. Maparea ne-îmbinată se referă la algoritmi care aliniază secvențe întregi de citire (de exemplu, Bowtie2, BWA și Novoalign), în timp ce maparea îmbinată se referă la algoritmi care împart citirile în segmente pentru a găzdui lacune lungi sau introni într-o citire (de exemplu, TopHat și MapSplice). În prima etapă a cartografierii ne-îmbinate, am încercat să mapăm toate secvențele pereche la referința ERCC/MT / rRNA (adică., ARN extern controlează secvențele Consorțiului, genomul mitocondrial și secvențele ARN ribozomale). Toate perechile de citire nemapate au fost apoi mapate la transcriptomul AceView. În cele din urmă, toate perechile citite care nu s-au mapat nici la referințele ERCC/MT/rRNA, nici la aceview au fost mapate la referința genomului uman. Coordonatele de cartografiere transcriptomică au fost apoi traduse în coordonate de cartografiere genomică și îmbinate cu rezultatele de cartografiere a genomului uman pentru a produce rezultatele finale (Fig suplimentar. S21, panoul din stânga). Am folosit Bowtie2 ca mapper pentru prima etapă a tuturor conductelor de cartografiere îmbinate (Fig suplimentar. S21, panoul din dreapta). Algoritmi de cartografiere îmbinați fie au mapat direct citirile la genomul uman (de exemplu, MapSplice și GSNAP), fie au cartografiat citirile întregi ne-îmbinate la transcriptom și apoi au îmbinat aceste rezultate de cartografiere cu rezultatele mapării îmbinate ale citirilor rămase la genomul uman (de exemplu, TopHat și OSA). Tabelul suplimentar S2 rezumă toate instrumentele de cartografiere investigate în acest studiu.Bowtie2, GSNAP, Novoalign, TopHat și WHAM permit controlul asupra numărului de mapări raportate pe pereche de citire. În mod implicit, acești algoritmi raportează de obicei o singură locație de mapare cea mai bună pentru fiecare pereche de citire. Cu toate acestea, unii algoritmi de cuantificare pot utiliza informații despre mai multe locații de cartografiere ambigue pentru a îmbunătăți estimarea expresiei genelor. Astfel, pe lângă raportarea cu un singur hit, am generat și rezultate de cartografiere care au raportat până la 200 de accesări pe citire (multi-hit). Am inclus, de asemenea, conducta de cartografiere Bowtie cu parametrii de cartografiere specifici pentru cuantificarea cu RSEM, așa cum este descris în secțiunea următoare33.

opțiunile liniei de comandă pentru toate instrumentele de aliniere a secvențelor sunt detaliate în nota suplimentară 1.

cuantificarea expresiei genelor

etapa de cuantificare a inclus trei categorii de cuantificatori—cuantificatori bazați pe numărare (adică HTSeq și cuantificatori încorporați pentru conductele Magic, RUM și Subread), cuantificatori bazați pe modele de probabilitate pentru cartografierea genomică (adică., Butoni) și cuantificatori bazați pe modelul probabilității pentru cartografierea transcriptomică (adică RSEM). Caracteristicile cheie ale acestor cuantificatori sunt rezumate în tabelul suplimentar S3. Butoni este un cuantificator bazat pe modelul Poisson care estimează probabilitățile de atribuire citite pe baza informațiilor de aliniere32. Este capabil atât să asambleze transcrieri, cât și să cuantifice expresiile genei sau transcrierii. În acest studiu, am dezactivat funcția de asamblare și am furnizat fișierul GTF de adnotare a genomului ca referință de cuantificare. HTSeq este un cuantificator na pe bază de număr de un sfert de secol, care atribuie mapate citește la genes31. HTSeq este capabil să cuantifice expresia genelor, dar nu și expresia transcrierii. RSEM este, de asemenea, un cuantificator bazat pe modelul Poisson, care este similar în concept cu butoni 33. Informațiile din citirile multi-hit sunt importante atât pentru butoni, cât și pentru RSEM. Acești algoritmi folosesc informații de citire multi-hit pentru a estima mai exact expresia genei sau transcrierii.

rezultatele cartografierii din conductele de aliniere nu au fost întotdeauna compatibile cu cele trei categorii de cuantificatori. Butoni necesită ca rezultatele de aliniere sunt sortate după coordonate de aliniere și multi-hit citește sunt marcate cu tag-ul’ NH ‘ în câmpul atribut al fișierului SAM. HTSeq cere ca rezultatele alinierii să fie sortate după numele citite și că eticheta ‘NH’ este absentă în fișierul SAM. RSEM cuantifică doar cartografierea transcriptomică, adică citește mapate și raportate în coordonate transcriptomice. Mai mult, RSEM se ocupă doar de aliniamentele ne-gapped. Astfel, filtrarea este necesară pentru a elimina aliniamentele gapped. Datorită acestor cerințe, am pre-procesat toate rezultatele alinierii înainte de cuantificare. Pe scurt, douăzeci de conducte de aliniere, inclusiv conducte îmbinate, ne-îmbinate, cu o singură lovitură și cu mai multe lovituri, au fost potrivite pentru cuantificarea bazată pe numărare. Șaisprezece conducte de aliniere erau potrivite pentru butoni și doar zece erau potrivite pentru RSEM. RSEM este special conceput pentru a lucra bine cu papion. Astfel, am inclus și această conductă de cartografiere și cuantificare încorporată.opțiunile liniei de comandă pentru toate instrumentele de cuantificare sunt detaliate în nota suplimentară 1.

normalizarea expresiei genelor

normalizarea datelor ARN-seq permite compararea între eșantioane. În general, metodele de normalizare corectează dimensiunea bibliotecii (adică numărul total de citiri dintr-un eșantion), care este sursa primară a varianței inter-eșantion. Am investigat șapte metode de normalizare-fragmente pe milion de fragmente mapate( FPM), fragmente pe kilobază de lungime a genei pe milion de fragmente mapate (FPKM), median (Med.), quartila superioară (UQ), expresia relativă a jurnalului (RLE), media tăiată a valorilor M (TMM) și indicele de Expresie (eindex, care este specific conductei magice) (a se vedea tabelul suplimentar S4). Descriem fiecare dintre aceste metode de normalizare pe baza următoarei descrieri matematice a setului de date SEQC-benchmark.

$$\overline{x}_{s, \cdot ,k} = \frac{1}{N}\mathop \sum \limits_{n = 1}^{n} x_{s,n,k}$$

am definit setul de gene prezente ca fiind

și setul final de gene prezent este

$$K_{p} = K_{p,BGI} \cap K_{p,Mai} .$$

am folosit același set de gens prezente pentru toate metodele de normalizare pentru o conductă ARN-seq.

numărul total de gene prezente pentru o probă dată s și Replica n este

$$x_{s,n} = \mathop \sum \limits_{{k \în k_{p} }} x_{s,n,k} ,$$

și numărul total mediu de gene prezente pentru toate datele dintr-un singur sit este

$$\bar{x} = \frac{1}{4}\frac{1}{n}\mathop \sum \limits_{s} \mathop \sum \limits_{{n = 1}}^{n} x_{{s,n}}.$$

astfel, am definit expresia normalizată a FPM pentru fiecare probă s, replicată n și gena k Ca

$$y_{s, n,k}^{FPM} = \frac{{x_{s,n,k} \cdot \overline{x}}}{{x_{s,n} }}.$$

expresia normalizată mediană și cuartilă superioară pentru fiecare eșantion s, replicat n și gena k sunt apoi definite ca

$$y_{s, n,k}^{Med} = \frac{{x_{s,n,k} \cdot \tilde{x}}}{{\tilde{x}_{S,N} }}{\text{și }}y_{s,n,k}^{uq} = \frac{{x_{S,N,K} \cdot \pălărie{x}}}{{\pălărie{x}_{S,N} }}.{ } $$

pentru normalizarea FPKM, am definit lungimea unei gene k ca $\ell_{k}$, care este lungimea unirii tuturor exonilor legați de genă așa cum este definită de transcriptomul AceView. Formularea originală a FPKM a utilizat în mod arbitrar factori de scalare de 1 hectolitru 103 pentru lungimea genei și de 1 hectolitru 106 pentru numărul total de fragmente cartografiate. Pentru a menține o gamă dinamică comparabilă între toate metodele de normalizare, am scalat în schimb lungimea medie a genei și numărul total mediu pentru toate genele prezente. Lungimea medie a tuturor genelor prezente este

$$\overline{\ell } = \frac{1}{{\left|{K_{p} } \right/}}\mathop \sum \limits_{{k \in k_{p} }} \ell_{k} .$$

astfel, rescaled fpkm-normalizat Expresie pentru fiecare probă s, Replica n, și gena k este

$$y_{s,n,k}^{FPKM} = \frac{{x_{s,n,k} \cdot \overline{\ell } \cdot \overline{x}}}{{x_{S,N} \cdot \ell_{k} }}.$$

metodele de normalizare TMM și RLE sunt similare cu normalizarea FPM, dar introduc un factor de scalare suplimentar pentru a ajusta dimensiunea bibliotecii. Am folosit pachetul edgeR în R pentru a estima un factor de scalare pentru fiecare eșantion replicate36, 53. Metoda TMM Selectează o bibliotecă de referință dintr-un grup de biblioteci de eșantioane replicate și apoi calculează raporturile de expresie a jurnalului în funcție de gene (valori M) și valorile medii ale expresiei jurnalului în funcție de gene (valori a) între Biblioteca țintă și biblioteca de referință. Numerele Extreme din valorile M și valorile A sunt tăiate, iar factorul de scalare pentru biblioteca țintă este media ponderată a valorilor m rămase. Metoda RLE determină un factor de scalare definind mai întâi biblioteca mediană ca medie geometrică în funcție de gene pe replicatele probei35. Raportul median al fiecărei biblioteci țintă la Biblioteca mediană este luat ca factor de scalare. Expresia normalizată TMM și RLE pentru fiecare probă s, Replica n și gena k sunt apoi definite ca:

unde $\hat{F}_{S,N}^{TMM}$ și $\hat{F}_{S,N}^{rle}$ sunt factorul de scalare pentru proba s, Replica n.

valorile de performanță ale conductei ARN-seq

Valorile de referință pentru conductele ARN-SEQ sunt rezumate în tabelul suplimentar S7.

precizie măsurată ca abatere de la referințele qPCR

$${\stackrel{-}{y}}_{s,\cdot ,k}=\frac{1}{n}\sum_{n=1}^{n}{y}_{s,n,k}$$

date probe a și B, deviația absolută a raportului de jurnal a expresiei bazate pe ARN-seq din qPCR expresia bazată pe o genă K este

$$\delta_{\frac{A}{B},K} = \left | \log_2\left ( \frac{\Bar{X}_{a,.,k}} {\bar{x} _ {B,., k}} \dreapta) – \log_2 \stânga (\frac {\bar{q}_{A,., k}}{\bar{q} _ {B,., k}} \dreapta ) \dreapta|, $$

și metrica de precizie finală a fost definită ca mediana tuturor ${\Delta }_{{\frac{A}{B},k}}$, $k = 1 \ldots K$.

precizie măsurată ca variație a expresiei genelor în bibliotecile replicate

am calculat coeficientul de variație (CoV) pentru fiecare genă și fiecare probă în patru biblioteci replicate după cum urmează:

$$CoV_{s,k} = \frac{{sd\left( {x_{s, \cdot ,k} } \right)}}{{\overline{x}_{s, \cdot ,k} }},$$

fiabilitatea măsurată ca corelație intra-eșantion a expresiei genelor

fiabilitatea unui sistem de măsurare poate fi evaluată prin coeficientul de corelație intraclass (ICC)54,55. ICC se aplică măsurătorilor care pot fi organizate în grupuri și descrie modul în care măsurătorile similare ale aceluiași grup sunt între ele. Definiția ICC modernă împrumută cadrul de analiză a varianței (ANOVA), sau mai precis ANOVA cu efecte aleatorie55. Tipul de ANOVA depinde de designul experimental și urmează în general definiția din articolul lui Shrout publicat în 197955. ICC(1,1) și ICC (1,k) se bazează pe modelul de efecte aleatorii unidirecționale și se aplică cazului în care fiecare grup este evaluat de un set diferit de evaluatori k selectați aleatoriu dintr-o populație mai mare de evaluatori. ICC(2,1) și ICC(2,k) se bazează pe modelul de efecte aleatorii bidirecționale și se aplică cazului în care un eșantion aleatoriu de evaluatori k este preselectat dintr-o populație mai mare și fiecare evaluator evaluează fiecare grup exact o dată (adică., fiecare evaluator evaluează n grupuri cu totul). ICC(3,1) și ICC (3,k) se bazează pe modelul de efecte mixte bidirecționale și se aplică cazului în care fiecare grup este evaluat de fiecare dintre aceiași evaluatori k, care sunt singurii evaluatori din populație. Al doilea parametru din ICC(,) denotă dacă ICC este de a măsura fiabilitatea unei singure măsurători sau media măsurătorilor K.

pentru setul de date de referință SEQC cu biblioteci replicate pentru fiecare eșantion, ICC(1,1) sau ICC(1,k) s-au potrivit obiectivului nostru, deoarece, pentru o genă g, expresia genetică a bibliotecilor replicate pentru diferite eșantioane (sau grupuri diferite în contextul anterior) nu au fost evaluate exact în aceleași condiții (sau evaluate de aceiași evaluatori în contextul anterior). Am ales să folosim ICC (1, k), deoarece bibliotecile replicate sunt disponibile pentru majoritatea experimentelor. Matematic, un model de efecte aleatoare unidirecționale poate fi formulat ca

$$Y_{ij} = \mu + \alpha_{j} +{\varepsilon_{ij}} ,$$

$$ICC\left( {1,k} \right) = \frac{BMS-WMS}{{BMS}},$$

am calculat ICC pentru fiecare genă K, $K = 1 \ldots K$ și apoi am folosit mediana tuturor ICC ca măsură finală a fiabilității.

am investigat și alte valori potențiale, cum ar fi reproductibilitatea, care este definită ca corelația Spearman între două biblioteci replicate ale aceluiași eșantion (nota suplimentară 2). Corelația Spearman a variat de la 0.993 până la 0,996 (suplimentar Fig. S8) folosind AllGenes. Am renunțat la metrica de reproductibilitate din cauza intervalului dinamic relativ mic.

evaluarea utilității valorilor de referință pentru selectarea conductelor ARN-Seq

am clasat baza conductelor ARN-seq pe rangul mediu al celor trei valori de referință (adică precizie, precizie și fiabilitate). Apoi, am evaluat utilitatea valorilor de referință examinând dacă conductele cu performanțe bune și slabe identificate pe baza valorilor de referință au fost informative pentru a deduce performanța predicției bazate pe expresia genelor a rezultatului bolii și semnificația statistică a stratificării pacienților pentru toate criteriile clinice finale (de exemplu, criteriile finale SEQC-neuroblastom EFS și OS și criteriul final de supraviețuire TCGA-pulmonar-adenocarcinom).

În primul rând, pentru cele 278 de conducte reprezentative ARN-seq aplicate setului de date SEQC-benchmark, am calculat rangul mediu folosind un subset de valori de referință ca indicator final de performanță pentru fiecare conductă. În total, am avut 6 metrici (3 metrici benchmark 2 seturi de gene), și am investigat 12 subseturi (4 3) din cele 6 metrici folosind următoarele criterii:

(1)
patru combinații ale celor trei metrici benchmark cu cel puțin două într—un subset-o combinație cu toate cele trei metrici benchmark, trei combinații cu două din cele trei metrici benchmark.
(2)
trei subseturi formate din valori derivate din toate genele, cele derivate din gene cu exprimare scăzută sau o combinație a ambelor.

În al doilea rând, pentru fiecare dintre cele 278 de conducte ARN-seq reprezentative (156 pentru obiectivul final de supraviețuire TCGA-pulmonar-adenocarcinom), am calculat ASC și MCC imbricate de validare încrucișată, așa cum este descris în secțiunea „metodă” „modelarea predictivă a neuroblastomului și adenocarcinomului pulmonar”, rezultând 834 (468 pentru obiectivul final de supraviețuire TCGA-pulmonar-adenocarcinom) valorile ASC și MCC pentru fiecare adică., 278 de conducte clasificatoare de 3 sau 156 de conducte clasificatoare de 3) (tabelele suplimentare S11,S12). De asemenea, am modelat funcțiile de supraviețuire folosind analiza Kaplan–Meier pentru fiecare conductă, așa cum este descris în secțiunea „metodă” „analiza de supraviețuire Kaplan–Meier”. Pentru fiecare conductă ARN-seq, am rezumat performanța predicției bazate pe expresia genelor a rezultatului bolii folosind atât ASC medie, cât și MCC în clasificatori și rata de succes a stratificării pacientului (adică., separarea semnificativă statistic a două curbe Kaplan-Meier) pe toate iterațiile și clasificatorii din cadrul imbricat de validare încrucișată.

în cele din urmă, am identificat conductele de top 10% cu performanțe bune și conductele de jos 10% cu performanțe slabe pe baza rangului mediu al unui subset al celor trei valori de referință. Performanța de predicție corespunzătoare (adică., ASC și MCC) a conductelor cu performanțe bune a fost testat față de cel al conductelor cu performanțe slabe folosind testul unilateral Wilcoxon rank-sum cu ipoteza nulă că mediana fostului grup nu era mai mare decât cea a ultimului grup.

modelarea predictivă a neuroblastomului și adenocarcinomului pulmonar

am evaluat performanța a 278 de conducte ARN-seq în ceea ce privește luarea deciziilor bazate pe expresia genelor folosind setul de date SEQC-neuroblastom48. Setul de date SEQC-neuroblastom și obiectivele clinice asociate sunt rezumate în tabelul suplimentar S9. Conductele ARN-seq au fost evaluate în ceea ce privește prezicerea rezultatelor pacienților cu neuroblastom pentru două obiective clinice utilizând validarea încrucișată imbricată (Fig suplimentar. S13) 56,57. De asemenea, am evaluat în mod similar performanța a 156 de conducte ARN-seq aplicate setului de date TCGA-pulmonar-adenocarcinom pentru a prezice rezultatul bolii. Setul de date TCGA-pulmonar-adenocarcinom și criteriul clinic final asociat sunt rezumate în tabelul suplimentar S10.

validarea încrucișată imbricată implică instruirea și testarea unui model optim de predicție. Acest lucru se realizează folosind optimizarea triplă sau validarea încrucișată interioară, aplicată subsetului de antrenament din validarea încrucișată exterioară de cinci ori. Odată identificați parametrii optimi finali ai modelului de predicție (adică hiperparametrii Clasificatorului și dimensiunea caracteristicii), modelul final este instruit folosind întregul subset de antrenament și apoi testat folosind pliul rămas din validarea încrucișată exterioară de cinci ori. Acest proces a fost repetat pentru zece iterații. Am efectuat validarea încrucișată imbricată separat pentru fiecare dintre cei trei clasificatori (adică., impuls adaptiv, regresie logistică și mașini vectoriale de sprijin) și a folosit redundanța minimă, relevanța maximă (mRMR) metoda de selecție a caracteristicilor pentru a alege dimensiunile optime ale caracteristicilor din intervalul 5 până la 40 cu dimensiunea pasului de 558.

Kaplan–Meier survival analysis

pentru fiecare conductă ARN-seq și clasificator (adică 278 conducte clasificatori 3 pentru punctele finale SEQC-neuroblastom și 156 conducte clasificatori 3 pentru punctul final de supraviețuire TCGA-pulmonar-adenocarcinom), am modelat funcțiile de supraviețuire Kaplan–Meier pe baza etichetelor prezise ale fiecărui eșantion. Apoi am folosit testul log-rank cu două cozi pentru a determina dacă curbele de supraviețuire estimate pentru fiecare grup de pacienți preziși au fost statistic diferite.

analiza varianței și calculul contribuției fiecărui factor de conductă ARN-seq la varianța generală a conductei

am folosit analiza varianței (ANOVA) pentru a determina dacă fiecare factor de conductă ARN-seq contribuie semnificativ la varianța fiecăreia dintre cele trei valori de referință (adică precizie, precizie și fiabilitate), precum și la varianța performanței de predicție (adică ASC și MCC). Pentru fiecare dintre cele trei valori de referință, am folosit un model liniar (funcția R „lm”) pentru a potrivi datele din toate cele 278 de conducte folosind metrica ca variabilă dependentă și factorii conductei ARN-seq ca variabile categorice independente. Am considerat următorii factori ca variabile categorice independente-algoritm de mapare, strategie de mapare (adică spliced vs.un-spliced), raportare de mapare (adică, single-hit vs. multi-hit), algoritm de cuantificare și algoritm de normalizare. Am inclus toți factorii și interacțiunile lor bidirecționale în modelul liniar. Pentru fiecare dintre punctele finale de predicție, am aplicat aceeași tehnică pentru a potrivi datele din toate cele 278 de conducte folosind ASC medie sau MCC ca variabilă dependentă și același set de factori de conducte ARN-seq ca variabile categorice independente. Apoi am efectuat ANOVA pe modelul liniar (funcția R „anova”). ANOVA calculează o „sumă de pătrate” (adică varianță) atribuită fiecărui factor sau interacțiune și folosește un test F pentru a determina dacă varianța este semnificativă statistic. Am calculat procentul pe care fiecare factor sau interacțiune îl contribuie la varianța totală prin calcularea raportului dintre „suma pătratelor” pentru fiecare factor și suma totală a pătratelor.

analiza de regresie

am investigat relația dintre profilurile de aliniere sau caracteristicile distribuției expresiei genelor și valorile de referință. Profilurile de aliniere au inclus numărul total de fragmente mapate, numărul total de lecturi care acoperă regiunea intronică, numărul total de lecturi cu inserții sau ștergeri, numărul total de lecturi perfect potrivite, numărul total de lecturi cu cel mult o nepotrivire și numărul de nepotriviri pe citire mapată. Fiecare algoritm de aliniere a fost reprezentat de statisticile medii pe 2 site-uri de secvențiere, 4 eșantioane, 4 biblioteci replicate și 2 benzi. Folosind pachetul „masă” în R, am adoptat estimarea M cu abordarea de ponderare Huber pentru a se potrivi modelelor de regresie liniară robustă între o variabilă dependentă (performanță metrică de referință) și o variabilă explicativă (un profil de aliniere). Estimarea M cu abordarea de ponderare Huber este o metodă de regresie robustă în prezența valorilor aberante. Caracteristicile distribuției expresiei genice au inclus quartila inferioară, mediana, quartila superioară, maximă, gama interquartilă, deviația standard, asimetria, kurtoza și entropia unei distribuții a expresiei genice. Am folosit aceeași estimare M cu abordarea de ponderare Huber pentru a se potrivi modelelor de regresie liniară robustă și apoi am raportat eroarea standard reziduală pentru fiecare model.

Disclaimer

opiniile prezentate în acest articol nu reflectă neapărat opinia sau politica actuală sau viitoare a Administrației SUA pentru alimente și medicamente. Orice mențiune a produselor comerciale este pentru clarificare și nu este destinată ca o aprobare.