Hatása RNS-seq adatok elemzése algoritmusok génexpresszió becslési downstream jóslat | Tudományos Jelentések

FDA SEQC benchmark adatok

Az FDA SEQC-benchmark adatok (génexpresszió Omnibus csatlakozási száma GSE47792) tartalmaz, párosított-end RNS-seq adatok felhasználásával az Illumina HiSeq 2000 platform, az olvassa el hossza 100 nucleotides7. A SEQC—benchmark adatkészlet egy részét két helyszínen—a pekingi genomikai Intézet (BGI) és a Mayo Clinic (május) – szekvenáltuk. Négy mintát használtunk (azaz A, B, C és D), mindegyikben négy replikációs könyvtárat készítettünk a szekvenálási helyszíneken. Az a minta tartalmazza az univerzális humán referencia RNS-t( UHRR), a B minta az emberi agy referencia RNS-ét (HBRR), a C minta az A és B keverékét (75% A és 25% B), A D minta pedig az A és B keverékét (25% A és 75% B). Minden mintadarabhoz egy áramlási cella két sávjának adatait használtuk. A SEQC kvantitatív PCR (qPCR) referenciaadatkészletet is szolgáltatott, amely 20,801 gént tartalmaz, amelyeket PrimePCR-rel (Bio-Rad, Hercules, Kalifornia) vizsgáltak. Minden PrimePCR gént egyszer megvizsgáltak mind a négy mintára (azaz A, B, C és D). Az FDA SEQC benchmark adatkészleteit és mintáit az S5 és S6 kiegészítő táblázatok foglalják össze.

neuroblasztóma és tüdő adenokarcinóma adatkészletek

egy 176 mintás neuroblasztóma adatkészletet használtunk (egy nagyobb 498 mintás adatkészlet egy részhalmaza; ebben a kéziratban SEQC-neuroblastoma néven említik) az RNS-seq csővezetékek teljesítményének értékelésére a betegség kimenetelének génexpresszió-alapú előrejelzése szempontjából. Ezeket a mintákat a kölni egyetemi Gyermekkórház szolgáltatta, majd a BGI-ben az Illumina platform48 segítségével szekvenálták. Minden 176 mintát vettek, a magas kockázatú betegek, hogy meghatározott, mint akár a 4. szakasz elsősorban a korban > 18 hónap vagy MYCN-erősített daganatok bármely szakaszában vagy az életkor. A SEQC-neuroblastoma adatkészletet a Gse47792 csatlakozási számmal a gén expressziós Omnibusba helyezték.

két klinikai végpontot—eseménymentes túlélést (EFS)-jósoltunk, vagyis olyan események előfordulását, mint a haladás, a relapszus vagy a halál, valamint a teljes túlélés (OS), azaz a halál. Mindkét végpont esetében a betegeket két csoportra osztották (azaz magas kockázat, szemben az alacsony kockázatokkal). A magas kockázatú betegek egy előre meghatározott túlélési időküszöb előtt tapasztaltak eseményt vagy haltak meg, míg az alacsony kockázatú betegek a küszöbérték után eseményt tapasztaltak vagy meghaltak, vagy az utolsó követésük meghaladta a küszöbértéket. Az EFS és OS túlélési ideje két, illetve három év volt. A küszöbértékeket a magas kockázatú és alacsony kockázatú betegek számának kiegyensúlyozására választották ki. A SEQC-neuroblastoma adatkészlet részleteit az S9 kiegészítő táblázat tartalmazza.

a rák Genom Atlasz (TCGA) adattárából egy 87 mintás tüdő adenokarcinóma RNS-seq adatkészletet is használtunk. A predikciós végpont a túlélés is volt, és ugyanazokat a kritériumokat alkalmaztuk a nagy kockázatú és alacsony kockázatú csoportok meghatározására, amelyek túlélési ideje két év. A kétéves küszöböt a magas kockázatú és alacsony kockázatú betegek számának kiegyensúlyozására választották. A TCGA-lung-adenokarcinóma adatkészlet részleteit az S10 kiegészítő táblázat tartalmazza.

A qPCR benchmark adatkészlet szűrése a

gének referenciakészletének előállításához a qPCR mérések változékonysága és a qPCR platformok7 közötti nézeteltérések miatt szűrtük a qPCR benchmark adatkészletet, hogy megőrizzük a “helyes” viselkedést mutató géneket. Ezután ezeket a géneket használtuk a benchmark mérőszámok (azaz pontosság, pontosság, megbízhatóság, reprodukálhatóság) kiszámításához. Az ilyen szűrési folyamatot a kiegészítő ábra foglalja össze. S1.

Kezdve a kezdeti készlet 20,801 gének mintájukat a PrimePCR, mi szűrt ezek a gének megőrzése csak a gének, amelyek számszerűsített, mint a nem-nulla (azaz kimutatható), valamint a Ct (ciklus küszöb) értékek legfeljebb 35 (35 jelzi, hogy észlelése csak egyetlen molekula egy minta). A PrimePCR adatok szűrése 14 014 gént eredményezett, amelyek szintén egyeztek a SEQC-benchmark RNS-seq adatkészlet feltérképezéséhez használt AceView transzkriptómával.

ezt Követően tudjuk szűrni a 14,014 qPCR gének megőrzése csak 12,610 gének mutatott a megfelelő titrálás érdekében, (HOGY), valamint a várható keverési arány (EMR). Ennek a folyamatnak a részletei a “QPCR gének titrálási sorrend szerinti szűrése és várható keverési arányok” szakaszban találhatók.

Végül, mivel az összehasonlító mutatók, mint például pontossággal érzékeny nulla vagy nagyon alacsony kifejező gének, mi a további kiválasztott gének fejezték ki, mint a nem-nulla, mind párhuzamos, mind a mintákat minden szekvenálás oldalak minden 278 RNS-seq csővezetékek. A végső referenciakészlet csak 10,222 qPCR gént tartalmaz (a továbbiakban: “minden gén”), amelyeket az RNS-seq csővezetékek mindhárom referenciaértékének kiszámításához használtak.

az előző vizsgálat alapján az alacsonyabb expresszióval rendelkező gének nagyobb valószínűséggel következetlenek a pipelinek49 között. Így az A, B, C és D minták átlagos qPCR expressziója alapján a 10,222 génben alacsony expressziós géneket is azonosítottunk.a 10,222 gén legalacsonyabb 20%-át (azaz 2044 gént, amelyeket “alacsony expresszáló géneknek” neveznek) szintén felhasználták az RNS-seq csővezetékek referenciaértékeinek kiszámításához. Ez a kialakítás lehetővé tette számunkra, hogy megvizsgáljuk az RNS-seq csővezetékek képességét az alacsony expressziós génexpresszió becslésében.

A QPCR gének titrálási sorrend szerinti szűrése és a várható keverési arányok

a SEQC-benchmark adatkészletek (RNS-seq és qPCR) egyedi tulajdonságokkal rendelkeznek, amelyek lehetővé teszik a mennyiségi meghatározás helyességének értékelését. A detektálható (azaz nem nulla és Ct ≤ 35) és AceView-párosított qPCR gének azonosítása után két mérőszámot (TO és EMR) használtunk a benchmark qPCR adatkészlet további szűrésére, így csak “helyes” qPCR géneket hagytunk. A TO és EMR mutatók az adatok egyedi keverési tulajdonságait rögzítik, azaz

$C = \ frac{3}{4}a+\frac{1}{4}b\, \text{és }\,= \frac{1}{4}a+\frac{3}{4}B.$$

Mivel ez a tulajdonság, minden gének várhatóan fejezte ki a következő parancsot, attól függően, hogy a relatív kifejezés, a minták, illetve A B:

$$A\ge C\ge D\ge B \,\text {, vagy }\, Egy\le a C\le D\le B.$$

$${\stackrel{-}{q}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}{q}_{s,n,k,}$$

a készlet qPCR gének, hogy kövesse a megfelelő titrálás rendelés

egyetlen párhuzamos qPCR adatok (pl., az általunk elemzett PrimePCR adatkészlet), az egyetlen qPCR mérés inherens variabilitása néhány hamis negatív gént eredményezhet,amelyek követik a helyes, de nem azonosíthatók. Az irodalomból50, 51, a QPCR-mérések replikációs együtthatója általában 15% vagy annál nagyobb, ezért ezt a számot használtuk annak meghatározására, hogy egy gén követi-e a helyes értéket. Matematikailag kiszámoltuk a plusz és mínusz egy szórás tartományát minden qPCR méréstől, és margóként használtuk. A ${K}_{to}$ felülvizsgált egyenletei a következők:

${K} _ {TO} = {K} _ {TO, a\ge B} \ cup {K}_{TO, a\le B,} $

ahol $a = 1,15, b = 0,85$

emellett a mintáknak külön keverési arányt kell mutatniuk. Tekintettel arra, hogy az arány a minták közötti, valamint B

$${R}_{A,B}=\frac{A}{B}$$

az EMR között mintákat, C, D

$$EM{R}_{C,D}=\frac{3z\cdot {R}_{A,B}+1}{z\cdot {R}_{A,B}+3}\cdot \frac{z+3}{3z+1}$$

$${R}_{A,B}\a \maradt\equiv ,$$

$${R}_{C,D}\a \maradt\equiv \maradt,\text{ s}$$

$$EM{R}_{C,D}\a \maradt\equiv ),$$

végül határozza meg, hogy egy gén, amely megfelel az EMR kritérium a következőképpen:

$${K}_{EMR}=\maradt\{k|\left({{R}_{C,D}^{Alacsonyabb}\le {EMR}_{C,D}^{Felső}|}_{{k, R}_{C,D}\ge EM{R}_{C,D}}\right)\v \left({{R}_{C,D}^{Felső}\ge {EMR}_{C,D}^{Alacsonyabb}|}_{{k, R}_{C,D}\le EM{R}_{C,D}}\right)\rendben\}$$

RNS-seq adatok elemzése csővezetékek—leképezés, számszerűsítés pedig normalizálás

azt vizsgáltuk, 278 RNS-seq csővezetékek, amely tartalmazza tizenhárom sorrend feltérképezése algorithms18,19,20,21,22,23,24,25,26,27,28,29, három kategóriában kifejezés mennyiségi algorithms31,32,33, hét kifejezés a normalizálás módszerek. Az S2-S4 kiegészítő táblázatok összefoglalják az egyes csővezeték-komponensekhez figyelembe vett összes lehetőséget (szekvencia leképezés, kifejezés számszerűsítés, kifejezés normalizálás). A vizsgált tizenhárom feltérképezési algoritmus a Bowtie18, Bowtie219, BWA20, Gsnap21, Magic22 (egy új csővezeték, amelyet az NCBI fejlesztett ki a SEQC projekthez: ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic), MapSplice23, Novoalign (a novocraft által kifejlesztett kereskedelmi célú csomag: https://www.novocraft.com/products/novoalign/), OSA24, RUM25, STAR26, Subread27, TopHat28 és WHAM29. Vannak, akik a transzkriptómához nem illesztett leképezést használnak, mások pedig a genomhoz illesztett leképezést végeznek. A Magic mind párhuzamosan használja, mind összehasonlítja az egyes igazítások minőségét, hogy a legjobbat több cél között tartsa. A leképezési algoritmusok csak egyedi leképezést jelenthetnek, vagy olvasásonként több leképezési helyet engedélyezhetnek. A számszerűsítési algoritmusok közé tartoznak az egyszerű szám alapú módszerek (azaz HTSeq31) és a Poisson eloszlásalapú valószínűségi módszerek, amelyeket genomikus (azaz Mandzsettagombok32) vagy transzkriptom leképezési adatokra (azaz RSEM33) alkalmaznak. A varázslat, a RUM és a Szubread (azaz, featureCounts52) a csővezetékek beágyazott számszerűsítési módszereket tartalmaznak, amelyek az egyszerű szám alapú módszerek kategóriájába tartoznak. Normalizálás módszerek közé egyszerű méretezési módszerek (azaz, töredékek / millió csatlakoztatott töredékek , töredékek per kilobase a gén hossz / millió csatlakoztatott töredékek , medián, valamint a felső kvartilis), robusztus méretezési módszerek (azaz relatív napló kifejezés, illetve díszítve jelenti, az m-értékek ), illetve módszerek ágyazott speciális csővezetékek (azaz Mágikus kifejezés index).

szekvencia leképezés

a szekvenciákat egymást követő lépésekben leképeztük minden egyes hivatkozásra, akár nem illesztett vagy illesztett leképezési algoritmusok segítségével. Az un-spliced mapping olyan algoritmusokra utal, amelyek teljes olvasási szekvenciákat igazítanak (pl. Bowtie2, BWA és Novoalign), míg az spliced mapping olyan algoritmusokra utal, amelyek szegmensekre bontják a beolvasott hosszú réseket vagy intronokat (például TopHat és MapSplice). Az un-spliced leképezés első lépésében megpróbáltuk feltérképezni az összes párosított végű szekvenciát az ERCC / MT / rRNA hivatkozásra (azaz A külső RNS kontrollálja a szekvenciákat, a mitokondriális genomot és a riboszomális RNS szekvenciákat). Az összes fel nem használt olvasópárt ezután leképezték az AceView transcriptome-ra. Végül az összes olyan olvasópárt, amely nem térképezte fel sem az ERCC/MT/rRNA, sem az AceView hivatkozásokat, leképezték az emberi genom referenciájára. A transzkriptom leképezési koordinátákat ezután Genom leképezési koordinátákra fordították, majd egyesítették az emberi genom leképezési eredményeivel, hogy elkészítsék a végső eredményeket (kiegészítő ábra. S21, bal oldali panel). Mi használt Bowtie2, mint a térképező az első lépés az összes spliced mapping csővezetékek (kiegészítő ábra. S21, jobb oldali panel). Spliced mapping algoritmusok vagy közvetlenül leképezett olvas az emberi genom (pl MapSplice és GSNAP) vagy leképezett egész un-spliced olvas a transzkriptóm, majd egyesítette ezeket a leképezési eredmények spliced leképezési eredmények a fennmaradó olvas az emberi genom (pl TopHat és OSA). Az S2 kiegészítő táblázat összefoglalja a tanulmányban vizsgált összes térképészeti eszközt.

Bowtie2, Gsnap, Novoalign, TopHat, and WHAM lehetővé teszik a jelentett leképezések számának ellenőrzését olvasópáronként. Alapértelmezés szerint ezek az algoritmusok általában egyetlen legjobb leképezési helyet jelentenek olvasópáronként. Néhány kvantifikációs algoritmus azonban több kétértelmű leképezési helyre vonatkozó információkat használhat a génexpresszió becslésének javítása érdekében. Így az együtéses jelentések mellett olyan leképezési eredményeket is létrehoztunk, amelyek olvasásonként akár 200 találatot jelentettek (multi-hit). A Bowtie mapping pipeline-t is felvettük az RSEM számszerűsítésére specifikus térképezési paraméterekkel, a következő szakaszban33 leírtak szerint.

az összes szekvencia-igazítási eszköz parancssori opcióit az 1. kiegészítő megjegyzés részletezi.

Gene expression quantification

a mennyiségi meghatározási szakasz három kategóriát tartalmazott: a szám—alapú kvantifikátorok (azaz a HTSeq és a mágikus, RUM-és Szubread-csővezetékek beépített kvantifikátorai), a genomikus leképezés valószínűségi modell-alapú kvantifikátorai (azaz, Mandzsettagombok), és valószínűségi modell alapú számszerűsítők a transzkriptom leképezéshez (azaz RSEM). Ezeknek a számszerűsítőknek a főbb jellemzőit az S3 kiegészítő táblázat foglalja össze. A mandzsettagombok egy Poisson modell alapú számszerűsítő, amely az igazítási információk alapján becsüli az olvasási hozzárendelési valószínűségeket. 32. Képes mind az átiratok összeállítására, mind a gén vagy az átirat kifejezések számszerűsítésére. Ebben a tanulmányban letiltottuk az összeszerelési funkciót, és a genom annotation GTF fájlt számszerűsítési referenciaként adtuk meg. HTSeq egy naiv gróf alapú számszerűsítő, amely hozzárendeli leképezett olvas genes31. A HTSeq képes számszerűsíteni a gén expresszióját, de nem az átirat expresszióját. Az RSEM egy Poisson modell alapú számszerűsítő is, amely koncepciójában hasonló a Cufflinks33-hoz. A multi-hit olvasás információi mind a Mandzsettagombok, mind az RSEM számára fontosak. Ezek az algoritmusok több találatos olvasási információkat használnak a gén vagy az átirat kifejezésének pontosabb becsléséhez.

az igazítási csővezetékek leképezési eredményei nem mindig voltak kompatibilisek a számszerűsítők három kategóriájával. A mandzsettagombok megkövetelik, hogy az igazítási eredmények igazítási koordináták szerint legyenek rendezve, a többszörös találati olvasások pedig ” NH ” címkével legyenek jelölve a SAM fájl attribútummezőjében. A HTSeq megköveteli, hogy az igazítási eredmények olvasási nevek szerint legyenek rendezve, és hogy az ” NH ” címke ne legyen jelen a SAM fájlban. Az RSEM csak a transzkriptom leképezést számszerűsíti, azaz leképezi és transzkriptomikus koordinátákban közli. Ezenkívül az RSEM csak a nem rögzített nyomvonalakat kezeli. Így szűrésre van szükség a gapped nyomvonalak eltávolításához. Ezen követelmények miatt a számszerűsítés előtt előzetesen feldolgoztuk az összes igazítási eredményt. Összefoglalva, húsz igazítás csővezetékek, beleértve a spliced, un-spliced, single-hit, és multi-hit csővezetékek, alkalmasak voltak gróf-alapú számszerűsítés. Tizenhat Igazító csővezeték volt alkalmas Mandzsettagombokra, csak tíz volt alkalmas az RSEM számára. Az RSEM-et kifejezetten úgy tervezték, hogy jól működjön a Bowtie-val. Így ezt a beágyazott leképezési és számszerűsítési csővezetéket is bevontuk.

az összes számszerűsítési eszköz parancssori opcióit az 1. kiegészítő megjegyzés részletezi.

génexpresszió normalizálása

RNS – seq adatok normalizálása lehetővé teszi a minták közötti összehasonlítást. Általában a normalizálási módszerek korrigálják a könyvtár méretét (azaz a mintában szereplő összes olvasás számát), amely a minta közötti variancia elsődleges forrása. Hét normalizálási módszert vizsgáltunk-fragmensek millió leképezett fragmentumonként( FPM), fragmensek kilobázisonként génhosszúságonként millió leképezett fragmentumonként (FPKM), medián (Med.), a felső kvartilis( UQ), a relatív log kifejezés (RLE), az M-értékek (TMM) vágott átlaga és az expressziós index (Eindex, amely a mágikus csővezetékre jellemző) (lásd az S4 kiegészítő táblázatot). Ezen normalizációs módszerek mindegyikét a SEQC-benchmark adatkészlet következő matematikai leírása alapján írjuk le.

$\overline{x}_{s, \cdot ,k} = \frac{1}{n}\mathop \sum \limits_{n = 1}^{n} x_{s,n,k}$

a jelen gének halmazát

– nek határoztuk meg,és a végső jelen génkészlet

$k_{p} = k_{p,BGI} \Cap k_{p, május} .$$

ugyanazt a jelenlegi gens-készletet használtuk az RNS-seq csővezeték összes normalizálási módszeréhez.

A teljes száma jelen gének egy adott minta s szaporodik n

$$x_{s,n} = \mathop \összeg \limits_{{k \a K_{p} }} x_{s,n,k} ,$$

az átlagos teljes száma jelen gének minden adatokat egyetlen oldal

$$\bar{x} = \frac{1}{4}\frac{1}{N}\mathop \összeg \limits_{s} \mathop \összeg \limits_{{n = 1}}^{N} x_{{s,n}}.$

így definiáltuk az FPM-normalizált expressziót minden egyes S mintára, az n replikációt, a K gént pedig

$ Y_{s, n, k}^{FPM} = \ frac{{x_{s, n, k} \cdot \ overline{x}}} {{{x_{s, n}}}}}}}}.$$

Medián -, illetve felső kvartilis-normalizált kifejezés minden egyes minta s, n szaporodik, s gene k, akkor meghatározása:

$$y_{s,n,k}^{Med} = \frac{{x_{s,n,k} \cdot \tilde{x}}}{{\tilde{x}_{s,n} }}{\text{de }}y_{s,n,k}^{UQ} = \frac{{x_{s,n,k} \cdot \kalap{x}}}{{\kalap{x}_{s,n} }}.{ } $ $

az FPKM normalizálásához meghatároztuk a K gén hosszát $\ell_{k}$, amely az aceview transzkriptom által meghatározott génhez kapcsolódó összes exon egyesítésének hossza. Az fpkm eredeti formulájában a génhosszra 1 × 103, a leképezett fragmentumok Teljes számára 1 × 106 méretezési faktorokat alkalmaztak. Annak érdekében, hogy az összes normalizációs módszer között összehasonlítható dinamikus tartományt tartsunk fenn, ehelyett az összes jelen gén átlagos génhosszával és átlagos teljes számával skálázunk. Az összes jelen gén átlagos hossza

$\overline{\ell } = \frac{1}{{\left| {k_{p}}} \right|}}\mathop \sum \limits_{{k \in K_{p}}} \ell_{k}.$$

így az fpkm-normalizált expresszió minden egyes minta esetében n, és a K gén

$Y_{s, n, k}^{fpkm} = \frac{{x_{s,n,k} \cdot \overline{\ell } \cdot \overline{x}}}} {{{{x_ {s,n} \cdot \ell_ {k}}}}}}}.$$

a TMM és RLE normalizációs módszerek hasonlóak az FPM normalizációhoz, de további méretezési tényezőt vezetnek be a könyvtár méretének beállításához. Az edgeR csomagot R-ben használtuk,hogy megbecsüljük az egyes minták skálázási tényezőjét replikate36, 53. A TMM módszer kiválaszt egy referencia könyvtárat a minta replikációs könyvtárak csoportjából, majd kiszámítja a gén-bölcs naplókifejezési arányokat (M-értékek) és a gén-bölcs átlagos naplókifejezési értékeket (a-értékek) a Célkönyvtár és a referencia könyvtár között. Az M-értékek és az A-értékek szélsőséges számait levágják, a Célkönyvtár méretezési tényezője a fennmaradó M-értékek súlyozott átlaga. Az RLE módszer egy skálázási tényezőt határoz meg úgy, hogy először a medián könyvtárat határozza meg gén-bölcs geometriai átlagként a mintapéldányok között35. Az egyes célkönyvtárak medián arányát a medián könyvtárhoz méretezési tényezőként veszik figyelembe. TMM – s RLE-normalizált kifejezés minden egyes minta s, n szaporodik, s gene k, akkor meghatározása:

amennyiben $\kalap{f}_{s,n}^{TMM}$, valamint a $\kalap{f}_{s,n}^{RLE}$ a nagyítási tényező minta-s, szaporodik n.

RNS-seq csővezeték teljesítménymutatók

az összehasonlító mutatók az RNS-seq csővezetékek össze Kiegészítő Táblázat S7.

Pontossággal mért eltérés qPCR hivatkozások

$${\stackrel{-}{y}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}{y}_{s,n,k}$$

az Adott minták, illetve A B, a teljes napló-arány eltérése RNS-seq-alapú kifejezés a qPCR-alapú kifejezés egy gén k

$$\Delta_{\frac{A}{B},k} = \left | \log_2\left ( \frac{\bar{x}_{A,.,k}} {\bar{x} _ {B,.,k}} \ jobb) – \ log_2 \ bal (\frac {\bar{Q} _ {A,.,k}} {\bar{Q} _ {B,.,k}} \ right) \ right/, $$

és a végső pontossági mutatót az összes ${\Delta }_{{\FRAC{A}{B},K}}$, $K = 1 \ldots K$ mediánjaként határozták meg.

a génexpresszió variációjaként mért pontosságot a replikációs könyvtárakban

minden génre és minden mintára a következő módon számítottuk ki a variációs együtthatót (cov) :

$CoV_{s,k} = \FRAC{{sd\left( {x_{s, \cdot ,k} } \right)}}}}}} {\overline {x}_{s, \cdot ,k}}}},$

a génexpresszió mintán belüli korrelációjaként mért megbízhatóság

a mérési rendszer megbízhatóságát az intraclass korrelációs együtthatóval (ICC)lehet értékelni 54,55. Az ICC olyan mérésekre alkalmazható, amelyek csoportokba rendezhetők, és leírja, hogy ugyanazon csoport hasonló mérései hogyan viszonyulnak egymáshoz. A modern ICC definíció kölcsönzi a variancia elemzésének keretét (ANOVA), vagy pontosabban ANOVA véletlenszerű hatásokkal55. Az ANOVA típusa a kísérleti tervezéstől függ, és általában követi a Shrout 1979-ben megjelent cikkében55. ICC(1,1), valamint a nemzetközi BÜNTETŐBÍRÓSÁG(1,k) alapján az egyirányú véletlen hatás modell alkalmazható a helyzet, hogy minden csoport értékeli más k számára véletlenszerűen kiválasztott egy nagyobb lakosság számára. Az ICC(2,1) és az ICC(2,k) a kétirányú random effects modellen alapulnak, és arra az esetre alkalmazhatók, ha a K raterek véletlenszerű mintáját nagyobb populációból választják ki, és minden egyes riter pontosan egyszer értékeli az egyes csoportokat (azaz, minden rater értékeli n csoportok összesen). Az ICC (3,1) és az ICC(3,k) a kétirányú vegyes hatások modelljén alapulnak, és alkalmazandók arra az esetre, ha az egyes csoportokat ugyanazon k raterek értékelik, akik az egyetlen raterek a populációban. Az ICC (,) második paramétere azt jelzi, hogy az ICC-nek meg kell-e mérnie egy mérés megbízhatóságát vagy a K mérések átlagát.

a SEQC benchmark adatkészlet a párhuzamos könyvtárak minden egyes minta, ICC(1,1), vagy a nemzetközi BÜNTETŐBÍRÓSÁG(1,k) szerelt a cél, mivel a gén g, génexpresszió a párhuzamos könyvtárak a különböző mintákat (vagy különböző csoportok az előző összefüggésben) nem értékelték alatt pontosan ugyanazt a feltételek (vagy értékelni az azonos számára az előző összefüggésben). Úgy döntöttünk, hogy az ICC-t(1, k) használjuk, mivel a legtöbb kísérlethez replikációs könyvtárak állnak rendelkezésre. Matematikailag egy véletlen hatás modell lehet megfogalmazni, mint

$$Y_{ij} = \mu + \alpha_{j} +{\varepsilon_{ij}} ,$$

$$ICC\left( {1,k} \right) = \frac{BMS – WMS}{{BMS}},$$

kiszámoltuk, ICC minden egyes gén k $k = 1 \ldots K$, majd használják a medián minden ICCs, mint a végső intézkedés a megbízhatóság.

más lehetséges mutatókat is vizsgáltunk, például a reprodukálhatóságot, amelyet ugyanazon minta Két replikátumkönyvtára közötti Spearman korrelációnak definiálunk (2.Kiegészítő Megjegyzés). A Spearman korreláció között mozgott 0.993 hogy 0.996 (kiegészítő ábra. S8) AllGenes használatával. A viszonylag kis dinamikatartomány miatt elvetettük a reprodukálhatósági mutatót.

Értékelése a segédprogram a benchmark mérőszámok RNS-Seq csővezeték kiválasztása

helyen Vagyunk RNS-seq csővezetékek alapja az átlagos rank a három az összehasonlító mutatók (pl. pontosság, precizitás, megbízhatóság). Majd értékelni a segédprogram a benchmark mutatókat vizsgálva, hogy jó teljesítő szegény teljesítő csővezetékek azonosított alapján az összehasonlító mutatók volt informatív az következtetett, hogy a teljesítmény a gén kifejeződése-alapú jóslat a betegség kimenetelét, valamint statisztikai szignifikanciáját beteg rétegződése minden klinikai végpontok (azaz a SEQC-ha EFS OS végpontok a TCGA-tüdő adenocarcinoma túlélési végpont).

először a SEQC-benchmark adatkészletre alkalmazott 278 reprezentatív RNS-seq csővezetékre az átlagos rangot a benchmark metrikák egy részhalmaza alapján számítottuk ki, mint az egyes csővezetékek végső teljesítménymutatóját. Összesen 6 mutatónk volt (3 benchmark metrics × 2 génkészlet ), és a 6 metrika 12 részhalmazát (4 × 3) vizsgáltuk a következő kritériumok alapján:

(1)
A három benchmark metrics négy kombinációja legalább kettővel egy részhalmazban—egy kombináció mindhárom benchmark metrikával, három kombináció a három benchmark metrika közül kettővel.
(2)
az összes génből, az alacsony expresszáló génekből vagy mindkettő kombinációjából származó metrikák által alkotott három alcsoport.

Második, az egyes 278 képviselő RNS-seq csővezetékek (156 a TCGA-tüdő adenocarcinoma túlélési végpont), kiszámoltuk, beágyazott cross-validation AUC MCC leírtak szerint a “Módszer” szakasz “Ha pedig a tüdő adenocarcinoma prediktív modellezés,” ami 834 (468 a TCGA-tüdő adenocarcinoma túlélési végpont) AUC MCC-értékek az egyes klinikai végpont (azaz, 278 csővezetékek × 3 osztályozók, vagy 156 csővezetékek × 3 osztályozók) (kiegészítő táblázatok S11,S12). A túlélési funkciókat modelleztük Kaplan-Meier elemzés segítségével minden egyes csővezetékhez, a “módszer” szakaszban leírtak szerint “Kaplan–Meier túlélési elemzés”. Minden RNS-seq csővezeték esetében összefoglaltuk a betegség kimenetel génexpresszió-alapú előrejelzésének teljesítményét mind az átlagos AUC, mind az MCC segítségével az osztályozók között, valamint a beteg rétegződésének sikerességi arányát (azaz, statisztikailag szignifikáns két Kaplan–Meier-görbe szétválasztása) a beágyazott kereszt-validációs keret összes iterációján és osztályozóján.

végül a három benchmark-mutató egy részhalmazának átlagos rangja alapján azonosítottuk a legjobb 10%-ban jól teljesítő csővezetékeket és az alsó 10% – ban rosszul teljesítő csővezetékeket. A megfelelő előrejelzési teljesítmény (azaz Az AUC illetve MCC) a jól teljesítő csővezetékek szemben teszteltük, hogy a szegény-ellátó vezetékek használata az egyoldalú Wilcoxon rank-összeg teszt a null hipotézist, hogy a medián a korábbi csoport nem volt nagyobb, mint az utóbbi csoportba tartozik.

neuroblasztóma és tüdő adenokarcinóma prediktív modellezés

278 RNS-seq csővezeték teljesítményét értékeltük génexpresszió-alapú döntéshozatal szempontjából a SEQC-neuroblastoma adatok48 felhasználásával. A SEQC-neuroblastoma adatkészletet és a kapcsolódó klinikai végpontokat az S9 kiegészítő táblázat foglalja össze. Az RNS-seq csővezetékeket a neuroblasztóma beteg eredményeinek előrejelzésére értékelték két klinikai végpont esetében beágyazott kereszt-validációval (kiegészítő ábra. S13) 56,57. Hasonlóképpen megvizsgáltuk a tcga-tüdő-adenokarcinóma adatkészletre alkalmazott 156 RNS-seq csővezeték teljesítményét is, hogy megjósoljuk a betegség kimenetelét. A TCGA-lung-adenokarcinóma adatkészletet és a kapcsolódó klinikai végpontot az S10 kiegészítő táblázat foglalja össze.

a beágyazott keresztellenőrzés magában foglalja az optimális előrejelzési modell képzését és tesztelését. Ezt az ötszörös külső keresztellenőrzésből a képzési részhalmazra alkalmazott háromszoros optimalizálással vagy belső keresztellenőrzéssel valósítjuk meg. Miután az utolsó optimális prediktív modell paraméterek (azaz, az osztályozó hyperparameters, valamint a funkció méret) azonosítják, a végleges modell képzett segítségével a teljes képzési részhalmaza, majd teszteltünk a fennmaradó szeres a ötszörösére külső cross-validation. Ezt a folyamatot tíz iterációval megismételtük. A beágyazott keresztellenőrzést külön-külön hajtottuk végre a három osztályozó mindegyikére (azaz, adaptív fellendítése, logisztikus regresszió, és támogatja a vektor gépek), és használta a minimális redundancia, maximális relevancia (mRMR) funkció kiválasztási módszer, hogy kiválassza az optimális funkció méretek tartományon belül 5-40 a lépés mérete 558.

Kaplan–Meier túlélési analízis

minden RNS-seq csővezetékhez és osztályozóhoz (azaz 278 csővezeték × 3 osztályozó a SEQC-neuroblastoma végpontokhoz és 156 csővezeték × 3 osztályozó a tcga-tüdő-adenocarcinoma túlélési végponthoz) modelleztük a Kaplan–Meier túlélési funkciókat az egyes minták előre jelzett címkéi alapján. Ezután a Kétfarkú log-rank tesztet használtuk annak meghatározására, hogy az egyes előrejelzett betegcsoportok becsült túlélési görbéi statisztikailag eltérőek-e.

varianciaanalízis, illetve kiszámítása a hozzájárulás az egyes RNS-seq csővezeték tényező, hogy a csővezeték teljes variancia

használtuk varianciaanalízis (ANOVA) határozza meg, ha minden egyes RNS-seq csővezeték tényező jelentősen hozzájárul ahhoz, hogy a variancia, hogy mind a három az összehasonlító mutatók (pl. pontosság, precizitás, megbízhatóság), valamint a variancia a jóslat teljesítmény (azaz, az AUC illetve MCC). A három viszonyítási metrika mindegyikéhez egy lineáris modellt (R függvény “lm”) használtunk, hogy mind a 278 csővezeték adatait a metrikát függő változóként, az RNS-seq csővezeték tényezőket pedig független kategorikus változókként használhassuk. Mi tekinthető a következő tényezők, mint független kategorikus változók—leképezés algoritmus, feltérképezése stratégia (azaz vágták vs ensz-használjunk), térképi adatszolgáltatás (azaz egyetlen-hit vs multi-hit), mennyiségi algoritmus, illetve a normalizálás algoritmus. A lineáris modellbe minden tényezőt és azok kétirányú kölcsönhatását belefoglaltuk. A predikciós végpontok mindegyikére ugyanazt a technikát alkalmaztuk, hogy mind a 278 csővezeték adatait az átlagos AUC vagy MCC segítségével függő változóként illesszük be, valamint ugyanazokat az RNS-seq csővezeték-tényezőket, mint a független kategorikus változókat. Ezután elvégeztük az ANOVA-t a lineáris modellen (R függvény “anova”). Az ANOVA kiszámítja az egyes tényezőknek vagy kölcsönhatásoknak tulajdonított” négyzetek összegét ” (azaz varianciát), és F-tesztet használ annak meghatározására, hogy a variancia statisztikailag szignifikáns-e. Kiszámítottuk azt a százalékot, amelyet az egyes tényezők vagy kölcsönhatások hozzájárulnak a teljes varianciához azáltal, hogy kiszámítottuk az egyes tényezők “négyzetösszegének” arányát a négyzetek teljes összegéhez.

regressziós analízis

megvizsgáltuk az igazítási profilok vagy a génexpressziós eloszlási jellemzők és a viszonyítási mutatók közötti kapcsolatot. Az igazítás profilokat tartalmazza a teljes száma a csatlakoztatott töredékek száma összesen olvassa átívelő az intronic régió teljes számát olvassa, a betoldások a törlések száma összesen tökéletesen illeszkedik olvas, az épületek száma olvassa legtöbbször egy eltérés, s ez a szám az eltéréseket a per csatlakoztatott olvasni. Minden igazítási algoritmust az átlagos statisztikák képviseltek 2 szekvenálási helyszínen, 4 mintán, 4 Replikációs könyvtáron és 2 sávon. Az R-ben található” MASS ” csomag segítségével Huber-súlyozással elfogadtuk az M-becslést, hogy egy függő változó (benchmark metrikus teljesítmény) és egy magyarázó változó (igazítási profil) között robusztus lineáris regressziós modellek illeszkedjenek. Az M-becslés Huber súlyozási módszerrel olyan regressziós módszer,amely kiugró értékek jelenlétében robusztus. A génexpressziós Eloszlás jellemzői közé tartozott a génexpressziós Eloszlás alsó kvartilise, medián, felső kvartilis, maximum, interkvartilis tartománya, szórás, nyársasság, kurtózis és entrópia. Ugyanazt az M-becslést alkalmaztuk Huber súlyozási megközelítéssel, hogy illeszkedjen a robusztus lineáris regressziós modellekhez, majd az egyes modelleknél a maradék standard hibát jelentették.

jogi nyilatkozat

Az ebben a cikkben bemutatott nézetek nem feltétlenül tükrözik az amerikai élelmiszer-és gyógyszerigazgatás jelenlegi vagy jövőbeli véleményét vagy politikáját. A kereskedelmi termékek említése pontosításra szolgál, nem pedig jóváhagyásra.

Hatását RNS-seq adatok elemzése algoritmusok génexpresszió becslési downstream előrejelzés