Impact of RNA-seq data analysis algorithms on gene expression estimation and downstream prediction

FDA SEQC benchmark datasets

FDA SEQC-benchmark dataset (Gene Expression Omnibus accession number gse47792) includes paired-end RNA-seq data generated using the Illumina HiSeq 2000 platform with the read length of 100 nukleotydy7. Wykorzystaliśmy podzbiór zbioru danych seqc-benchmark zsekwencjonowanych w dwóch lokalizacjach-Beijing Genomics Institute (BGI) i Mayo Clinic (MAY). Użyliśmy czterech próbek (tj. A, B, C I D), każda z czterema replikowanymi bibliotekami przygotowanymi w miejscach sekwencjonowania. Próbka a zawiera Uniwersalny ludzki RNA referencyjny (UHRR), próbka B zawiera ludzki mózgowy RNA referencyjny (HBRR), próbka C zawiera mieszaninę a i B (75% A i 25% B), a próbka D zawiera mieszaninę a i B (25% A i 75% B). Użyliśmy danych z dwóch pasów pojedynczej komórki przepływowej dla każdej replikacji próbki. SEQC dostarczyło również zestaw danych porównawczych do ilościowego PCR (qPCR), który obejmuje 20 801 genów oznaczonych PrimePCR (Bio-Rad, Hercules, Kalifornia). Każdy gen PrimePCR był testowany raz dla każdej z czterech próbek (tj. A, B, C I D). Benchmarkowe zestawy danych i próbki FDA SEQC są podsumowane w dodatkowych tabelach S5 i S6.

zbiory danych Neuroblastoma i gruczolakoraka płuc

wykorzystaliśmy 176-próbkowy zbiór danych neuroblastoma (podzbiór większego 498-próbkowego zbioru danych; określana w tym rękopisie jako SEQC-neuroblastoma) w celu oceny wydajności RNA-seqc pod względem ekspresji genów opartej na przewidywaniu wyniku choroby. Próbki te zostały dostarczone przez Uniwersytecki Szpital Dziecięcy w Kolonii i zsekwencjonowane w BGI przy użyciu platformy Illumina48. Wszystkie 176 próbek pobrano od pacjentów wysokiego ryzyka, zdefiniowanych jako ci z neuroblastomą w stadium 4 i wiekiem 18 miesięcy lub z guzami wzmocnionymi MYCN w dowolnym stadium lub wieku. Zestaw danych SEQC-neuroblastoma został zdeponowany do ekspresji genu Omnibus z numerem akcesyjnym GSE47792.

przewidzieliśmy dwa kliniczne punkty końcowe-przeżycie bez zdarzeń (EFS), czyli wystąpienie zdarzeń takich jak postęp, nawrót lub śmierć, oraz całkowite przeżycie (OS), czyli śmierć. Dla obu punktów końcowych pacjentów podzielono na dwie grupy (tj. wysokie ryzyko w porównaniu do niskiego ryzyka). Pacjenci wysokiego ryzyka doświadczyli zdarzenia lub zmarli przed ustalonym wcześniej progiem czasu przeżycia, podczas gdy pacjenci niskiego ryzyka doświadczyli zdarzenia lub zmarli po przekroczeniu progu lub ich ostatnia obserwacja przekroczyła próg. Progi czasu przeżycia dla EFS i OS wynosiły odpowiednio dwa i trzy lata. Progi wybrano w celu zrównoważenia liczby pacjentów wysokiego i niskiego ryzyka. Szczegóły zbioru danych SEQC-neuroblastoma przedstawiono w dodatkowej tabeli S9.

wykorzystaliśmy również 87-próbkowy zbiór danych RNA-seq gruczolakoraka płuc z repozytorium Atlasu genomu raka (TCGA). Punktem końcowym przewidywania było również przeżycie, a te same kryteria wykorzystaliśmy do określenia grup wysokiego i niskiego ryzyka z progiem czasu przeżycia wynoszącym dwa lata. Próg dwuletni wybrano w celu zrównoważenia liczby pacjentów wysokiego i niskiego ryzyka. Szczegółowe dane dotyczące TCGA-Lung-adenocarcinoma znajdują się w dodatkowej tabeli S10.

filtrowanie zestawu danych porównawczych qPCR w celu wytworzenia referencyjnego zestawu genów

ze względu na zmienność pomiarów qPCR i nieporozumienia między platformami qpcr7, przefiltrowaliśmy zestaw danych porównawczych qPCR, aby zachować geny wykazujące „prawidłowe” zachowanie. Następnie wykorzystaliśmy te geny do obliczenia wskaźników porównawczych (tj. dokładności, precyzji, niezawodności i odtwarzalności). Taki proces filtrowania jest podsumowany na rysunku uzupełniającym. S1.

zaczynając od początkowego zestawu 20 801 genów oznaczonych PrimePCR, filtrowaliśmy te geny, aby zachować tylko geny, które zostały oznaczone jako niezerowe (tj. wykryte) i z wartościami ct (próg cyklu) ≤ 35 (35 oznacza wykrycie tylko jednej cząsteczki w próbce). Filtrowanie danych PrimePCR spowodowało 14 014 genów, które również pasowały do transkryptomu AceView używanego do mapowania zbioru danych RNA-Seq-benchmark.

następnie przefiltrowaliśmy 14 014 genów qPCR, aby zachować tylko 12 610 genów, które wykazywały prawidłową kolejność miareczkowania (TO) i oczekiwane proporcje mieszania (EMR). Szczegóły tego procesu znajdują się w sekcji „Filtrowanie genów qPCR według kolejności miareczkowania i oczekiwanych proporcji mieszania”.

wreszcie, ponieważ niektóre wskaźniki porównawcze, takie jak dokładność i precyzja, są wrażliwe na geny o zerowej lub bardzo niskiej ekspresji, wybraliśmy dalej geny, które były wyrażone jako niezerowe we wszystkich replikatach wszystkich próbek wszystkich miejsc sekwencjonowania i wszystkich 278 rurociągów RNA – seq. Ostateczny zestaw odniesienia zawiera tylko 10 222 genów qPCR (zwanych „wszystkimi genami”), które zostały użyte do obliczenia wszystkich trzech wskaźników porównawczych dla rurociągów RNA-seq.

w oparciu o poprzednie badania, geny o niższej ekspresji są bardziej niespójne wśród pipelin49. W ten sposób zidentyfikowaliśmy również zestaw genów o niskiej ekspresji w 10 222 genach w oparciu o średnią ekspresję qPCR próbek A, B, C i D. najniższe 20% z 10 222 genów (tj. 2044 geny, określane jako „geny o niskiej ekspresji”) wykorzystano również do obliczenia tego samego zestawu wskaźników porównawczych dla rurociągów RNA-seq. Projekt ten umożliwił zbadanie zdolności RNA-seq do szacowania ekspresji genów o niskiej ekspresji.

filtrowanie genów qPCR według kolejności miareczkowania i oczekiwanych proporcji mieszania

zestawy danych seqc-benchmark (RNA-seq i qPCR) mają unikalne właściwości, które umożliwiają ocenę poprawności kwantyfikacji. Po zidentyfikowaniu wykrywalnych (tj. niezerowych i ct ≤ 35) i dopasowanych do AceView genów qPCR, użyliśmy dwóch wskaźników (TO i EMR) do dalszego filtrowania benchmarkowego zestawu danych qPCR, pozostawiając tylko „poprawne” geny qPCR. Metryki TO i EMR rejestrują unikalne właściwości mieszania danych, to znaczy

$$c= \frac{3}{4}a+\frac{1}{4}B\, \text{I }\,= \frac{1}{4}a+\frac{3}{4}B.$$

z powodu tej właściwości wszystkie geny powinny być wyrażone w jednym z następujących porządków, w zależności od względnej ekspresji próbek A i B:

$$a\GE C\GE D\GE b\, \text{Lub}\, a\le C\le D\le B.$$
$${\stackrel{-}{q}}_{s,\cdot, K}=\frac{1}{N}\sum_{N=1}^{n}{q}_{s ,n,k,}$$

zestaw genów qPCR zgodnych z prawidłową kolejnością miareczkowania to

dla pojedynczego zestawu danych qPCR (np., The PrimePCR dataset we analyzed), nieodłączna zmienność pojedynczego pomiaru qPCR może skutkować pewnymi fałszywie ujemnymi genami, które podążają za poprawnymi, ale nie mogą zostać zidentyfikowane. Z literatury50, 51, współczynnik zmienności dla replikowanych pomiarów qPCR jest na ogół 15% lub większy, więc użyliśmy tej liczby do dostosowania marginesu dla określenia, czy Gen podąża za poprawnym do. Matematycznie obliczyliśmy zakres plus i minus jednego odchylenia standardowego od każdego pomiaru qPCR i użyliśmy go jako marginesu. Poprawione równania dla \({k} _ {TO}\) są następujące:

$${K}_{to}={K}_{to,a\GE B}\cup {K}_{TO,a\le B,}$$

gdzie \(a=1.15, b=0.85\)

oprócz To, próbki powinny dodatkowo wykazywać określony stosunek mieszania. Biorąc pod uwagę,że stosunek między próbkami a i B wynosi

$${R}_{A,B}=\frac{A}{B}$$

EMR między próbkami C i D wynosi

$$EM{R}_{C,D}=\frac{3Z\cdot {R}_{A,B}+1}{z\cdot {R}_{A,B}+3}\cdot \frac{z+3}{3Z+1}$$
$${r}_{A, B}\in \left\equiv, $$
$${R}_{C, D}\in \left\equiv \Left,\text{ I}$$

$$em{R}_{C, D}\in \left\equiv), $$

i wreszcie określa zbiór genów spełniający kryterium EMR w następujący sposób:

$${K}_{EMR}=\left\{K|\left({{R}_{C,D}^{Lower}\le {EMR}_{C,D}^{Upper}|}_{{k, R}_{C,D}\GE EM{R}_{C,D}}\right)\vee \left({{R}_{C,D}^{Upper}\GE {EMR}_{C,D}^{lower}|}_{{K, R}_{C,D}\Le em{R}_{C,D}}\Right)\Right\}$$

RNA-Seq Data Analysis pipelines—mapping, quantification, and normalization

zbadaliśmy 278 rurociągów RNA-Seq, które obejmowały trzynaście algorytmów mapowania sekwencji18,19,20,21,22,23,24,25,26,27,28,29, trzy kategorie algorytmów kwantyfikacji wyrażeń31, 32, 33 i siedem metod normalizacji wyrażeń. Tabele uzupełniające S2-S4 podsumowują wszystkie opcje rozważane dla każdego składnika potoku (mapowanie sekwencji, kwantyfikacja wyrażeń i normalizacja wyrażeń). Trzynaście badanych algorytmów mapowania to Bowtie18, Bowtie219, Bwa20, Gsnap21, Magic22 (nowy rurociąg opracowany przez NCBI dla projektu SEQC: ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic), MapSplice23, Novoalign (skomercjalizowany pakiet opracowany przez Novocraft: https://www.novocraft.com/products/novoalign/), OSA24, RUM25, STAR26, Subread27, TOPHAT28 i WHAM29. Niektórzy używają nie-spliced mapowania odczytów do transkryptomu, a inni wykonują spliced mapowanie do genomu. Magic używa równolegle i porównuje jakość każdego wyrównania, aby zachować najlepsze wyniki w wielu celach. Algorytmy mapowania mogą zgłaszać tylko unikalne mapowanie lub zezwalać na wiele lokalizacji mapowania na odczyt. Algorytmy kwantyfikacji obejmują proste metody oparte na liczbach (tj. HTSeq31) i oparte na dystrybucji Poissona metody probabilistyczne stosowane do genomu (tj. Cufflinks32) lub danych mapowania transkryptomicznego (tj. RSEM33). Magia, RUM i Subread (tj., featureCounts52) potoki zawierają wbudowane metody kwantyfikacji, które należą do kategorii prostych metod opartych na liczbach. Metody normalizacji obejmują proste metody skalowania (tj. fragmenty na milion zmapowanych fragmentów, fragmenty na kilobazę długości genu na milion zmapowanych fragmentów, medianę i górny kwartyl), solidne metody skalowania (tj. względna ekspresja log i przycięta średnia wartości m) oraz metody osadzone w określonych potokach (tj. magiczny indeks ekspresji).

mapowanie sekwencji

mapowaliśmy sekwencje do każdego odniesienia w kolejnych krokach za pomocą algorytmów mapowania nie-splicowanego lub splicowanego. Bowtie2, BWA i Novoalign), podczas gdy mapowanie splicowane odnosi się do algorytmów, które dzielą odczyty na segmenty, aby pomieścić długie luki lub introny w odczycie (np. TopHat i MapSplice). W pierwszym etapie mapowania bez splicingu próbowaliśmy zmapować wszystkie sparowane sekwencje końcowe do odniesienia ERCC/MT/rRNA (tj., Zewnętrzny RNA kontroluje sekwencje Konsorcjum, Genom mitochondrialny i sekwencje rybosomalnego RNA). Wszystkie niezmapowane pary odczytu zostały następnie zmapowane do transkryptomu AceView. Wreszcie, wszystkie odczytywane pary, które nie mapowały ani do ERCC/MT / rRNA, ani do odniesień AceView, zostały zmapowane do odniesienia do ludzkiego genomu. Transkryptomiczne współrzędne mapowania zostały następnie przetłumaczone na współrzędne mapowania genomowego i połączone z wynikami mapowania ludzkiego genomu w celu uzyskania ostatecznych wyników (Fig. S21, lewy panel). Użyliśmy Bowtie2 jako mapera w pierwszym kroku wszystkich połączonych rurociągów mapowania (dodatkowe rys. S21, prawy panel). Algorytmy mapowania łączonego albo bezpośrednio mapowały odczyty do ludzkiego genomu (np. MapSplice i GSNAP), albo mapowały całe Nie łączone odczyty do transkryptomu, a następnie łączyły te wyniki mapowania z wynikami mapowania łączonego pozostałych odczytów do ludzkiego genomu (np. TopHat i OSA). Tabela uzupełniająca S2 podsumowuje wszystkie narzędzia mapowania badane w tym badaniu.

Bowtie2, Gsnap, Novoalign, TopHat i WHAM umożliwiają kontrolę nad liczbą zgłoszonych mapowań na parę odczytu. Domyślnie algorytmy te zazwyczaj zgłaszają najlepszą lokalizację mapowania na parę odczytu. Jednak niektóre algorytmy kwantyfikacji mogą wykorzystywać informacje o wielu niejednoznacznych lokalizacjach mapowania w celu poprawy estymacji ekspresji genów. Tak więc, oprócz raportowania pojedynczego trafienia, wygenerowaliśmy również wyniki mapowania, które zgłaszały do 200 trafień na odczyt (multi-hit). Uwzględniliśmy również rurociąg mapowania Bowtie z parametrami mapowania specyficznymi dla kwantyfikacji za pomocą RSEM, jak opisano w poniższej sekcji 33.

opcje wiersza poleceń dla wszystkich narzędzi do wyrównywania sekwencji są wyszczególnione w uwadze dodatkowej 1.

kwantyfikacja ekspresji genu

etap kwantyfikacji obejmował trzy kategorie kwantyfikatorów—kwantyfikatory oparte na liczbach (tj. HTSeq i wbudowane kwantyfikatory dla potoków Magic, RUM i Subread), kwantyfikatory oparte na modelu prawdopodobieństwa do mapowania genomu (tj., Spinki do mankietów) oraz kwantyfikatory oparte na modelu prawdopodobieństwa do mapowania transkryptomicznego (np. RSEM). Kluczowe cechy tych kwantyfikatorów podsumowano w dodatkowej tabeli S3. Spinki do mankietów to kwantyfikator oparty na modelu Poissona, który szacuje prawdopodobieństwo przypisania odczytu na podstawie informacji o wyrównaniu32. Jest zdolny zarówno do montażu transkryptów, jak i kwantyfikacji ekspresji genu lub transkrypcji. W tym badaniu wyłączyliśmy funkcję montażu i dostarczyliśmy plik GTF adnotacji genomu jako odniesienie do kwantyfikacji. HTSeq jest naiwnym kwantyfikatorem opartym na liczbach, który przypisuje zmapowane odczyty genes31. HTSeq jest w stanie określić ilościowo ekspresję genów, ale nie ekspresję transkrypcji. RSEM jest również kwantyfikatorem opartym na modelu Poissona, który jest podobny w koncepcji do Cufflinks33. Informacje z odczytów multi-hit są ważne zarówno dla spinek do mankietów, jak i RSEM. Algorytmy te wykorzystują informacje wielokrotnego trafienia do dokładniejszego oszacowania ekspresji genu lub transkryptu.

wyniki mapowania z rurociągów wyrównujących nie zawsze były zgodne z trzema kategoriami kwantyfikatorów. Spinki do mankietów wymagają, aby wyniki wyrównania były sortowane według współrzędnych wyrównania, a odczyty wielu trafień były oznaczone tagiem ” NH ” w polu atrybutu pliku SAM. HTSeq wymaga, aby wyniki wyrównania były posortowane według odczytanych nazw i aby znacznik 'NH’ był nieobecny w pliku SAM. RSEM określa tylko odwzorowanie transkryptomiczne, to znaczy odczytuje odwzorowane i zgłoszone we współrzędnych transkryptomicznych. Co więcej, RSEM obsługuje tylko nieregulowane wyrównania. W związku z tym, filtrowanie jest wymagane, aby usunąć gapped wyrównania. Ze względu na te wymagania wstępnie przetworzyliśmy wszystkie wyniki wyrównania przed kwantyfikacją. Podsumowując, dwadzieścia rurociągów wyrównujących, w tym rurociągów łączonych, nie łączonych, jednotarczowych i wielotarczowych, nadawało się do kwantyfikacji na podstawie liczby. Szesnaście rurociągów wyrównawczych nadawało się do spinek do mankietów, a tylko dziesięć nadawało się do RSEM. RSEM jest specjalnie zaprojektowany, aby dobrze współpracować z Bowtie. W związku z tym uwzględniliśmy również wbudowany potok mapowania i kwantyfikacji.

opcje wiersza poleceń dla wszystkich narzędzi do kwantyfikacji są wyszczególnione w uwadze dodatkowej 1.

normalizacja ekspresji genów

normalizacja danych RNA-seq umożliwia porównanie między próbkami. Ogólnie rzecz biorąc, metody normalizacji korygują rozmiar biblioteki (tj. całkowitą liczbę odczytów w próbce), która jest podstawowym źródłem wariancji między próbkami. Zbadaliśmy siedem metod normalizacji-fragmenty na milion zmapowanych fragmentów (FPM), fragmenty na kilobazę długości genu na milion zmapowanych fragmentów (Fpkm), mediana (Med.), upper quartile (UQ), relative log expression (RLE), trimmed mean of M-values (TMM) i Expression index (EIndex, który jest specyficzny dla potoku Magic) (patrz dodatkowa tabela S4). Każdą z tych metod normalizacyjnych opisujemy na podstawie następującego opisu matematycznego zbioru danych seqc-benchmark.

$$\overline{x}_{s, \cdot ,k} = \frac{1}{N}\mathop \sum \limits_{N = 1}^{N} x_{s,n,k}$$

zdefiniowaliśmy zbiór obecnych genów jako

, a ostatnim obecnym zestawem genów jest

$$K_{p} = K_{p,BGI} \Cap K_{P, may} .$$

użyliśmy tego samego zestawu obecnych genów dla wszystkich metod normalizacji dla rurociągu RNA-seq.

całkowita liczba obecnych genów dla danej próbki s i replikacji n wynosi

$$x_{s,n} = \mathop \sum \limits_{{K \in k_{p} }} x_{s,n,k} ,$$

, a średnia całkowita liczba obecnych genów dla wszystkich danych z jednego miejsca to

$$\bar{x} = \frac{1}{4}\frac{1}{N}\mathop \Sum \limits_{s} \mathop \Sum \limits_{{N = 1}}^{N} x_ {s, n}}.$$

tak więc zdefiniowaliśmy wyrażenie znormalizowane FPM dla każdej próbki s, replikacji n i genu k jako

$$y_{s,n,k}^{FPM} = \frac{{x_{s,n,k} \cdot \overline{x}}}{{x_{s,n} }}.$$

znormalizowana mediana i górny kwartyl ekspresji dla każdej próbki s, replikacji n i genu k są następnie zdefiniowane jako

$$y_{s, n,k}^{Med} = \frac{{x_{s,n,k} \cdot \tilde{x}}}{{\tilde{x}_{S,N} }}{\text{i }}y_{S,N,k}^{uq} = \frac{{x_{s,n,k} \cdot \Hat{x}}}{{\hat{x}_{S,N} }}.{ } $$

dla normalizacji FPKM zdefiniowaliśmy długość genu k jako \(\ell_{K}\), która jest długością związku wszystkich eksonów związanych z genem zdefiniowanym przez Transkryptom AceView. Oryginalna formuła FPKM arbitralnie używała współczynników skalowania 1 × 103 Dla długości genu i 1 × 106 dla całkowitej liczby zmapowanych fragmentów. W celu utrzymania porównywalnego zakresu dynamicznego wśród wszystkich metod normalizacji, zamiast tego skalowaliśmy średnią długość genu i średnią całkowitą liczbę dla wszystkich obecnych genów. Średnia długość wszystkich obecnych genów wynosi

$$\overline{\ell } = \frac{1}{{\left|{K_{p} } \right/}}\mathop \sum \limits_{{K \in K_{p} }} \ell_{k} .$$

tak więc, przeskalowane fpkm-znormalizowane wyrażenie dla każdej próbki s, replikacji n i genu k wynosi

$$y_{s, n,k}^{fpkm} = \frac{{x_{s,n,k} \cdot \overline{\ell } \cdot \overline{x}}}{{x_{s,n} \cdot \ell_{k} }}.$$

metody normalizacji TMM i RLE są podobne do normalizacji FPM, ale wprowadzają dodatkowy współczynnik skalowania, aby dostosować rozmiar biblioteki. Użyliśmy pakietu edgeR w R do oszacowania współczynnika skalowania dla każdej replikacji próbki 36,53. Metoda TMM wybiera bibliotekę referencyjną z puli bibliotek replikowanych próbek, a następnie oblicza współczynniki ekspresji logarytmów pod względem genów (wartości M) i średnie wartości ekspresji logarytmów pod względem genów (wartości a) między biblioteką docelową a biblioteką referencyjną. Ekstremalne liczby w wartościach M i wartościach a są przycinane, a współczynnik skalowania dla biblioteki docelowej jest średnią ważoną pozostałych wartości m. Metoda RLE określa współczynnik skalowania, najpierw definiując bibliotekę mediany jako średnią geometryczną pod względem genu w próbkach replikatów35. Mediana stosunku każdej docelowej biblioteki do mediany biblioteki jest traktowana jako czynnik skalowania.

gdzie \(\hat{f}_{S, N}^{TMM}\) i \(\hat{f}_{S, N}^{RLE}\) są współczynnikiem skalowania dla próbki s,replikacji n.

wskaźniki wydajności rurociągu RNA-seq

wskaźniki wydajności rurociągu RNA-seq są podsumowane w poniższej tabeli. tabela uzupełniająca S7.

dokładność mierzona jako odchylenie od qPCR referencje

$${\stackrel{-}{y}}_{s,\cdot ,k}=\frac{1}{N}\sum_{N=1}^{N}{y}_{s,n,k}$$

biorąc pod uwagę próbki a i B, bezwzględne odchylenie współczynnika logarytmicznego ekspresji opartej na RNA-seq z qPCR wyrażenie oparte na Genie k to

$$\delta_{\frac{a}{b},k} = \Left | \log_2\left ( \frac{\bar{X}_{a,., k}} {\bar{x}_{B,., k}} \ right)- \ log_2 \ left (\frac {\bar{q}_{A,., k}} {\bar {q}_{B,., k}} \right ) \right|, $$

i ostateczna metryka dokładności została zdefiniowana jako mediana wszystkich \({\Delta} _{{\frac{A}{B}, k}}\), \(K = 1 \ldots k\).

precyzja mierzona jako zmienność ekspresji genu w bibliotekach replikowanych

obliczamy współczynnik zmienności (CoV) dla każdego genu i każdej próbki w czterech bibliotekach replikowanych w następujący sposób:

$$CoV_{s,k} = \frac{{sd\left( {x_{s, \cdot ,k} } \right)}}{{\overline{x}_{s, \cdot ,k} }},$$

niezawodność mierzona jako korelacja wewnątrz próbki ekspresji genów

niezawodność systemu pomiarowego można ocenić za pomocą współczynnika korelacji wewnątrzklasowej (ICC)54,55. ICC ma zastosowanie do pomiarów, które mogą być zorganizowane w grupy, i opisuje, jak podobne pomiary tej samej grupy są do siebie. Współczesna definicja ICC zapożycza ramy analizy wariancji (ANOVA), a dokładniej ANOVA z efektami losowemi55. Rodzaj ANOVA zależy od projektu eksperymentalnego i generalnie jest zgodny z definicją zawartą w artykule Shrouta opublikowanym w 197955. ICC (1,1) i ICC(1,k) są oparte na jednokierunkowym modelu efektów losowych i mają zastosowanie do przypadku, gdy każda grupa jest oceniana przez inny zestaw K raterów losowo wybranych z większej populacji raterów. ICC (2,1) i ICC(2,k) są oparte na dwukierunkowym modelu efektów losowych i mają zastosowanie do przypadku, w którym losowa próbka raterów k jest wstępnie wybierana z większej populacji, a każdy rater ocenia każdą grupę dokładnie raz (tj., każdy rater ocenia łącznie n grup). ICC (3,1) i ICC(3,k) opierają się na dwukierunkowym modelu efektów mieszanych i mają zastosowanie do przypadku, gdy każda grupa jest oceniana przez każdego z tych samych raterów k, którzy są jedynymi raterami w populacji. Drugi parametr w ICC(,) oznacza, czy ICC ma mierzyć wiarygodność pojedynczego pomiaru lub średnią pomiarów K.

dla zbioru danych porównawczych SEQC z bibliotekami replikacji dla każdej próbki, ICC(1,1) lub ICC(1,k) pasowały do naszego celu, ponieważ dla genu g ekspresja genu replikacji bibliotek dla różnych próbek (lub różnych grup w poprzednim kontekście) nie była oceniana w dokładnie tych samych warunkach (lub oceniana przez tych samych raterów w poprzednim kontekście). Zdecydowaliśmy się użyć ICC (1, k), ponieważ biblioteki replikacyjne są dostępne dla większości eksperymentów. Matematycznie, jednokierunkowy model efektów losowych można sformułować jako

$$Y_{ij} = \mu + \alpha_{j} +{\varepsilon_{ij}} ,$$
$$ICC\left( {1,k} \right) = \frac{BMS-WMS}{{BMS}},$$

obliczyliśmy ICC dla każdego genu K, \(K = 1 \ldots k\), a następnie użyliśmy mediany wszystkich ICC jako ostatecznej miary wiarygodności.

zbadaliśmy również inne potencjalne metryki, takie jak odtwarzalność, która jest zdefiniowana jako korelacja Spearmana między dwiema powielonymi bibliotekami tej samej próbki (Uwaga uzupełniająca 2). Korelacja Spearmana wahała się od 0.993 do 0,996 (dodatkowe rys. S8) za pomocą AllGenes. Odrzuciliśmy metrykę odtwarzalności ze względu na stosunkowo mały zakres dynamiczny.

oceniając użyteczność wskaźników benchmarkowych dla wyboru rurociągu RNA-Seq

oceniliśmy rurociągi RNA-seq na podstawie średniej rangi trzech wskaźników benchmarkowych (tj. dokładności, precyzji i niezawodności). Następnie oceniliśmy użyteczność wskaźników benchmarkowych, badając, czy rurociągi o dobrych i słabych wynikach zidentyfikowane na podstawie wskaźników benchmarkowych były przydatne do wnioskowania wydajności opartej na ekspresji genów prognozy wyników choroby i statystycznej istotności stratyfikacji pacjenta dla wszystkich klinicznych punktów końcowych (tj. punktów końcowych SEQC-neuroblastoma EFS i OS oraz punktu końcowego przeżycia TCGA-Lung-adenocarcinoma).

Po pierwsze, dla 278 reprezentatywnych rurociągów RNA-seq zastosowanych do zestawu danych seqc-benchmark, obliczyliśmy średnią rangę za pomocą podzbioru wskaźników benchmark jako końcowego wskaźnika wydajności dla każdego rurociągu. W sumie mieliśmy 6 wskaźników (3 wskaźniki benchmarkowe × 2 zestawy genów) i badaliśmy 12 podzbiorów (4 × 3) z 6 wskaźników przy użyciu następujących kryteriów:

  1. (1)

    cztery kombinacje trzech wskaźników benchmarkowych z co najmniej dwoma w podgrupie—jedna kombinacja ze wszystkimi trzema wskaźnikami benchmarkowymi, trzy kombinacje z dwoma z trzech wskaźników benchmarkowych.

  2. (2)

    trzy podgrupy utworzone przez metryki pochodzące od wszystkich genów, te pochodzące od genów o niskiej ekspresji, lub połączenie obu.

Po drugie, dla każdego z 278 reprezentatywnych rurociągów RNA-seq (156 dla punktu końcowego przeżycia TCGA-lung-adenocarcinoma), obliczyliśmy zagnieżdżone krzyżowe wartości AUC i MCC, jak opisano w sekcji „Metoda” „Neuroblastoma and lung adenocarcinoma predictive modeling”, co dało 834 (468 dla punktu końcowego przeżycia TCGA-lung-adenocarcinoma) wartości AUC i MCC dla każdego punktu końcowego klinicznego (tj., 278 rurociągów × 3 klasyfikatory lub 156 rurociągów × 3 klasyfikatory) (tabele uzupełniające S11,S12). Modelowaliśmy również funkcje przeżycia przy użyciu analizy Kaplana-Meiera dla każdego rurociągu, jak opisano w sekcji „Metoda „”Analiza przeżycia Kaplana–Meiera”. Dla każdego rurociągu RNA-seq podsumowaliśmy wydajność przewidywania wyników choroby na podstawie ekspresji genów, wykorzystując zarówno średnie AUC, jak i MCC w różnych klasyfikatorach oraz wskaźnik powodzenia stratyfikacji pacjenta (tj., statystycznie istotne oddzielenie dwóch krzywych Kaplana-Meiera) we wszystkich iteracjach i klasyfikatorach w zagnieżdżonej strukturze weryfikacji krzyżowej.

na koniec zidentyfikowaliśmy najlepsze 10% rurociągów o dobrych wynikach i dolne 10% rurociągów o słabych wynikach w oparciu o średnią rangę podzbioru trzech wskaźników benchmarkowych. Odpowiednie wyniki prognozowania (tj., AUC i MCC) rurociągów o dobrych wynikach zbadano w porównaniu z rurociągami o złych wynikach, stosując jednostronny Test sumy Rang Wilcoxona z hipotezą zerową, że mediana pierwszej grupy nie była większa niż tej drugiej.

Modelowanie prognostyczne Neuroblastoma i gruczolakoraka płuc

oceniliśmy wydajność rurociągów 278 RNA-seq pod względem podejmowania decyzji opartych na ekspresji genów przy użyciu zestawu danych SEQC-neuroblastoma 48. Zestaw danych SEQC-neuroblastoma i powiązane kliniczne punkty końcowe podsumowano w dodatkowej tabeli S9. Rurociągi RNA-seq oceniano pod względem przewidywania wyników dla pacjentów z neuroblastomą dla dwóch klinicznych punktów końcowych przy użyciu zagnieżdżonej walidacji krzyżowej (Fig. S13) 56,57. Podobnie oceniliśmy wydajność rurociągów 156 RNA-seq zastosowanych do zestawu danych TCGA-lung-adenocarcinoma w celu przewidywania wyników choroby. Zbiór danych TCGA-lung-adenocarcinoma i związany z nim punkt końcowy kliniczny podsumowano w dodatkowej tabeli S10.

zagnieżdżona weryfikacja krzyżowa obejmuje szkolenie i testowanie optymalnego modelu predykcji. Osiąga się to za pomocą trzykrotnej optymalizacji lub wewnętrznej weryfikacji krzyżowej, stosowanej do podzbioru szkolenia z pięciokrotnej zewnętrznej weryfikacji krzyżowej. Po zidentyfikowaniu ostatecznych optymalnych parametrów modelu predykcji (tj. hiperparametrów klasyfikatora i rozmiaru funkcji), ostateczny model jest szkolony przy użyciu całego podzbioru treningowego, a następnie testowany przy użyciu pozostałego fałdu z pięciokrotnej zewnętrznej weryfikacji krzyżowej. Proces ten był powtarzany przez dziesięć iteracji. Przeprowadziliśmy zagnieżdżoną weryfikację krzyżową oddzielnie dla każdego z trzech klasyfikatorów (tj. Adaptive boosting, logistic regression I support Vector machines) i zastosował metodę wyboru funkcji minimalnej redundancji, maksymalnej przydatności (mRMR), aby wybrać optymalne rozmiary funkcji z zakresu od 5 do 40 przy rozmiarze kroku 558.

Analiza przeżycia Kaplana–Meiera

dla każdego rurociągu RNA-seq i klasyfikatora (tj. 278 klasyfikatorów × 3 dla punktów końcowych SEQC-neuroblastoma i 156 klasyfikatorów × 3 dla punktu końcowego przeżycia TCGA-Lung-adenocarcinoma), modelowaliśmy funkcje przeżycia Kaplana–Meiera w oparciu o przewidywane etykiety każdej próbki. Następnie użyliśmy testu log-rank z dwoma ogonami, aby ustalić, czy szacowane krzywe przeżycia dla każdej przewidywanej grupy pacjentów były statystycznie różne.

Analiza wariancji i obliczanie udziału każdego czynnika rurociągu RNA-seq w ogólnej wariancji rurociągu

wykorzystaliśmy analizę wariancji (ANOVA) do określenia, czy każdy czynnik rurociągu RNA-seq znacząco przyczynia się do wariancji każdej z trzech wskaźników benchmarkowych (tj. dokładności, precyzji i niezawodności), jak również do wariancji wydajności predykcji (tj. AUC i MCC). Dla każdej z trzech benchmarkowych metryk użyliśmy modelu liniowego (funkcja R „lm”), aby dopasować dane ze wszystkich 278 rurociągów, używając metryki jako zmiennej zależnej, a współczynników rurociągu RNA-seq jako niezależnych zmiennych kategorycznych. Rozważaliśmy następujące czynniki jako niezależne zmienne kategoryczne-algorytm mapowania, strategia mapowania (tj. spliced vs. un-spliced), raportowanie mapowania (tj. single-hit vs. multi-hit), algorytm kwantyfikacji i algorytm normalizacji. Uwzględniliśmy wszystkie czynniki i ich dwukierunkowe interakcje w modelu liniowym. Dla każdego z punktów końcowych predykcji zastosowaliśmy tę samą technikę, aby dopasować dane ze wszystkich 278 rurociągów, używając średniej AUC lub MCC jako zmiennej zależnej i tego samego zestawu czynników rurociągu RNA-seq jako niezależnych zmiennych kategorycznych. Następnie przeprowadziliśmy ANOVA na modelu liniowym (funkcja R „anova”). ANOVA oblicza „sumę kwadratów” (tj. wariancję) przypisaną każdemu czynnikowi lub interakcji i używa testu F do określenia, czy wariancja jest statystycznie istotna. Obliczyliśmy procent, że każdy czynnik lub interakcja przyczynia się do całkowitej wariancji, obliczając stosunek „sumy kwadratów” dla każdego czynnika do całkowitej sumy kwadratów.

Analiza regresji

badaliśmy związek między profilami wyrównania lub charakterystyką rozkładu ekspresji genów a metrykami porównawczymi. Profile wyrównania obejmowały całkowitą liczbę zmapowanych fragmentów, całkowitą liczbę odczytów obejmujących obszar introniczny, całkowitą liczbę odczytów z wstawkami lub usunięciami, całkowitą liczbę idealnie dopasowanych odczytów, całkowitą liczbę odczytów z co najwyżej jednym niedopasowaniem oraz liczbę niedopasowań na zmapowany odczyt. Każdy algorytm wyrównania był reprezentowany przez średnie statystyki dotyczące 2 miejsc sekwencjonowania, 4 próbek, 4 replikowanych bibliotek i 2 pasów. Korzystając z pakietu „masa” w R, przyjęliśmy metodę m-estymacji z wagą Hubera, aby dopasować solidne modele regresji liniowej między zmienną zależną (wydajność metryczna odniesienia) a zmienną objaśniającą (profil wyrównania). M-estymacja z Huber ważenia podejście jest metodą regresji, która jest solidna w obecności odstających. Charakterystyka rozkładu ekspresji genu obejmowała dolny kwartyl, medianę, górny kwartyl, maksimum, zakres międzykwartylowy, odchylenie standardowe, skośność, kurtozę i entropię rozkładu ekspresji genu. Zastosowaliśmy tę samą metodę M-estymacji z metodą ważenia Hubera, aby dopasować solidne modele regresji liniowej, a następnie zgłosiliśmy pozostały błąd standardowy dla każdego modelu.

Zrzeczenie się odpowiedzialności

poglądy przedstawione w tym artykule niekoniecznie odzwierciedlają obecną lub przyszłą opinię lub Politykę amerykańskiej Agencji Żywności i Leków. Wszelkie wzmianki o produktach komercyjnych mają na celu wyjaśnienie i nie mają na celu poparcia.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *