Impacto de RNA-seq dados análise de algoritmos na expressão do gene estimativa e a jusante de predição

FDA SEQC referência conjuntos de dados

O FDA SEQC-benchmark conjunto de dados de Expressão Gênica Global de adesão número GSE47792) inclui emparelhado fim de RNA-seq dados gerados usando o Illumina HiSeq 2000 plataforma com o comprimento de leitura de 100 nucleotides7. Usamos um subconjunto do conjunto de dados SEQC-benchmark sequenciado em dois sites—Beijing Genomics Institute (BGI) e Mayo Clinic (MAY). Nós usamos quatro amostras (isto é, A, B, C E D), cada uma com quatro bibliotecas replicadas preparadas nos locais de sequenciamento. Exemplo de Uma contém o Universal Humano de Referência (RNA UHRR), a amostra B contém o Cérebro Humano de Referência (RNA HBRR), a amostra C contém uma mistura de A e B (75% e 25% B), e amostra D contém uma mistura de A e B (25% e 75% B). Usamos dados de duas faixas de uma única célula de fluxo para cada amostra replicada. O SEQC também forneceu um conjunto de dados quantitativos de referência PCR (qPCR) que inclui 20.801 genes assentados com PrimePCR (Bio-Rad, Hercules, Califórnia). Cada gene PrimePCR foi determinado uma vez para cada uma das quatro amostras (isto é, A, B, C E D). Os conjuntos de dados e amostras de referência SEQC da FDA são resumidos nos quadros suplementares S5 e S6.base de dados de Neuroblastoma e adenocarcinoma pulmonar

usámos um conjunto de dados de 176 amostras de neuroblastoma (um subconjunto de um conjunto de dados de 498 amostras maior).; referido como seqc-neuroblastoma neste manuscrito) para avaliar o desempenho dos oleodutos RNA-seq em termos de previsão baseada na expressão genética do resultado da doença. Estas amostras foram fornecidas pelo Hospital Universitário Infantil de Colônia e sequenciadas na BGI usando a plataforma ilumina 48. Todas as 176 amostras foram colhidas em doentes de alto risco que foram definidos como aqueles com neuroblastoma de Fase 4 e idade > 18 meses ou com tumores MICN amplificados de qualquer fase ou idade. O conjunto de dados SEQC-neuroblastoma foi depositado na expressão genética Omnibus com o número de adesão GSE47792.

previmos dois objectivos clínicos-sobrevivência livre de acontecimentos (EFS), ou seja, a ocorrência de acontecimentos tais como progresso, recidiva ou morte e sobrevivência global (OS), ou seja, morte. Para ambos os parâmetros, os doentes foram divididos em dois grupos (isto é, riscos elevados versus riscos Baixos). Os doentes de alto risco tiveram um acontecimento ou morreram antes de um limiar pré-definido de tempo de sobrevivência, enquanto os doentes de baixo risco tiveram um acontecimento ou morreram após o limiar, ou o seu último seguimento excedeu o limiar. Os limiares de tempo de sobrevivência para EFS e OS foram de dois e três anos, respectivamente. Os limiares foram escolhidos para equilibrar o número de pacientes de alto risco e baixo risco. Os pormenores do conjunto de dados SEQC-neuroblastoma são apresentados no quadro suplementar S9.

We also used an 87-sample lung adenocarcinoma RNA-seq dataset from the Cancer Genome Atlas (TCGA) repository. O endpoint de previsão também foi a sobrevivência, e nós usamos os mesmos critérios para definir grupos de alto risco e baixo risco com o limite de tempo de sobrevivência de dois anos. O limiar de dois anos foi escolhido para equilibrar o número de doentes de alto risco e de baixo risco. Os pormenores do conjunto de dados TCGA-lung-adenocarcinoma são apresentados no quadro suplementar S10.filtrando o conjunto de dados de referência qPCR para produzir um conjunto de referência de genes

devido à variabilidade nas medições qPCR e desacordos entre plataformas qPCR, filtrámos o conjunto de dados de referência qPCR para reter genes que exibiam um comportamento “correcto”. Nós então usamos esses genes para calcular as métricas de referência (ou seja, precisão, precisão, confiabilidade e reprodutibilidade). Tal processo de filtragem é resumido em Figo suplementar. S1.

começando com o conjunto inicial de 20.801 genes assentados com PrimePCR, filtramos estes genes para reter apenas genes que foram quantificados como não-zero (i.e., detectados) e com valores Ct (limiar do ciclo) ≤ 35 (35 indica detecção de apenas uma molécula numa amostra). Filtragem de dados PrimePCR resultou em 14.014 genes que também coincidem com o AceView transcriptome usado para mapear o conjunto de dados SEQC-benchmark RNA-seq.subsequentemente, filtrámos os genes 14.014 qPCR para reter apenas 12.610 genes que exibiam a ordem de titulação correta (para) e as razões de mistura esperadas (EMR). Detalhes deste processo estão na seção” Filtragem de genes qPCR por ordem de titulação e razões de mistura esperadas”.por último, uma vez que algumas métricas de referência, tais como precisão e precisão, são sensíveis a genes de expressão zero ou muito baixa, seleccionámos mais genes que foram expressos como não zero em todas as réplicas de todas as amostras de todos os locais de sequenciação e todos os oleodutos RNA – seq de 278. O conjunto de referência final contém apenas 10.222 genes qPCR (referidos como “todos os genes”) que foram utilizados para calcular as três métricas de referência para condutas RNA-seq.com base no estudo anterior, é mais provável que os genes com expressão mais baixa sejam inconsistentes entre as pipelinas49. Assim, também identificamos um conjunto de genes de baixo expressão nos 10.222 genes baseados na expressão média qPCR das amostras A, B, C, E D. Os 20% mais baixos dos 10.222 genes (ou seja, 2044 genes, referidos como “genes de baixo expressão”) também foram usados para calcular o mesmo conjunto de métricas de referência para condutas RNA-seq. Este desenho permitiu-nos investigar a capacidade dos gasodutos RNA-seq na estimativa da expressão genética de baixo expressão.os conjuntos de dados de referência SEQC (RNA-seq e qPCR) têm propriedades únicas que permitem a avaliação da exactidão da quantificação. Depois de identificar genes detectáveis (isto é, não-zero e Ct ≤ 35) e aceview-matched qPCR, nós usamos duas métricas (para e EMR) para filtrar ainda mais o conjunto de dados de referência qPCR, deixando apenas genes “corretos” qPCR. As métricas para e EMR capturam propriedades únicas de mistura dos dados, ou seja,

$c= \frac{3}{4}A+\frac{1}{4}b\, \text{E}\, = \frac{1}{4}A+\frac{3}{4}B.$$

Devido a esta propriedade, todos os genes são esperados para ser expresso em uma das seguintes ordens, dependendo da expressão relativa de amostras A e B:

$$A\ge C\ge D\ge B \,\text{ou }\, Um\le C\le D\le B.$$
$${\stackrel{-}{q}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}{q}_{s,n,k}$$

a definir de acordo com pcr genes que siga o correto titulação ordem é

Para uma única réplica de acordo com pcr conjunto de dados (e.g., o conjunto de dados PrimePCR que analisamos), a variabilidade inerente de uma única medição qPCR pode resultar em alguns genes falsos negativos que seguem o correto, mas não conseguem ser identificados. A partir da literature50, 51, O coeficiente de variação para medições de qPCR replicados é geralmente 15% ou maior, então nós usamos este número para ajustar a margem para determinar se um gene segue o correto para. Matematicamente, calculamos o intervalo de mais e menos um desvio padrão de cada medição qPCR e o usamos como margem. As equações revistas para \({K}_{To}\) são as seguintes::

${K}_{TO}={K}_{TO, a\ge B}\cup {K}_{TO, a\le b,}$

where \(a=1, 15, b=0, 85\)

para além de TO, as amostras devem adicionalmente apresentar uma proporção de mistura específica. Dado que o rácio entre as amostras A e B é

$${R}_{A,B}=\frac{A}{B}$$

o EMR entre as amostras C e D é

$$EM{R}_{C,D}=\frac{3z\cdot {R}_{A,B}+1}{z\cdot {R}_{A,B}+3}\cdot \frac{z+3}{3z+1}$$
$${R}_{A,B}\in \left\equiv ,$$
$${R}_{C,D}\in \left\equiv \left,\text{ e}$$
$$EM{R}_{C,D}\in \left\equiv ),$$

e, finalmente, determina um conjunto de genes que satisfaz a EMR critério da seguinte forma:

$${K}_{EMR}=\left\{k|\left({{R}_{C,D}^{Inferior}\le {EMR}_{C,D}^{Upper}|}_{{k, R}_{C,D}\ge EM{R}_{C,D}}\right)\vee \left({{R}_{C,D}^{Upper}\ge {EMR}_{C,D}^{Inferior}|}_{{k, R}_{C,D}\le EM{R}_{C,D}}\right)\right\}$$

RNA-seq análise de dados dutos de mapeamento, quantificação, e normalização

Nós investigamos 278 RNA-seq condutas que incluiu treze sequência de mapeamento algorithms18,19,20,21,22,23,24,25,26,27,28,29, três categorias de expressão quantificação algorithms31,32,33, e sete expressão de métodos de normalização. As tabelas suplementares S2-S4 resumem todas as opções consideradas para cada componente de pipeline (mapeamento de sequência, quantificação de expressão e normalização de expressão). Treze de mapeamento de algoritmos investigados são Bowtie18, Bowtie219, BWA20, GSNAP21, Magic22 (um novo pipeline desenvolvido pelo NCBI para o SEQC projeto: ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic), MapSplice23, Novoalign (um comercializado pacote desenvolvido pela Novocraft: https://www.novocraft.com/products/novoalign/), OSA24, RUM25, STAR26, Subread27, TopHat28, e WHAM29. Alguns usam mapeamento não-esplicado de leituras para o transcriptoma, e outros realizam mapeamento esplicado para o genoma. A magia usa ambos em paralelo e compara a qualidade de cada alinhamento para manter o melhor entre vários alvos. Algoritmos de mapeamento podem reportar apenas mapeamento único, ou permitir vários locais de mapeamento por leitura. Os algoritmos de quantificação incluem métodos simples baseados na contagem (ou seja, HTSeq31) e métodos probabilísticos baseados na distribuição de Poisson aplicados tanto a dados de mapeamento genômico (ou seja, Cufflinks32) ou transcriptômico (ou seja, RSEM33). A magia, o RUM e o sub-pão (i.e., featureCounts52) pipelines include embedded quantification methods that fall into the category of simple count-based methods. Métodos de normalização incluem simples métodos de escala (por exemplo, fragmentos por milhões mapeada fragmentos , fragmentos por kilobase do gene de comprimento por milhões de fragmentos mapeados , mediana e quartil superior), robusto métodos de escala (por exemplo, em relação log de expressão e aparada média dos valores m ), e métodos incorporados em condutas específicas (por exemplo, a Magia expressão de índice).

mapeamento de sequência

mapeamos sequências para cada referência em etapas sucessivas usando algoritmos de mapeamento não-articulados ou não-articulados. Onu emendados de mapeamento refere-se algoritmos que alinhar toda a leitura de sequências (por exemplo, Bowtie2, BWA, e Novoalign) considerando que emendados mapeamento refere-se algoritmos que dividem lê em segmentos para acomodar longo lacunas ou íntrons uma leitura (por exemplo, TopHat e MapSplice). No primeiro passo do mapeamento sem spliced, nós tentamos mapear todas as sequências emparelhadas para a referência ERCC / MT/rRNA (i.e., External RNA Controls Consortium sequences, the mitochondrial genome, and ribosomal RNA sequences). Todos os pares de leitura não mapeados foram então mapeados para o AceView transcriptome. Finalmente, todos os pares lidos que não mapeavam as referências ERCC/MT/rRNA ou AceView foram mapeados para a referência do genoma humano. As coordenadas de mapeamento transcriptômico foram então traduzidas para coordenadas de mapeamento genômico e fundidas com os resultados de mapeamento do genoma humano para produzir os resultados finais (Fig suplementar. S21, painel esquerdo). Nós usamos Bowtie2 como mapeador para o primeiro passo de todos os oleodutos de mapeamento em spliced (Fig suplementar. S21, painel direito). Emendados algoritmos de mapeamento diretamente mapeada lê para o genoma humano (por exemplo, MapSplice e GSNAP) ou mapeado todo onu emendados lê para o transcriptoma e, em seguida, fundiu estes resultados de mapeamento com emendados resultados de mapeamento dos remanescentes de leituras do genoma humano (por exemplo, TopHat e OSA). O quadro suplementar S2 resume todas as ferramentas de mapeamento investigadas neste estudo.

Bowtie2, GSNAP, Novoalign, TopHat e WHAM permitem controlar o número de mapeamentos relatados por par de leitura. Por padrão, estes algoritmos tipicamente relatam uma única melhor localização de mapeamento por par de leitura. No entanto, alguns algoritmos de quantificação podem usar informações sobre múltiplos locais de mapeamento ambíguos para melhorar a estimativa da expressão genética. Assim, além de relatórios de impacto único, também geramos resultados de mapeamento que relataram até 200 acessos por leitura (multi-hit). Nós também incluímos o pipeline de mapeamento de Bowtie com parâmetros de mapeamento específicos para quantificação com o RSEM, como descrito no seguinte section33.as opções da linha de comandos para todas as ferramentas de alinhamento de sequências são descritas na Nota complementar 1.

quantificação da expressão genética

a fase de quantificação incluiu três categorias de quantificadores – quantificadores baseados na contagem (i.e., HTSeq e quantificadores embutidos para os oleodutos mágicos, RUM e Subread), quantificadores baseados em modelos de probabilidade para mapeamento genômico( i.e., Botão de punho), e a probabilidade baseados no modelo de quantificadores para transcriptomic de mapeamento (por exemplo, RSEM). As principais características destes quantificadores são resumidas no quadro complementar S3. Cufflinks é um quantificador baseado em modelos Poisson que estima probabilidades de atribuição de leitura com base na informação de alinhamento 32. It is capable of both assembling transcripts and quantifying gene or transcript expressions. Neste estudo, nós desativamos a função de montagem e fornecemos o arquivo de anotação do genoma GTF como uma referência de quantificação. HTSeq é um quantificador baseado na contagem ingênua que atribui leituras mapeadas para genes31. HTSeq é capaz de quantificar a expressão genética, mas não a expressão transcrita. RSEM é também um quantificador baseado em modelos de Poisson que é semelhante em conceito ao Cufflinks33. Informações de leitura multi-hit é importante para ambos os botões de punho e RSEM. Estes algoritmos usam informações de leitura multi-hit para estimar com mais precisão a expressão de gene ou transcrição.os resultados do mapeamento dos oleodutos de alinhamento nem sempre foram compatíveis com as três categorias de quantificadores. Os botões de punho requerem que os resultados de alinhamento sejam ordenados por coordenadas de alinhamento e as leituras multi-acerto são marcadas com a marca ‘NH’ no campo de atributos do ficheiro SAM. HTSeq requer que os resultados de alinhamento sejam ordenados por nomes lidos e que a tag’ NH ‘ esteja ausente no arquivo SAM. RSEM apenas quantifica o mapeamento transcriptômico, ou seja, lê mapeados e relatados em coordenadas transcriptômicas. Além disso, o RSEM apenas lida com alinhamentos não gapados. Assim, a filtragem é necessária para remover alinhamentos gapados. Devido a estes requisitos, pré-processamos todos os resultados de alinhamento antes da quantificação. Em resumo, vinte gasodutos de alinhamento, incluindo oleodutos spliced, un-spliced, single-hit, e multi-hit, eram adequados para quantificação baseada em Contagem. Dezesseis condutas de alinhamento eram adequadas para botões de punho, e apenas dez eram adequadas para o RSEM. O RSEM foi projetado especificamente para trabalhar bem com o Bowtie. Assim, nós também incluímos este mapeamento embutido e gasoduto de quantificação.as opções da linha de comandos para todas as ferramentas de quantificação são descritas na Nota complementar 1.

a normalização da expressão genética

a normalização dos dados ARN-seq permite a comparação entre amostras. Geralmente, os métodos de normalização corrigem o tamanho da biblioteca (ou seja, o número total de leituras em uma amostra), que é a fonte primária de variância entre amostras. Investigamos sete métodos de normalização-fragmentos por milhão de fragmentos mapeados (FPM), fragmentos por quilobase de comprimento do gene por milhão de fragmentos mapeados (FPKM), mediana (Med.), quartilo superior( UQ), expressão logarítmica relativa (RLE), média aparada dos valores m (TMM) e índice de expressão (EIndex, que é específico do oleoduto mágico) (Ver Tabela suplementar S4). Nós descrevemos cada um destes métodos de normalização com base na seguinte descrição matemática do conjunto de dados SEQC-benchmark.

$$\overline{x}_{s, \cdot ,k} = \frac{1}{N}\mathop \sum \limits_{n = 1}^{N} x_{s,n,k}$$

temos definido o conjunto de genes presentes para ser

e o presente final gene conjunto é

$$K_{p} = K_{p,BGI} \cap K_{p,PODEM} .$$

usámos o mesmo conjunto de gens actuais para todos os métodos de normalização para um gasoduto RNA-seq.

A contagem total de presente genes para uma dada amostra s e replicar n é

$$x_{s,n} = \mathop \sum \limits_{{k \in K_{p} }} x_{s,n,k} ,$$

e a média do número total de genes presentes para todos os dados a partir de um único site é

$$\bar{x} = \frac{1}{4}\frac{1}{N}\mathop \sum \limits_{s} \mathop \sum \limits_{{n = 1}}^{N} x_{{s,n}}.$$

Assim, definiu-FPM-normalizado expressão para cada amostra s, replicar n, e gene k como

$$y_{s,n,k}^{MIN} = \frac{{x_{s,n,k} \cdot \overline{x}}}{{x_{s,n} }}.$$

Mediana e superior quartil normalizada expressão para cada amostra s, replicar n, e gene k são, então, definido como

$$y_{s,n,k}^{Med} = \frac{{x_{s,n,k} \cdot \til{x}}}{{\til{x}_{s,n} }}{\text{e }}y_{s,n,k}^{UQ} = \frac{{x_{s,n,k} \cdot \hat{x}}}{{\hat{x}_{s,n} }}.{ }$$

Para FPKM de normalização, definimos o comprimento de um gene k como \(\ell_{k}\), que é o comprimento da união de todos os exões relacionadas com o gene, conforme definido pelo AceView transcriptoma. A formulação original da FPKM utilizou arbitrariamente fatores de escala de 1 × 103 para o comprimento do gene e 1 × 106 para o número total de fragmentos mapeados. A fim de manter uma gama dinâmica comparável entre todos os métodos de normalização, nós escalamos pelo comprimento médio do gene e contagem total média para todos os genes presentes. A duração média de todos os presentes genes

$$\overline{\ell } = \frac{1}{{\left| {K_{p} } \right|}}\mathop \sum \limits_{{k \in K_{p} }} \ell_{k} .$$

Assim, rescaled FPKM-normalizado expressão para cada amostra s, replicar n, e gene k é

$$y_{s,n,k}^{FPKM} = \frac{{x_{s,n,k} \cdot \overline{\ell } \cdot \overline{x}}}{{x_{s,n} \cdot \ell_{k} }}.$$

os métodos de normalização TMM e RLE são semelhantes à normalização FPM, mas introduzem um factor de escala adicional para ajustar o tamanho da biblioteca. Usamos o pacote edgeR em R para estimar um fator de escala para cada replicado de amostra 36,53. O método TMM seleciona uma biblioteca de referência a partir de um conjunto de bibliotecas replicadas de amostras e então calcula rácios de expressão de log (valores M) e valores de expressão de log média (valores A) entre a biblioteca alvo e a biblioteca de referência. Números extremos nos valores M E A são reduzidos, e o Fator de escala para a biblioteca alvo é a média ponderada dos valores m restantes. O método RLE determina um fator de escala pela primeira vez definindo a biblioteca mediana como a média geométrica genética através de réplicas de amostras 35. A proporção mediana de cada biblioteca alvo para a biblioteca mediana é tomada como o Fator de escala. TMM – e RLE normalizada expressão para cada amostra s, replicar n, e gene k são, então, definido como:

onde \(\hat{f}_{s,n}^{TMM}\) e \(\hat{f}_{s,n}^{RLE}\) são o fator de escala para a amostra s, replicar n.

RNA-seq pipeline de métricas de desempenho

Referência métricas para o RNA-seq dutos estão resumidos no Quadro Suplementar S7.

a Precisão de medida como o desvio de acordo com pcr referências

$${\stackrel{-}{y}}_{s,\cdot ,k}=\frac{1}{N}\sum_{n=1}^{N}{y}_{s,n,k}$$

Dado amostras A e B, o absoluto log-razão de desvio de RNA-seq-base de expressão de acordo com pcr baseado expressão de um gene k é

$$\Delta_{\frac{A}{B},k} = \left | \log_2\left ( \frac{\bar{x}_{A,., k} {\bar{x}_{B,., k}} \direita ) – \log_ 2 \esquerda (\frac {\bar{q}_{A,., k} {\bar {q}_{B,.,k}} \right) \right|, $$

and the final accuracy metric was defined as the median of all \({\Delta } _{{\frac{a}{b}, k}}\), \(k = 1 \ldots K\).foi calculado o coeficiente de variação (CoV) para cada gene e cada amostra em quatro bibliotecas replicadas, da seguinte forma::

$$CoV_{s,k} = \frac{{sd\left( {x_{s, \cdot ,k} } \right)}}{{\overline{x}_{s, \cdot ,k} }},$$

Fiabilidade medido como intra-exemplo de correlação da expressão de genes

A confiabilidade de um sistema de medição pode ser avaliada pelo coeficiente de correlação intraclasse (ICC)54,55. O ICC é aplicável a medições que podem ser organizadas em grupos, e descreve como medições similares do mesmo grupo são entre si. A definição moderna do ICC empresta o quadro de análise da variância (ANOVA), ou mais especificamente ANOVA com efeitos aleatórios 55. O tipo de ANOVA depende do projeto experimental e geralmente segue a definição no artigo Shrout publicado em 197955. O ICC (1,1) e o ICC(1,k) baseiam-se no modelo de efeitos aleatórios unidireccionais e são aplicáveis ao caso de cada grupo ser avaliado por um conjunto diferente de ratos k seleccionados aleatoriamente a partir de uma maior população de ratos. ICC(2,1) e ICC (2,k) baseiam-se no modelo de efeitos aleatórios bidirecionais e são aplicáveis ao caso de uma amostra aleatória de raters k ser pré-selecionada de uma população maior e cada rater avalia cada grupo exatamente uma vez (i.e., cada rater avalia os grupos n no seu conjunto). O ICC (3,1) e o ICC(3,k) baseiam-se no modelo de efeitos mistos bidirecionais e são aplicáveis ao caso de cada grupo ser avaliado por cada uma das mesmas taxas k, que são as únicas taxas na população. O segundo parâmetro no TPI(,) indica se o TPI deve medir a confiabilidade de uma única medição ou a média das medições em k.

Para o SEQC referência de conjunto de dados com replicar bibliotecas para cada amostra, ICC(1,1) ou ICC(1,k) equipado nosso objetivo, visto que, para que um gene g, a expressão do gene de replicar bibliotecas para diferentes amostras (ou grupos diferentes no contexto anterior), não foram avaliados exactamente sob as mesmas condições (ou avaliado pelos mesmos avaliadores no contexto anterior). Nós escolhemos usar ICC (1,k) como bibliotecas replicadas estão disponíveis para a maioria dos experimentos. Matematicamente, uma forma de modelo de efeitos aleatórios pode ser formulado como:

$$Y_{ij} = \mu + \alpha_{j} +{\varepsilon_{ij}} ,$$
$$ICC\left( {1,k} \right) = \frac{BMS – WMS}{{BMS}},$$

Nós ICC calculado para cada gene k, \(k = 1 \ldots K\) e, em seguida, usou-se a mediana de todos os ICCs como a medida final de confiabilidade.

também investigamos outras métricas potenciais, tais como a reprodutibilidade, que é definida como a correlação Spearman entre duas bibliotecas replicadas da mesma amostra (Nota complementar 2). A correlação de Spearman variou de 0.993 a 0, 996 (figura suplementar. S8) utilizar AllGenes. Descartamos a métrica de reprodutibilidade por causa da gama dinâmica relativamente pequena.

avaliando a utilidade das métricas de referência para a seleção do gasoduto RNA-Seq

classificamos os gasodutos RNA-seq com base na classificação média das três métricas de referência (exatidão, precisão e confiabilidade). Nós, em seguida, avaliada a utilidade do benchmark métricas examinando se de bom desempenho e com baixo desempenho condutas identificadas com base no benchmark métricas foram informativos para inferir o desempenho de genes de expressão baseado em predição de doença de resultado e a significância estatística do paciente estratificação para todos os pontos finais clínicos (por exemplo, o SEQC-neuroblastoma EFS e OS pontos de extremidade e o TCGA-pulmão-adenocarcinoma de sobrevivência ponto final).em primeiro lugar, para os 278 gasodutos representativos RNA-seq aplicados ao conjunto de dados de referência SEQC, calculámos o valor médio utilizando um subconjunto das métricas de referência como indicador de desempenho final para cada gasoduto. No total, tivemos 6 métricas (3 benchmark métricas × 2 gene sets ), e investigamos 12 subconjuntos (4 × 3) de 6 métricas usando os seguintes critérios:

  1. (1)

    Quatro combinações das três métricas de referência, com pelo menos dois em um subconjunto—uma combinação com todas as três métricas de referência, de três combinações de apenas duas das três métricas de referência.

  2. (2)

    três subconjuntos formados por métricas derivadas de todos os genes, aquelas derivadas de genes de baixo expressão, ou uma combinação de ambos.

em Segundo lugar, para cada um dos 278 representante RNA-seq dutos (156 para o TCGA-pulmão-adenocarcinoma de sobrevivência a ponto de extremidade), foi calculado aninhadas validação cruzada AUC e o MCC, conforme descrito na seção “Método” seção “Neuroblastoma e adenocarcinoma de pulmão de modelagem preditiva,” resultando em 834 (468 para o TCGA-pulmão-adenocarcinoma de sobrevivência a ponto de extremidade) da AUC e da MCC valores para cada uma clínica de ponto de extremidade (i.e., 278 pipelines × 3 classificadores, ou 156 pipelines × 3 classificadores) (quadros suplementares S11,S12). Nós também modelamos funções de sobrevivência usando a análise Kaplan-Meier para cada gasoduto, como descrito na seção “método” “Análise de sobrevivência Kaplan–Meier”. Para cada oleoduto RNA-seq, nós resumimos o desempenho da previsão baseada na expressão genética do resultado da doença usando tanto a AUC média e MCC entre classificadores e a taxa de sucesso da estratificação do paciente (i.e., separação estatisticamente significativa de duas curvas Kaplan–Meier) em todas as iterações e classificadores na estrutura de validação cruzada aninhada.finalmente, identificamos os 10% de condutas de bom desempenho e os 10% de condutas de baixo desempenho com base na classificação média de um subconjunto das três métricas de referência. O desempenho de previsão correspondente (i.e., AUC e MCC) dos oleodutos de bom desempenho foram testados em relação aos oleodutos de mau desempenho utilizando o teste unilateral Wilcoxon rank-sum, com a hipótese nula de que a mediana do primeiro grupo não era maior do que a do segundo grupo.

Neuroblastoma e adenocarcinoma pulmonar modelo preditivo

avaliámos o desempenho de 278 condutas RNA-seq em termos de tomada de decisão baseada na expressão genética utilizando o dataset48. O conjunto de dados SEQC-neuroblastoma e os parâmetros clínicos associados estão resumidos na tabela complementar S9. Os oleodutos RNA-seq foram avaliados em termos de previsão dos resultados dos doentes com neuroblastoma para dois parâmetros clínicos utilizando validação cruzada aninhada (Fig. suplementar. S13) 56,57. Também avaliamos Similarmente o desempenho de 156 condutas RNA-seq aplicadas ao dataset TCGA-lung-adenocarcinoma para prever o resultado da doença. O conjunto de dados TCGA-lung-adenocarcinoma e o parâmetro clínico associado estão resumidos na tabela complementar S10.a validação cruzada aninhada envolve formação e ensaio de um modelo de previsão ideal. Isto é realizado usando a três vezes otimização ou validação cruzada interna, aplicada ao subconjunto de treinamento a partir da cinco vezes validação cruzada externa. Uma vez identificados os parâmetros do modelo de previsão ideal final (isto é, os hiper-parâmetros classificadores e o tamanho da característica), o modelo final é treinado usando todo o subconjunto de treinamento, e então testado usando a dobra restante a partir da validação cruzada externa fifefold. Este processo foi repetido por dez iterações. Nós conduzimos a validação cruzada aninhada separadamente para cada um dos três classificadores (i.e., adaptative boosting, logistic regression, and support vector machines) and used the minimum redundancy, maximum relevance (mRMR) feature selection method to choose optimal feature sizes from within the range of 5 to 40 with the step size of 558.

Análise de sobrevivência Kaplan–Meier

para cada gasoduto RNA-seq e classificador (ou seja, 278 pipelines × 3 classificadores para os endpoints SEQC-neuroblastoma e 156 pipelines × 3 classificadores para o endpoint de sobrevivência TCGA-lung-adenocarcinoma), modelámos as funções de sobrevivência Kaplan–Meier com base nas etiquetas previstas para cada amostra. Usámos então o teste de log-rank de duas caudas para determinar se as curvas de sobrevivência estimadas para cada grupo de doentes previsto eram estatisticamente diferentes.

a Análise de variância e de cálculo da contribuição de cada RNA-seq fator pipeline para o global pipeline de variância

Nós utilizada a análise de variância (ANOVA) para determinar se cada um RNA-seq pipeline fator que contribui significativamente para a variância de cada uma das três métricas de referência (por exemplo, rigor, precisão e fiabilidade, bem como a variação de previsão de desempenho (por exemplo, a AUC e o MCC). Para cada uma das três métricas de referência, usamos um modelo linear (função R “lm”) para encaixar os dados de todos os 278 pipelines usando a métrica como variável dependente e os fatores RNA-seq pipeline como variáveis categóricas independentes. Nós consideramos os seguintes fatores como variáveis categóricas independentes—algoritmo de mapeamento, estratégia de mapeamento (i.e., spliced vs. un-spliced), relatórios de mapeamento (i.e., single-hit vs. multi-hit), algoritmo de quantificação e algoritmo de normalização. Incluímos todos os fatores e suas interações de duas vias no modelo linear. Para cada um dos endpoints de previsão, aplicamos a mesma técnica para encaixar os dados de todos os 278 pipelines usando AUC média ou MCC como a variável dependente e o mesmo conjunto de fatores de pipeline RNA-seq como variáveis categóricas independentes. Nós então conduzimos a ANOVA no modelo linear (função R “anova”). ANOVA calcula uma “soma de quadrados” (i.e., variância) atribuída a cada fator ou interação e usa um teste-F para determinar se a variância é estatisticamente significativa. Calculamos a porcentagem que cada fator ou interação contribui para a variância total calculando a razão da “soma dos quadrados” para cada fator para a soma total dos quadrados.

Análise de regressão

investigámos a relação entre os perfis de alinhamento ou as características de distribuição da expressão genética e as métricas de referência. O alinhamento de perfis incluído o número total de fragmentos mapeados, o número total de leituras abrangendo o intrônicos região, o número total de leituras com inserções ou exclusões, o número total de perfeitamente lê, o número total de leituras com, no máximo, uma incompatibilidade, e o número de inadequações por mapeada de leitura. Cada algoritmo de alinhamento foi representado pelas estatísticas médias de 2 locais de sequenciamento, 4 amostras, 4 bibliotecas replicadas e 2 faixas. Usando o pacote “massa” em R, adotamos a estimativa M com a abordagem de ponderação Huber para ajustar modelos de regressão linear robustos entre uma variável dependente (desempenho métrico de referência) e uma variável explicativa (um perfil de alinhamento). A estimativa M com método de ponderação Huber é um método de regressão robusto na presença de valores anómalos. As características de distribuição da expressão genética incluíam o quartil inferior, mediana, quartil superior, máximo, intervalo interquartil, desvio-padrão, skewness, kurtosis e entropia de uma distribuição da expressão genética. Usámos a mesma estimativa M com a abordagem de ponderação Huber para encaixar modelos de regressão linear robustos, e depois reportámos o erro padrão residual para cada modelo.

Declaração de exoneração de Responsabilidade

As opiniões apresentadas neste artigo não reflectem necessariamente a opinião ou política actual ou futura da Food and Drug Administration dos EUA. Qualquer menção de produtos comerciais deve ser clarificada e não deve servir de apoio.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *