의 영향 RNA-서열 데이터 분석 알고리즘에서 유전자 발현을 예측 및 다운스트림 예측|과학 보고서

FDA SEQC 벤치 마크 데이터 집

FDA SEQC-벤치 마크 데이터 집합(유전자 발현 옴니버스 식별 번호 GSE47792)포함되어 있 짝 끝 RNA seq 생성된 데이터를 사용하 Illumina HiSeq2000 플랫폼으로 읽 길이의 100nucleotides7. 우리는 Beijing Genomics Institute(Bgi)와 Mayo Clinic(MAY)의 두 사이트에서 시퀀싱 된 SEQC-benchmark 데이터 세트의 하위 집합을 사용했습니다. 우리는 시퀀싱 사이트에서 준비된 4 개의 복제 라이브러리가있는 4 개의 샘플(즉,A,B,C 및 D)을 각각 사용했습니다. 샘플 A 는 보편적 인 인간 참조 RNA(UHRR)를 포함하고,샘플 B 는 인간 뇌 참조 RNA(HBRR)를 포함하고,샘플 C 는 A 와 B(75%a 와 25%B)의 혼합물을 포함하고,샘플 D 는 A 와 B(25%A 와 75%b)의 혼합물을 포함한다. 우리는 각 샘플 복제에 대해 단일 흐름 셀의 두 레인의 데이터를 사용했습니다. 이 SEQC 제공한 정량적 PCR(qPCR)벤치 마크 데이터 집합을 포함하는 20,801 유전자 분석을 가진 PrimePCR(Bio-Rad,헤라클레스,캘리포니아). 각각의 PrimePCR 유전자는 4 개의 샘플(즉,A,B,C 및 D)각각에 대해 한 번 분석되었다. FDA SEQC 벤치 마크 데이터 세트 및 샘플은 보충 표 S5 및 S6 에 요약되어 있습니다.

신경과 폐 선 데이터 집

우리는 우리 사용되는 176 샘플을 신경 데이터 집합(하위 집합의 큰 498-샘플 데이터; 이 원고에서 SEQC-neuroblastoma 라고 함)질병 결과의 유전자 발현 기반 예측 측면에서 RNA-seq 파이프 라인의 성능을 평가합니다. 이 샘플은 쾰른의 대학 어린이 병원에서 제공되었으며 Illumina platform48 을 사용하여 BGI 에서 시퀀싱되었습니다. 총 176 개의 샘플을 채취했 위험이 높은 환자가 정의된 대로 그 중 4 단계 신경과 나이>18 개월이나 MYCN-증폭 종양이의 모든 단계 또는 연령이다. SEQC-신경 모세포종 데이터 세트는 가입 번호 GSE47792 로 유전자 발현 옴니버스에 침착되었다.

우리는 예측 두 임상 끝점인 이벤트-무료 생존(EFS),즉,발생 등의 이벤트를 진행,재발 또는 사망,그리고 전반적인 생존(OS),는,죽음이다. 두 종말점에 대해,환자는 두 그룹으로 분할되었다(즉,높은 위험 대 낮은 위험). 위험이 높은 환자 경험 이벤트 또는 사망하기 전에 미리 정의된 생존 시간이 임계값에,하는 동안 위험도가 낮은 환자 경험 이벤트 또는 사망 후에는 임계값에,또는 그들의 마지막 따라 이 임계값을 초과했습니다. EFS 와 OS 의 생존 시간 임계 값은 각각 2 년과 3 년이었다. 임계 값은 고위험 및 저 위험 환자 수의 균형을 맞추기 위해 선택되었습니다. SEQC-신경 모세포종 데이터 세트의 세부 사항은 보충 표 S9 에 제공됩니다.

우리는 또한 cancer Genome Atlas(TCGA)저장소에서 87 샘플 폐 선암종 RNA-seq 데이터 세트를 사용했습니다. 예측 끝점도 생존,그리고 우리 사용되는 동일한 기준을 정의하는 위험이 높은 위험도가 낮은 그룹으로 생존 시간이 임계값의합니다. 2 년 임계 값은 고위험 및 저 위험 환자 수의 균형을 맞추기 위해 선택되었습니다. Tcga-폐-선암종 데이터 세트의 세부 사항은 보충 표 S10 에 제공됩니다.

필터링 qPCR 벤치 마크 데이터 집합을 생산하는 참조 설정의 유전자

기 때문에 다양성 qPCR 측정과 불일치 사이에서 qPCR platforms7,우리는 필터링 qPCR 벤치 마크 데이터 집합을 유지하는 유전자가 전시되어”올바른”동작입니다. 그런 다음 이러한 유전자를 사용하여 벤치 마크 메트릭(즉,정확도,정밀도,신뢰성 및 재현성)을 계산했습니다. 이러한 필터링 과정은 보충 도 1 에 요약되어있다. S1.

을 시작으로의 초기 설정 20,801 유전자 분석을 가진 PrimePCR,우리는 필터링 이러한 유전자를 유지 하는 유전자들로 정량화 non-zero(즉,감지)및 Ct(사이클 threshold)값≤35(35 을 나타내의 검색 단 하나의 분자 샘플에서). PrimePCR 데이터를 필터링하면 SEQC-benchmark RNA-seq 데이터 세트를 매핑하는 데 사용 된 AceView transcriptome 과도 일치하는 14,014 개의 유전자가 생성되었습니다.

이후,우리는 필터링 14,014qPCR 유전자를 유지 12,610 유전자는 전시고 올바른 적정기(위)및 예상되는 혼합 비율(EMR). 이 과정의 세부 사항은”적정 순서 및 예상 혼합 비율에 의한 Qpcr 유전자 필터링”섹션에 있습니다.

마지막으로,때문에 일부 벤치 마크와 같은 지표의 정확성과 정밀도에 민감한 제거나 매우 낮은 표현하는 유전자,우리는 더 이상 선택의 유전자는 표현으로 비 제로에 모든 복제의 모든 샘플의 모든 시퀀싱이트 및 모든 278RNA seq 파이프라인. 최종 참조 설정만을 포함 10,222qPCR 유전자(이하”모든 유전자”)사용된 계산하는 세 가지 모두 벤치마크 측정을 위한 RNA seq 파이프라인.

이전의 연구에 기초하여,발현이 낮은 유전자는 파이프 라인 사이에서 일관성이 없을 가능성이 더 높다 49. 따라서,우리는 또한 식별 설정의 낮은 표에서 유전자 10,222 유전자에 따라 평균 qPCR 식 샘플의 A,B,C,D. 최저 20%의 10,222 유전자(즉,2044 유전자”라고 낮은 표현하는 유전자”)또한을 계산하는 데 사용되는 동일한 세트의 벤치마크 측정을 위한 RNA seq 파이프라인. 이 설계는 저 발현 유전자 발현을 추정하는 데있어 RNA-seq 파이프 라인의 능력을 조사 할 수있게했다.

필터링 qPCR 유전자가 적정에 의해 주문 예상되는 혼합 비율

SEQC-벤치 마크 데이터 집합(RNA-seq 및 qPCR)독특한 특성을 가지고 있 사용할 수 있는 평가의 정량화는 정확성이 있어야 한다. 확인 후 검출(즉,비로 Ct≤35)및 AceView-일치하는 qPCR 유전자,우리가 사용되는 두 개의 측정(하고 EMR)에 추가로 필터링 벤치마크 qPCR 데이터 집합을 떠나,”올바른”qPCR 유전자입니다. 하고 EMR 메트릭 캡쳐 독특한 혼합성 데이터의,즉

$$C=\frac{3}{4}A+\frac{1}{4}B\,\text{및}\,=\frac{1}{4}A+\frac{3}{4}B.$$

기 때문에 이 숙박 시설은 모두 유전자가 될 것으로 예상된 표현에서 다음 중 하나를 주문에 따라 상대적 표현의 샘플을 A 와 B:

$$\를 ge C\ge D\ge B\,\text{또는}\, A\le C\le D\le B.$$

$${\stackrel{-}{q}}_{s,\cdot,k}=\frac{1}{N}\sum_{n=1}^{N}{q}_{s,n,k,}$$

설정의 qPCR 유전자는 올바른 적정기 위해

단일 복제 qPCR 데이터 집합(예: 이,PrimePCR 데이터 집합을 우리는 분석),고유의 다양성의 단일 qPCR 측정할 수 있습 결과에 부정적인 거짓는 유전자에 따라 정확하지만,실패를 확인할 수 있습니다. 에서 literature50,51,계수의 변형에 대한 복제 qPCR 측정은 일반적으로 15%또는 더 큰 그래서 우리는 이 번호를 조정하는 여유 여부를 결정하기 위한 유전자 다음과 같이 올바른니다. 수학적으로,우리는 각 qPCR 측정에서 플러스 및 마이너스 하나의 표준 편차의 범위를 계산하여 마진으로 사용했습니다. ${K}_{TO}$에 대한 수정 된 방정식은 다음과 같습니다:

$${K}_{하}={K}_{하고,\ge B}\컵{K}_{하고,\le,B}$$

어디$a=1.15,b=0.85$

외하여,샘플이어야 또한 전시는 특정을 혼합 비율이 있습니다. 주어진 사이의 비율 샘플을 A 와 B

$${R}_{A,B}=\frac{A}{B}$$

EMR 사 샘플 C 및 D

$$EM{R}_{C,D}=\frac{3z\cdot{R}_{A,B}+1}{z\cdot{R}_{A,B}+3}\cdot\frac{z+3}{3z+1}$$

$${R}_{A,B}\에\left\equiv,$$

$${R}_{C,D}\\에서 왼쪽\equiv\left,\text{및}$$

$$EM{R}_{C,D}\에\left\equiv),$$

그리고 마지막으로 결정하는 설정의 유전자를 만족시키는 EMR 기준은 다음과 같이:

$${K}_{EMR}=\left\{k|\left({{R}_{C,D}^{Lower}\le{EMR}_{C,D}^{Upper}|}_{{k,R}_{C,D}\ge EM{R}_{C,D}}\right)\vee\left({{R}_{C,D}^{Upper}\ge{EMR}_{C,D}^{Lower}|}_{{k,R}_{C,D}\le EM{R}_{C,D}}\right)\right\}$$

RNA-서열 데이터 분석 파이프라인 매핑을 정량화, 고 정규화

우리 조사 278RNA seq 파이프라인을 포함 thirteen 시퀀스를 매핑 algorithms18,19,20,21,22,23,24,25,26,27,28,29, 세 가지 카테고리의 표현 정량화 algorithms31,32,33,그리고 일곱 식 정상화 방법이 있습니다. 보충 표 S2-S4 는 각 파이프 라인 구성 요소(시퀀스 매핑,표현식 정량화 및 표현식 정규화)에 대해 고려 된 모든 옵션을 요약합니다. 다 mapping 알고리즘을 조사하는 Bowtie18,Bowtie219,BWA20,GSNAP21,Magic22(새로운 파이프라인에 의해 개발되 NCBI 에 대한 SEQC 프로젝트:ftp://ftp.ncbi.nlm.nih.gov/repository/acedb/Software/Magic),MapSplice23,Novoalign(상용 패키지에 의해 개발되 Novocraft:https://www.novocraft.com/products/novoalign/),OSA24,RUM25,STAR26,Subread27,TopHat28 및 WHAM29. 일부는 transcriptome 에 대한 읽기의 접합되지 않은 매핑을 사용하고 다른 일부는 게놈에 접합 된 매핑을 수행합니다. 매직은 두 가지를 병렬로 사용하고 각 정렬의 품질을 비교하여 여러 대상에서 최고를 유지합니다. 매핑 알고리즘은 고유 한 매핑 만보고하거나 읽기 당 여러 매핑 위치를 허용 할 수 있습니다. 정량화 알고리즘은 다음과 같습니다 간단한 수를 기반 방법(즉,HTSeq31)및 포아송 분포 기반 확률적 방법을 적용하거나 게놈(즉,Cufflinks32)또는 transcriptomic 데이터를 매핑(즉,RSEM33). 마술,럼 및 하위 읽기(즉,featureCounts52)파이프 라인에는 간단한 카운트 기반 방법의 범주에 속하는 임베디드 정량화 방법이 포함됩니다. 정규화 방법은 다음과 같습니다 간단한 스케일링 방법(즉,조각을 만에 매핑된 조각 조각당 kilobase 유전자의 길이 당 만에 매핑된 조각,중앙값과 사분위수),견고한 스케일링 방법(즉,상대적 로그를 표현하고 손질된 것을 의미의 m-값),그리고 방법에 포함된 특정한 파이프라인(예,마법의 표현수).

시퀀스 매핑

우리는 접합되지 않은 또는 접합 된 매핑 알고리즘을 사용하여 연속적인 단계에서 각 참조에 시퀀스를 매핑했습니다. Un-spliced 매핑을 말하는 알고리즘을 맞추 전체에 읽기 순서(예를 들어,Bowtie2,BWA 및 Novoalign)반면 접합 매핑을 말하는 알고리즘을 분할을 읽으로 세그먼트를 수용하는 긴 공백 또는 introns 에 읽기(예:스핀과 MapSplice). 접합되지 않은 매핑의 첫 번째 단계에서 모든 쌍 끝 시퀀스를 ERCC/MT/rRNA 참조(즉,)에 매핑하려고 시도했습니다 외부 RNA 는 컨소시엄 서열,미토콘드리아 게놈 및 리보솜 RNA 서열)을 제어한다. 그런 다음 매핑되지 않은 모든 읽기 쌍을 AceView transcriptome 에 매핑했습니다. 마지막으로,모든 읽 쌍이하지 않았지도 중 하나에 연결됩/MT/rRNA 또는 AceView 참조 매핑 되었는 인간 게놈 참조. Transcriptomic 좌표 매핑을 했다 다음으로 번역 genomic 좌표 매핑 및 합병으로 인간 게놈 매핑을 생산 최종 결과(보충 Fig. S21,왼쪽 패널). 우리가 사용 Bowtie2 으로 매퍼에 대한의 첫 번째 단계는 모든 접합 mapping 파이프라인(부가 Fig. S21,오른쪽 패널). Spliced 매핑 알고리즘을 직접 매핑을 읽는 인간 게놈(예를 들어,MapSplice 및 GSNAP)또는 매핑 전체 un-접합을 읽을 transcriptome 다음 병합된 이 매핑하는 결과 접합 매핑 결과의 나머지를 읽고 인간 게놈(예:스핀과 OSA). 보충 표 S2 는이 연구에서 조사 된 모든 매핑 도구를 요약 한 것입니다.

Bowtie2,GSNAP,Novoalign,TopHat 및 WHAM 은 읽기 쌍당보고 된 매핑 수를 제어 할 수 있습니다. 기본적으로 이러한 알고리즘은 일반적으로 읽기 쌍당 단일 최상의 매핑 위치를보고합니다. 그러나,일부 정량화 알고리즘을 사용할 수 있습에 대한 정보를 여러 모호한 위치를 매핑을 개선하는 유전자 발현 용도로도 사용이 가능합니다. 따라서 단일 적중보고 외에도 읽기 당 최대 200 개의 적중(다중 적중)을보고 한 매핑 결과도 생성했습니다. 우리는 또한 포함 넥타이를 매핑하는 파이프라인 매개 변수를 매핑에 대한 특정 정량화와를로에서 설명한 다음 section33.

모든 시퀀스 정렬 도구에 대한 명령 줄 옵션은 보충 참고 1 에 자세히 설명되어 있습니다.

유전자 발현 정량화

정량화 단계를 포함 세 가지 범주의 수량자를 계산—–기반으로 한정사(즉,프 및 내장량자에 대한 마법,럼,그리고 이 프로그램 파이프라인),확률 모델 기반으로 한정사 genomic 매핑을(즉(예를 들어,CUFFLINKS),및 transcriptomic 맵핑(즉,RSEM)을 위한 확률 모델-기반 정량기. 이러한 정량화의 주요 특성은 보충 표 S3 에 요약되어 있습니다. 커프스 단추는 정렬 정보 32 를 기반으로 판독 할당 확률을 추정하는 포아송 모델 기반 정량기입니다. 그것은 성적표를 조립하고 유전자 또는 성적표 표현을 정량화 할 수 있습니다. 이 연구에서 우리는 어셈블리 기능을 비활성화하고 게놈 주석 GTF 파일을 정량화 참조로 제공했습니다. HTSeq 는 genes31 에 매핑 된 읽기를 할당하는 순진한 카운트 기반 수량화 자입니다. HTSeq 는 유전자 발현을 정량화 할 수 있지만 성적표 발현은 할 수 없다. RSEM 은 또한 cufflinks33 과 개념이 유사한 Poisson 모델 기반 정량기입니다. 멀티 히트 읽기의 정보는 커프스 단추와 RSEM 모두에 중요합니다. 이러한 알고리즘은 다중 히트 읽기 정보를 사용하여 유전자 또는 성적표 발현을보다 정확하게 추정합니다.

정렬 파이프 라인의 매핑 결과는 정량화의 세 가지 범주와 항상 호환되지는 않았습니다. 커프스 단추는 정렬 결과가 정렬 좌표로 정렬되고 다중 히트 읽기가 SAM 파일의 특성 필드에’NH’태그로 표시되도록 요구합니다. HTSeq 는 정렬 결과가 읽기 이름으로 정렬되고 SAM 파일에’NH’태그가 없음을 요구합니다. RSEM 은 transcriptomic 맵핑,즉 transcriptomic 좌표에서 매핑되고보고 된 읽기 만 정량화합니다. 또한 RSEM 은 갭되지 않은 정렬 만 처리합니다. 따라서 갭 정렬을 제거하려면 필터링이 필요합니다. 이러한 요구 사항 때문에 정량화 전에 모든 정렬 결과를 사전 처리했습니다. 요약하자면,이십 선형 파이프라인을 포함하여,접합,유엔 접합,single-hit,and multi-hit 파이프라인,었 위해 적당한 수를 기반 정량화. 16 개의 정렬 파이프 라인은 커프스 단추에 적합했으며 10 개만 RSEM 에 적합했습니다. RSEM 은 Bowtie 와 잘 작동하도록 특별히 설계되었습니다. 따라서이 임베디드 매핑 및 정량화 파이프 라인도 포함 시켰습니다.

모든 정량화 도구에 대한 명령 줄 옵션은 보충 참고 1 에 자세히 설명되어 있습니다.

유전자 발현 정규화

RNA-seq 데이터 정규화는 샘플 간 비교를 가능하게합니다. 일반적으로 정규화 방법은 라이브러리 크기(즉,샘플의 총 읽기 수)를 수정하며 이는 샘플 간 분산의 기본 소스입니다. 우리가 조사를 일곱 정상화 방법을 조사당 백만에 매핑된 조각(FPM),조각당 kilobase 유전자의 길이 당 만에 매핑된 조각(FPKM),중앙값(Med.),상위 사분위수(UQ),상대 로그 표현식(RLE),트림 된 m-값 평균(TMM)및 표현 지수(Magic pipeline 에 특정한 EIndex)(보충 표 S4 참조). 우리는 SEQC-benchmark 데이터 세트의 다음 수학적 설명을 기반으로 이러한 정규화 방법을 각각 설명합니다.

$$\overline{x}_{s,\cdot,k}=\frac{1}{N}\mathop\sum\limits_{n=1}^{N}무리수{s,n,k}$$

우리는 정의 집합의 존재 유전자

고 최종 존재하는 유전자 설정

$$K_{p}=K_{p,BGI}\캡 K_{p,할 수 있습}.$$

우리는 RNA-seq 파이프 라인에 대한 모든 정규화 방법에 대해 동일한 현재 gen 세트를 사용했습니다.

총 수에 존재하는 유전자가 지정된 샘플 s 복제 n

$$무리수{s,n}=\mathop\sum\limits_{{k\에 K_{p}}}무리수{s,n,k},$$

평균 총 수에 존재하는 유전자를 위한 데이터를 모두 하나의 사이트입니다.

$$\bar{x}=\frac{1}{4}\frac{1}{N}\mathop\sum\limits_{s}\mathop\sum\limits_{{n=1}}^{N}무리수{{s,n}}.$$

따라서,우리는 우리 정의된 FPM 정상화하는 표현에 대한 각 샘플 s,n 복제,유전자 k

$$y_{s,n,k}^{FPM}=\frac{{무리수{s,n,k}\cdot\overline{x}}}{{무리수{s,n}}}.$$

중간과 상위 분위 정상화하는 표현에 대한 각 샘플 s,n 복제,유전자 k 다음으로 정의

$$y_{s,n,k}^{Med}=\frac{{무리수{s,n,k}\cdot\물결표{x}}}{{\물결표{x}_{s,n}}}{\text{및}}y_{s,n,k}^{UQ}=\frac{{무리수{s,n,k}\cdot\hat{x}}}{{\hat{x}_{s,n}}}.{}$$

에 대한 FPKM 정상화,정의의 길이를 유전자 k 으로$\ell_{k}$의의 길이가 연합의 모든 exons 관련된 유전자에 의해 정의된 대로 AceView transcriptome. FPKM 의 원래 제제는 유전자 길이에 대해 1×103,매핑 된 단편의 총 수에 대해 1×106 의 스케일링 인자를 임의로 사용했다. 을 유지하기 위해서 비교할 동적 범위를 중 모든 정상화 방법을 우리는 대신 조정하여 평균 유전자 길이 평균 총 수에 대한 모든 존재하는 유전자가 있습니다. 평균 길이의 모든 존재하는 유전자

$$\overline{\ell}=\frac{1}{{\left|{K_{p}}\right|}}\mathop\sum\limits_{{k\에 K_{p}}}\ell_{k}.$$

따라서,관련된 FPKM 정상화하는 표현에 대한 각 샘플 s,n 복제,유전자 k

$$y_{s,n,k}^{FPKM}=\frac{{무리수{s,n,k}\cdot\overline{\ell}\cdot\overline{x}}}{{무리수{s,n} \cdot\ell_{k}}}.$$

TMM 및 RLE 정규화 방법은 FPM 정규화와 유사하지만 라이브러리 크기를 조정하기 위해 추가 스케일링 팩터를 도입합니다. 우리는 r 의 edgeR 패키지를 사용하여 각 샘플 replicate36,53 에 대한 스케일링 계수를 추정했습니다. 이 TMM 방법을 선택합 참고도서관 수영장에서의 샘플 복제 라이브러리고 다음 계산한 유전자를 현명한 log 식 비율(M-값)및 유전자 현명한 평균 log 식 값(A-값)사이의 대상 라이브러리와 라이브러리를 참조. M-값 및 A-값의 극단 숫자는 트리밍되고 대상 라이브러리의 스케일링 계수는 나머지 M-값의 가중 평균입니다. RLE 방법은 먼저 중앙값 라이브러리를 샘플 replicates35 에서 유전자 현명한 기하 평균으로 정의하여 스케일링 인자를 결정합니다. 중앙값 라이브러리에 대한 각 대상 라이브러리의 중앙값 비율은 스케일링 계수로 취해집니다. TMM-고 RLE 정상화하는 표현에 대한 각 샘플 s,n 복제,유전자 k 은 다음과 같이 정의된다:

어디$\hat{f}_{s,n}^{TMM}$및$\hat{f}_{s,n}^{RLE}$은 배율에 대한 샘플 s,복제 n.

RNA seq 파이프라인 성과 측정 규정

벤치마크 측정을 위한 RNA seq 파이프라인에 요약되어 있습니다 테이블 보충 S7.

정확도로 측정된 편차에서 qPCR 참조

$${\stackrel{-}{y}}_{s,\cdot,k}=\frac{1}{N}\sum_{n=1}^{N}{y}_{s,n,k}$$

주 샘플을 A 와 B 절대 로그인 비율의 편차 RNA seq 기반현에서 qPCR 기반현에 대한 유전자 k

$$\Delta_{\frac{A}{B},k}=\left|\log_2\left(\frac{\바{x}_{A,.,k}}{\bar{x}_{B,.이 경우,나는 그것을 할 수 없다.,k}}{\bar{q}_{B,.,k}}\right)\right|,$$

및 최종 정확도 메트릭은 all${\Delta}_{{\frac{A}{B},k}}$,$k=1\ldots K$의 중앙값으로 정의되었습니다.

정밀도로 측정되는 변화의 유전자 발현에 복제 도서관

우리는 전산 계수의 변화(CoV)각각의 유전자에 대한 각성에서 샘플을 네 복제 라이브러리는 다음과 같이:

$$CoV_{s,k}=\frac{{sd\left({무리수{s,\cdot,k}}\right)}}{{\overline{x}_{s,\cdot,k}}},$$

안정성 측정으로 내부 샘플의 상관관계를 유전자 발현

의 신뢰성 있는 측정 시스템을 평가할 수 있습에 의하여 급내 상관계수(ICC)54,55. ICC 는 그룹으로 구성 할 수있는 측정에 적용 할 수 있으며 동일한 그룹의 측정이 서로 얼마나 유사한지를 설명합니다. 현대 ICC 정의는 분산 분석(ANOVA)또는보다 구체적으로 무작위 효과가있는 ANOVA 의 프레임 워크를 차용합니다.55. 분산 분석의 유형은 실험 설계에 따라 다르며 일반적으로 197955 년에 발표 된 Shrout 의 기사에서 정의를 따릅니다. ICC(1,1)및 ICC(1,k)을 기반으로 한 방법으로 임의의 효과는 모델에 적용되는 경우 각 그룹에 의해 평가하는 다른 k 평가 무작위로 선택에서 더 많은 인구의 평가. ICC(2,1)및 ICC(2k)에 기반을 두 방법은 임의의 효과를 모델하고 해당되는 경우에는 임의의 샘플 k 평가자들은 미리 선택한에서는 인구 그리고 각각의 평가자 평가 각 그룹이 정확하게되면(즉 각 평가자는 모두 n 개의 그룹을 평가합니다). 각 그룹은 동일한 k raters 의 각각에 의해 평가되는 경우에 적용 할 수 있습니다,누가 인구의 유일한 raters. ICC(,)의 두 번째 매개 변수는 ICC 가 단일 측정의 신뢰성 또는 k 측정의 평균을 측정할지 여부를 나타냅니다.

에 대한 SEQC 벤치 마크 데이터 집합 복제 라이브러리에 대한 각 샘플 ICC(1,1)또는 ICC(1,k)적 우리의 목표 이후,유전자를 위한 g,유전자 발현의 복제를 위한 라이브러리를 다른 견본(또는 다른 그룹에서는 이전의 컨텍스트)평가되지 않음에 정확히 같은 조건에(거나 평가하여 같은 평가에서는 이전의 컨텍스트). 우리는 복제 라이브러리가 대부분의 실험에 사용 가능하기 때문에 ICC(1,k)를 사용하기로 결정했습니다. 수학적으로 한 방법으로 임의의 효과는 모델이 될 수 있습으로 공식화

$$Y_{ij}=\mu+\alpha_{j}+{\varepsilon_{ij}},$$

$$ICC\left({1,k}\right)=\frac{BMS-WMS}{{BMS}},$$

우리가 계산에 대한 ICC 각각의 유전자 k,$k=1\ldots K$,다음 사용 중의 모든 ICCs 최종 측정값의 신뢰성입니다.

우리는 또한 조사 다른 잠재적인 메트릭과 같은 재현성으로 정의된 Spearman 사이의 상관 관계 두 개의 복제 라이브러리는 같은 표본(부칙 2 참고). 스피어 만 상관 관계는 0 의 범위였다.993 내지 0.996(보충도. S8)AllGenes 를 사용하여. 우리는 상대적으로 작은 동적 범위 때문에 재현성 메트릭을 폐기했습니다.

을 평가하는 유틸리티의 기준에 대한 메트릭 RNA Seq 파이프라인을 선택

우리는 위 RNA seq 파이프라인 기본 평균 순위 세 벤치마크 매트릭스를 제공합니다(즉,정확도,정밀도 및 신뢰도). 우리는 다음이 평가되는 유틸리티의 벤치마크 측정을 검사하여 여부는 좋을 수행하고 가난한 수행 파이프라인을 식별 벤치마크 기준으로 지표 했 유추한 성능의 유전자 발현 기반 질환의 예측 결과와 통계적 의미의 환자 계층을 위해 모든 임상 끝점(즉,SEQC-신경 EFS OS 엔드포인트 및 TCGA-폐-선 암 생존 endpoint).

에 대한 첫 번째,278 대표 RNA seq 파이프라인에 적용되는 SEQC-벤치 마크 데이터 집합,우리가 계산한 평균 순위의 하위 집합을 사용하여 벤치마크 메트릭으로는 최종 성과 지표를 각 파이프라인. 총에서,우리는 6 개의 메트릭(3 벤치마크 지표×2 유전자를 세트),그리고 우리가 조사를 하위 집합 12(4×3)의 6 개의 메트릭을 사용하여 다음과 같은 기준:

(1)
네 조합의 세 벤치 메트릭 적어도 두 가지 하위 집합에서 하나와 함께 세 가지 모두 벤치마크 메트릭,세 가지 조합으로서 두 세 개의 벤치마크줍니다.
(2)
세 가지 하위 집합에 의해 형성 지표에서 파생되는 모든 유전자에서 파생된 저 표현하는 유전자,또는 이 둘의 조합.

두 번째,각각의 278 대표 RNA seq 파이프라인(156 에 대한 TCGA-폐-선 암 생존 끝점),우리가 계산이 중첩 cross-validation AUC 및 고객 센터에서 설명하는”방법”절”신경과 폐 선 암 예측 모델링,”의 결과로 834(468 에 대한 TCGA-폐-선 암 생존 끝점)AUC 및 고객 센터 값에 대한 각 임상 끝점(i.e(표 S11,S12),278 파이프 라인×3 분류기,또는 156 파이프 라인×3 분류기). 또한”방법”섹션”Kaplan–Meier survival analysis”에 설명 된대로 각 파이프 라인에 대해 Kaplan–Meier 분석을 사용하여 생존 함수를 모델링했습니다. 각 RNA seq 파이프라인,우리 요약의 성능 유전자 발현 기반 질환의 예측 결과 모두 사용하여 평균 AUC 및 고객 센터에서 분류하고 성공률을 환자 계층(i.e 통계적으로 중요한 분리의 두 Kaplan–Meier 곡선)모든 걸쳐 반복하며 분류에서 중첩된 십자가 유효성 검사 프레임 워크입니다.

마지막으로,우리는 식별 상위 10%좋은 실행 파이프라인 및 바닥 10%가난한 수행 파이프라인 평균을 기준으로 순위의 하위 집합의 세 벤치마크줍니다. 해당 예측 성능(즉,,AUC 및 MCC)의 좋은 실행 파이프라인을 테스트에 대하여는 가난한 사람들의 수행 파이프라인을 사용하여 일방적 Wilcoxon rank 섬으로 테스트 null 가설 중간 전자의 그룹이었지보다 크다는 후자의 그룹입니다.

신경과 폐 선 암 예측 모델링

우리는 평가된 성능의 278RNA seq 파이프라인 측면에서 유전자 발현의 기반의 의사 결정을 사용하여 SEQC-신경 dataset48. SEQC-신경 모세포종 데이터 세트 및 관련 임상 종말점은 보충 표 S9 에 요약되어있다. RNA seq 파이프라인 평가에서의 약관을 예측하 neuroblastoma 환자의 결과를 두 임상 끝점을 중첩하여 십자가 유효성 검사(보충 Fig. S13)56,57. 우리는 또한 tcga-폐-선암종 데이터 세트에 적용된 156 개의 RNA-seq 파이프 라인의 성능을 유사하게 평가하여 질병 결과를 예측했습니다. TCGA-폐-선암종 데이터 세트 및 관련 임상 종점은 보충 표 S10 에 요약되어있다.

중첩 교차 검증에는 최적 예측 모델의 교육 및 테스트가 포함됩니다. 이것은 사용하여 수행 three-fold 최적화 또는 내 십자가 유효성 검사에 적용되는 훈련 하위에서 다섯 배 외부 십자가 유효성 검사를 수행합니다. 일단 최종 최적 예측 모델을 매개 변수(즉,분류 hyperparameters 및 기능 크기)식별,최종 모델은 훈련을 사용하여 전체 하위 집합 교육,그리고 다음을 사용하여 테스트하고 나머지 배에서 다섯 배 외부 십자가 유효성 검사를 수행합니다. 이 과정은 10 번의 반복을 위해 반복되었습니다. 세 가지 분류 자 각각에 대해 중첩 된 교차 유효성 검사를 별도로 수행했습니다(즉, 적응을 증폭,로지스틱 회귀분석 및 지원 벡터 컴퓨터)에 사용되는 최소한 중복성,최대한 관련성(mRMR)특징 선택 방법을 선택하는 최적의 기능이 크기에서의 범위 내에서 5 을 40 단계 크기의 558.

Kaplan–Meier survival analysis

각 RNA seq 파이프라인과류(즉,278 파이프라인×3 분류에 대한 SEQC-신경 엔드포인트 및 156 파이프라인×3 분류에 대한 TCGA-폐-선 암 생존 끝점),우리 모델링 Kaplan–Meier survival 기능을 기반으로 예측된 상표의 각 샘플입니다. 우리는 다음을 사용하는 두 꼬리 로그 순위는 테스트 결정하면 예상 생존 곡선에 대한 각각의 예측한 환자 그룹은 통계적으로 다릅니다.

분산분석과 계산의 기여 각 RNA seq 파이프라인 요소를 전반적으로 파이프라인을 분산

우리는 우리 사용되는 analysis of variance(ANOVA)을 결정하는 경우 각 RNA seq 파이프라인 요인에 크게 기여하고의 분산을 각각의 세 벤치마크 매트릭스를 제공합니다(즉,정확도,정밀도 및 신뢰도)뿐만 아니라의 분산을 예측 성능을(즉,AUC 및 MCC). 에 대한 각각의 세 가지 기준 측정을 사용했습 선형 모형(R”기능 lm”)에 맞게 데이터에서는 모든 278 파이프라인 사용하는 메트릭으로는 종속변수와 RNA seq 파이프라인의 요인을 독립적으로 범주형 변수입니다. 우리는 다음과 같은 요인을 독립적으로 범주형 변수를 매핑 알고리즘을 매핑 전략(즉,spliced 대 un-spliced),매핑 reporting(즉,single-hit 대 multi-hit),정량화 알고리즘,그리고 정규화 알고리즘이 있습니다. 우리는 모든 요인과 그 양방향 상호 작용을 선형 모델에 포함 시켰습니다. 에 대한 각각의 예측 끝점,우리가 적용되는 동일한 기술에 맞게 데이터에서는 모든 278 사용하여 파이프라인 평균 AUC 또는 고객 센터 같은 종속변수와 동일한 세트의 RNA seq 파이프라인의 요인을 독립적으로 범주형 변수입니다. 그런 다음 선형 모델(R 함수”anova”)에서 ANOVA 를 수행했습니다. 산을 계산하고”제곱”(즉,분산)에 기인하는 각 요인 또는 상호 작용과 사용 F-테스트 결정하면 차이가 통계적으로 중요합니다. 우리는 계산의%에 각 요인의 상호 작용이나 전체에 기여하 분산하여 계산하는 비율의”제곱”에 대한 각각의 요인을 합 의 사각형입니다.

회귀분석

우리 조사 간의 관계는 선형 프로필 또는 유전자 발현 분포 특성과 기준의 측정. 맞춤 프로파일을 포함하의 총 수에 매핑되는 조각의 총 수 읽기에 걸친 intronic 지역의 총계를 읽으로 삽입 또는 삭제,전체의 숫자를 완벽하게 일치하는 읽기,총수의 읽기와에서 가장 중 하나는 불일치 및 불일치당 매핑을 읽습니다. 각 정렬 알고리즘은 2 개의 시퀀싱 사이트,4 개의 샘플,4 개의 복제 라이브러리 및 2 개의 레인에 대한 평균 통계로 표현되었습니다. “를 사용하여 대량”패키지에는 R,우리가 채택 M-추정으로 Huber 가중치 접근 방식에 맞게 강력한 선형 회귀분석 모형 간의 종속변수(기준 성능 메트릭)고 설명하는 변수(선형 프로필). Huber 가중치 접근법을 사용한 M-추정은 outliers 의 존재 하에서 견고한 회귀 방법입니다. 유전자 발현 분포 특성을 포함 낮은 분위,중간,상위 분위,최대 interquartile range,표준 편차,왜도,첨도 및 엔트로피의 유전자 발현 분포. 우리 사용되는 동일한 M-추정으로 Huber 가중치 접근 방식에 맞게 강력한 선형 회귀분석 모델,그리고 그런 다음 보고된 잔여 표준의 오류에 대한 각각의 모델입니다.

면책 조항

전망이 문서에서 제시에 반영하지는 않습니다 현재 또는 미래의 의견 또는 정책의 미국 식품의약품 관리합니다. 상용 제품에 대한 언급은 설명을위한 것이며 보증으로 의도 된 것이 아닙니다.

의 영향 RNA-서열 데이터 분석 알고리즘에서 유전자 발현을 예측 및 다운스트림 예측