https://github.com/navinlabcode/copykat
ngene.chr=5
, win.size=25
ngene.chr=5
, win.size=25
trial 5. cell 2,000개 무작위 추출 (36591 genes X 2000 cells)
trial 6. cell 1,000개 무작위 추출 (36591 genes X 1000 cells)
cell 2000개만 사용하여 KS.cut = 0.1
, KS.cut = 0.05
로 copyKAT 실행
KS.cut
: Kolmogorov–Smirnov test를 기반으로 diploid 여부를 판단하는 threshold
Threshold 높임 (KS.cut 낮춤) |
오분류 ↓, 신뢰도 ↑ | not defined ↑, usable cell 수 ↓ |
---|---|---|
Threshold 낮춤 (KS.cut 높임) |
not defined ↓, 전체 사용 ↑ | 경계 모호한 세포 오분류 ↑ |
pred.test
에서 사용 가능한 세포 수가 줄어듦)KS.cut = 0.1
, KS.cut = 0.05
조건에서 모두 동일하게 분류한 세포를 pseudo-GT로 설정.
norm.cell.names
에서 normal GT 값을 고정해두고 copyKAT 재실행
그럼에도 불구하고 ‘not defined’ cell이 존재할 경우, distance
방법 바꿔서 재실행
distance
: 세포 간 유사도 계산 (이를 기반으로 large-scale chromosomal expression 변화 감지)
Metric | 설명 | 특징 | 비교적 유리한 상황 |
---|---|---|---|
pearson | 선형 상관 | 스케일 무시, 방향성 반영 | 일반적인 발현 패턴 차이 감지, 대체로 안정적, 평균 중심 비교 |
euclidean | 거리 기반 절댓값 차이 | magnitude 차이 민감 | 전체 발현 값의 크기 차이가 큰 경우 |
spearman | 서열 순위 상관 | non-linear 관계 감지 | 비선형 관계 혹은 outlier에 강건 |
pearson
은 분류 실패 가능성이 있고, spearman
이 더 민감하게 탐지할 수 있음. (← 실제로 해봐야지 알 거 같음)euclidean
은 발현량 차이가 존재하는 유전자 subset을 강조할 수 있음.⇒ pearson이 구분을 못 할 정도로 미세한 차이라면, 다른 metric으로 변경해서 발현 패턴의 변형된 양상까지 탐지할 가능성이 존재함.
(gpt 피셜) 실제로 논문이나 forum에서도 metric 변경 시 not defined
셀 수가 달라진다는 보고가 있다고 함.
그럼에도 불구하고 ‘not defined’ cell이 존재할 경우, copyKAT과 다른 방식으로 분류를 하는 기법들 사용