KR102706355B1 - System and Method for classificating Cancer type using deep learning according to the function of gene group - Google Patents

System and Method for classificating Cancer type using deep learning according to the function of gene group Download PDF

Info

Publication number
KR102706355B1
KR102706355B1 KR1020210170287A KR20210170287A KR102706355B1 KR 102706355 B1 KR102706355 B1 KR 102706355B1 KR 1020210170287 A KR1020210170287 A KR 1020210170287A KR 20210170287 A KR20210170287 A KR 20210170287A KR 102706355 B1 KR102706355 B1 KR 102706355B1
Authority
KR
South Korea
Prior art keywords
genome
data
learning
classification
deep learning
Prior art date
Application number
KR1020210170287A
Other languages
Korean (ko)
Other versions
KR20230082734A (en
Inventor
황재준
김윤학
정성도
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020210170287A priority Critical patent/KR102706355B1/en
Publication of KR20230082734A publication Critical patent/KR20230082734A/en
Application granted granted Critical
Publication of KR102706355B1 publication Critical patent/KR102706355B1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Physiology (AREA)
  • Veterinary Medicine (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Fuzzy Systems (AREA)

Abstract

본 발명은 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 한 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법에 관한 것으로, 학습용 유전체 데이터로 사용하기 위한 유전자 발현 데이터(gene expression data)를 입력받아 학습용 유전체 데이터를 전처리하고 교차 검증을 위한 기능 군 별 학습(Classification)을 수행하는 유전체 데이터 학습부;외부 유전체 데이터로 사용하기 위한 유전체 발현 데이터(gene expression data)를 입력받아 외부 유전체 데이터를 전처리하고, 전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 외부 유효성(external validation) 성능이 기장 높은 네트워크를 선택하는 외부 유전체 데이터 유효성 검사부;를 포함하고, 특정 기능을 하는 유전체 데이터 군(group)을 개별적으로 딥러닝 학습하여 선택된 유전체 데이터 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 하는 것이다.The present invention relates to a device and method for classifying cancer using deep learning by genome function, which individually deep-learns groups having specific functions so that several groups with the highest classification accuracy can be used as representative data for cancer classification using deep learning, and includes a genome data learning unit which receives gene expression data to be used as learning genome data, preprocesses the learning genome data, and performs learning (classification) by function group for cross-validation; an external genome data validation unit which receives gene expression data to be used as external genome data, preprocesses external genome data, and verifies the performance of a network learned with the preprocessed external genome data to select a network with the highest external validation performance; and the device and method enable individual deep-learning of genome data groups having specific functions so that the selected genome data groups can be used as representative data for cancer classification using deep learning.

Description

유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법{System and Method for classificating Cancer type using deep learning according to the function of gene group}{System and Method for classificating Cancer type using deep learning according to the function of gene group}

본 발명은 딥러닝을 이용한 암종 분류에 관한 것으로, 구체적으로 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 한 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법에 관한 것이다.The present invention relates to cancer classification using deep learning, and more specifically, to a device and method for cancer classification using deep learning by genome function, which individually learns groups having specific functions through deep learning so that several groups with the highest classification accuracy can be used as representative data for cancer classification using deep learning.

암종 분류는 암이 발견되었을 때, 그 원발 부위를 알아야 최적의 치료로 생존율을 높일 수 있다는 점에서 매우 중요하다.Cancer classification is very important because when cancer is discovered, knowing its primary site can help increase survival rates through optimal treatment.

특히, 뼈에 발견된 암의 경우 그 원발 부위를 모르면 전이 여부를 알 수 없어, 적절한 치료시기와 치료법을 놓쳐 환자가 조기 사망할 위험이 있다.In particular, in the case of cancer found in the bones, if the primary site is not known, it is impossible to know whether there has been metastasis, and there is a risk that the patient will die prematurely because the appropriate treatment period and method are missed.

하지만, 종래 기술에서 암종 분류에 사용하는 딥러닝 방법들의 정확도가 높지 않았고, 딥러닝 시 사용되지 않은 외부 데이터에는 낮은 정확도를 보여주었다.However, the accuracy of deep learning methods used for cancer classification in the prior art was not high, and showed low accuracy for external data not used in deep learning.

유전체 데이터 전처리에 있어서는, 유전체 데이터를 이용한 종래 기술의 암종 분류(cancer type classification)의 전처리는 0에 가까운 값이나 변화량(variance)가 낮은 값을 제거하는 것 등이었는데, 작으나 유의미할지 모르는 데이터를 계량 통계값을 기준으로 삭제하는 것은 딥러닝 학습 정확도 하락의 원인이 될 수 있다.In the case of preprocessing of genomic data, the preprocessing of conventional cancer type classification using genomic data included removing values close to 0 or values with low variance, but deleting small but potentially significant data based on quantitative statistics can cause a decrease in deep learning accuracy.

또한, 유전체 데이터 딥러닝에 있어서는, 유전체 순열을 이용하는 학습은 입력 데이터의 크기가 크고 네트워크의 파라미터 수가 너무 많아서 수만명 단위의 데이터가 있어야 정확도가 높다는 문제점이 있고, 유전체를 이미지화해서 학습하는 방식은 컨볼루션(convolution)을 통한 데이터 추상화로 인해 필요한 데이터 수가 작아진다는 장점이 있으나, 이미지 내의 유전체 배열이 실제 유전체의 배열을 반영하지 않기에 유효한 gene을 뽑아낼 수 없다는 문제점이 있다.In addition, in deep learning of genome data, learning using genome permutation has the problem that the input data size is large and the number of network parameters is too large, so tens of thousands of data are required for high accuracy, and learning by imaging the genome has the advantage of reducing the amount of data required due to data abstraction through convolution, but there is a problem that valid genes cannot be extracted because the genome arrangement in the image does not reflect the actual genome arrangement.

따라서, 단순 계량 통계값을 이용해 전처리를 하여 발생하는 딥러닝 학습 정확도 하락 문제 및 유전체 데이터 딥러닝에 있어서 입력 데이터의 크기가 크고 네트워크의 파라미터 수가 너무 많이 필요한 문제를 해결할 수 있도록 하는 새로운 기술의 개발이 요구되고 있다.Therefore, there is a need to develop a new technology that can solve the problem of decreased deep learning learning accuracy caused by preprocessing using simple quantitative statistics and the problem of large input data size and excessive number of network parameters required in deep learning of genomic data.

대한민국 등록특허 제10-2044094호Republic of Korea Patent No. 10-2044094 대한민국 등록특허 제10-1950395호Republic of Korea Patent No. 10-1950395 대한민국 공개특허 제10-2018-0051333호Republic of Korea Publication Patent No. 10-2018-0051333

본 발명은 종래 기술의 딥러닝을 이용한 암종 분류 기술의 문제점을 해결하기 위한 것으로, 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 한 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법을 제공하는데 그 목적이 있다.The present invention is intended to solve the problems of the conventional cancer classification technology using deep learning, and provides a device and method for cancer classification using deep learning by genome function, which individually learns groups having specific functions through deep learning and allows several groups with the highest classification accuracy to be used as representative data for cancer classification using deep learning.

본 발명은 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 하여 외부데이터를 이용한 검증에서 높은 검증 정확도를 갖도록 한 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법을 제공하는데 그 목적이 있다.The purpose of the present invention is to provide a device and method for cancer classification using deep learning by genome function, which enables several groups with the highest classification accuracy to be used as representative data for cancer classification using deep learning, thereby ensuring high verification accuracy in verification using external data.

본 발명은 CAM(class activation mapping)을 이용한 분류 기여도 분석으로 학습된 딥러닝 네트워크를 이용하여 암종 분류에 기여하는 각 유전자 및 유전자군(기능별)의 기여도를 시각(수치)적으로 분석 가능하도록 한 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법을 제공하는데 그 목적이 있다.The purpose of the present invention is to provide a device and method for cancer classification using genome-specific deep learning that enables visual (numerical) analysis of the contribution of each gene and gene group (by function) contributing to cancer classification using a deep learning network learned through classification contribution analysis using CAM (class activation mapping).

본 발명은 TF의 하위 기능군(예: C2H2 ZF, bZIP, bHLH, STAT, PAX5) 별로 암종 분류의 기여도를 파악하여, 이들의 조합 중 유전체 수 대비 가장 높은 정확도를 갖는 조합을 딥러닝을 이용한 암종 분류에 사용하여 분류에 필요한 gene 수를 줄일 수 있도록 한 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법을 제공하는데 그 목적이 있다.The purpose of the present invention is to provide a device and method for cancer classification using deep learning by genome function, which reduces the number of genes required for classification by identifying the contribution of each sub-functional group of TF (e.g., C2H2 ZF, bZIP, bHLH, STAT, PAX5) to cancer classification, and using the combination of these with the highest accuracy relative to the number of genomes for cancer classification using deep learning.

본 발명은 학습된 네트워크의 CAM의 강도 값을 이용하여 중요도 순(강도값이 높은 순)으로 gene을 선택한 후, 선택된 상위 gene들의 기능별 그룹(C2H2 ZF, bZIP, bHLH 등)을 누적하여 상위에 있는 그룹들을 묶어서 다시 딥러닝 네트워크를 학습시켜서 가장 높은 정확도를 얻을 수 있도록 하여 기능별 유전체 딥러닝 최적화가 가능하도록 한 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법을 제공하는데 그 목적이 있다.The purpose of the present invention is to provide a device and method for cancer classification using genome functional deep learning that enables optimization of functional genome deep learning by selecting genes in order of importance (in order of high intensity value) using the intensity value of CAM of a learned network, accumulating functional groups (C2H2 ZF, bZIP, bHLH, etc.) of the selected upper genes, grouping the upper groups, and training a deep learning network again to obtain the highest accuracy.

본 발명은 높은 정확도를 갖는 gene data를 암종 분류의 대표 데이터로 사용할 수 있도록 하여 소수의 유전자 사용만으로도 암을 분류하는 진단 kit를 구성할 수 있도록 한 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법을 제공하는데 그 목적이 있다.The purpose of the present invention is to provide a device and method for cancer classification using deep learning by genome function, which enables the use of highly accurate gene data as representative data for cancer classification, thereby enabling a diagnostic kit for classifying cancer using only a small number of genes.

본 발명은 유전체의 이미지화 후 딥러닝으로 대표 데이터를 이미지화하여 분류하는 것에 의해 적은 환자수로도 높은 정확도를 얻을 수 있는 가볍고 빠른 네트워크를 획득할 수도 있도록 한 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법을 제공하는데 그 목적이 있다.The purpose of the present invention is to provide a device and method for cancer classification using deep learning by genome function, which can obtain a light and fast network that can obtain high accuracy even with a small number of patients by imaging the genome and then classifying representative data by deep learning.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.Other purposes of the present invention are not limited to the purposes mentioned above, and other purposes not mentioned will be clearly understood by those skilled in the art from the description below.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치는 학습용 유전체 데이터로 사용하기 위한 유전자 발현 데이터(gene expression data)를 입력받아 학습용 유전체 데이터를 전처리하고 교차 검증을 위한 기능 군 별 학습(Classification)을 수행하는 유전체 데이터 학습부;외부 유전체 데이터로 사용하기 위한 유전체 발현 데이터(gene expression data)를 입력받아 외부 유전체 데이터를 전처리하고, 전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 외부 유효성(external validation) 성능이 기장 높은 네트워크를 선택하는 외부 유전체 데이터 유효성 검사부;를 포함하고,특정 기능을 하는 유전체 데이터 군(group)을 개별적으로 딥러닝 학습하여 선택된 유전체 데이터 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 하는 것을 특징으로 한다.In order to achieve the above-mentioned purpose, the device for classifying cancer using deep learning by genome function according to the present invention includes a genome data learning unit which receives gene expression data for use as learning genome data, preprocesses the learning genome data, and performs learning (classification) by function group for cross-validation; an external genome data validation unit which receives gene expression data for use as external genome data, preprocesses the external genome data, and verifies the performance of a network learned with the preprocessed external genome data to select a network with the highest external validation performance; and is characterized in that it individually learns a genome data group having a specific function by deep learning so that the selected genome data group can be used as representative data for cancer classification using deep learning.

여기서, 유전체 데이터 학습부에 입력되는 유전체 발현 데이터(gene expression data)는 TCGA(The Cancer Genome Atlas)이거나, 외부 유전체 데이터 유효성 검사부에 입력되는 유전체 발현 데이터(gene expression data)는 ICGC(Internal Cancer Genome Consortium)인 것을 특징으로 한다.Here, the gene expression data input into the genome data learning unit is TCGA (The Cancer Genome Atlas), or the gene expression data input into the external genome data validation unit is ICGC (Internal Cancer Genome Consortium).

그리고 유전체 데이터 학습부는, 학습용 유전체 데이터를 입력하는 학습용 데이터 입력부와,학습용 유전체 데이터 전처리하는 학습용 데이터 전처리부와, 기능 군(group)별로 학습용 데이터를 분리하는 데이터 분리부와,교차 검증(5 fold cross-validation)을 위한 기능 군 별 학습(Classification)을 수행하는 기능군별 학습부를 포함하는 것을 특징으로 한다.And the genomic data learning unit is characterized by including a learning data input unit that inputs learning genomic data, a learning data preprocessing unit that preprocesses learning genomic data, a data separation unit that separates learning data by functional group, and a functional group-specific learning unit that performs functional group-specific learning (classification) for cross-validation (5-fold cross-validation).

그리고 외부 유전체 데이터 유효성 검사부는, 외부 유전체 데이터를 입력하는 외부 데이터 입력부와,외부 유전체 데이터 전처리를 수행하는 외부 데이터 전처리부와,전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 네트워크 중 외부 유효성(external validation) 성능이 가장 높은 네트워크 선택을 하는 학습 네트워크 검증부를 포함하는 것을 특징으로 한다.And, the external genome data validation unit is characterized by including an external data input unit that inputs external genome data, an external data preprocessing unit that performs external genome data preprocessing, and a learning network validation unit that verifies the performance of a network learned with the preprocessed external genome data and selects the network with the highest external validation performance among the networks.

그리고 유전체 발현 데이터(gene expression data)의 TF(transcription factor) 또는 세포막 유전체(cell membrane gene) 또는 microRNA의 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도 높은 군을 선택하여 딥러닝을 이용한 암종 분류(cancer type classification)의 대표 데이터로 사용하는 것을 특징으로 한다.And it is characterized by individually deep learning-learning groups of TF (transcription factor) or cell membrane gene or microRNA that perform specific functions of gene expression data, selecting the group with the highest classification accuracy, and using it as representative data for cancer type classification using deep learning.

그리고 TCGA dataset 8개의 cancer type, BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, SARC을 학습에 사용하여 외부데이터를 이용한 검증에서 정확도를 높이는 것을 특징으로 한다.And it features increased accuracy in verification using external data by using 8 cancer types, BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, and SARC from the TCGA dataset for learning.

학습된 딥러닝 네트워크를 이용하여 암종 분류(cancer type classification)에 기여하는 각 유전자 및 기능별 유전자군의 기여도를 수치 표시를 포함하는 시각적으로 분석하기 위하여, CAM(class activation mapping)을 이용한 분류 기여도 분석을 하는 것을 특징으로 한다.It is characterized by using CAM (class activation mapping) to perform classification contribution analysis to visually analyze the contribution of each gene and functional gene group contributing to cancer type classification using a learned deep learning network, including numerical representation.

그리고 기능별 유전체 딥러닝 최적화를 통하여 학습에 필요한 gene 개수를 감소시키기 위하여, C2H2 ZF, bZIP, bHLH, STAT, PAX5를 포함하는 TF의 하위 기능군 별로 암종 분류 기여도를 기준으로 이들의 조합 중 유전체 수 대비 가장 높은 정확도를 갖는 조합을 딥러닝을 이용한 암종 분류에 이용하는 것을 특징으로 한다.And in order to reduce the number of genes required for learning through functional genome deep learning optimization, the combination with the highest accuracy per genome number among the combinations of the sub-functional groups of TFs including C2H2 ZF, bZIP, bHLH, STAT, and PAX5 is used for cancer classification using deep learning based on their contribution to cancer classification.

그리고 암종 분류의 정확도를 높이기 위하여, 기능(function)별 유전체 딥러닝으로 학습된 네트워크의 CAM(class activation mapping)의 강도값이 높은 순으로 gene을 선택한 후, 선택된 상위 10%의 gene들의 C2H2 ZF, bZIP, bHLH을 포함하는 기능별 group을 누적하여 상위에 있는 group들을 묶어서 다시 딥러닝 네트워크를 학습시켜서 가장 높은 정확도를 얻는 것을 특징으로 한다.And in order to increase the accuracy of cancer classification, genes are selected in the order of the strength value of CAM (class activation mapping) of the network learned by functional genome deep learning, and then the functional groups including C2H2 ZF, bZIP, and bHLH of the top 10% of selected genes are accumulated, and the upper groups are grouped and trained again with the deep learning network to obtain the highest accuracy.

다른 목적을 달성하기 위한 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법은 학습용 유전체 데이터로 사용하기 위한 유전자 발현 데이터(gene expression data)를 입력받아 학습용 유전체 데이터를 전처리하고 교차 검증을 위한 기능 군 별 학습(Classification)을 수행하는 유전체 데이터 학습 단계;외부 유전체 데이터로 사용하기 위한 유전체 발현 데이터(gene expression data)를 입력받아 외부 유전체 데이터를 전처리하고, 전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 외부 유효성(external validation) 성능이 기장 높은 네트워크를 선택하는 외부 유전체 데이터 유효성 검사 단계;를 포함하고, 특정 기능을 하는 유전체 데이터 군(group)을 개별적으로 딥러닝 학습하여 선택된 유전체 데이터 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 하는 것을 특징으로 한다.According to the present invention for achieving another purpose, a method for classifying cancer using deep learning by genome function includes a genome data learning step of inputting gene expression data to be used as learning genome data, preprocessing the learning genome data, and performing learning (classification) by functional group for cross-validation; an external genome data validation step of inputting gene expression data to be used as external genome data, preprocessing external genome data, and validating the performance of a network learned with the preprocessed external genome data to select a network with the highest external validation performance; and is characterized in that a genome data group having a specific function is individually deep-learned so that the selected genome data group can be used as representative data for cancer classification using deep learning.

여기서, 유전체 데이터 학습 단계에서 입력되는 유전체 발현 데이터(gene expression data)는 TCGA(The Cancer Genome Atlas)이거나, 외부 유전체 데이터 유효성 검사 단계에서 입력되는 유전체 발현 데이터(gene expression data)는 ICGC(Internal Cancer Genome Consortium)인 것을 특징으로 한다.Here, the gene expression data input in the genome data learning step is characterized as being TCGA (The Cancer Genome Atlas), or the gene expression data input in the external genome data validation step is ICGC (Internal Cancer Genome Consortium).

그리고 유전체 발현 데이터(gene expression data)의 TF(transcription factor) 또는 세포막 유전체(cell membrane gene) 또는 microRNA의 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도 높은 군을 선택하여 딥러닝을 이용한 암종 분류(cancer type classification)의 대표 데이터로 사용하는 것을 특징으로 한다.And it is characterized by individually deep learning-learning groups of TF (transcription factor) or cell membrane gene or microRNA that perform specific functions of gene expression data, selecting the group with the highest classification accuracy, and using it as representative data for cancer type classification using deep learning.

그리고 TCGA dataset 8개의 cancer type, BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, SARC를 학습에 사용하여 외부데이터를 이용한 검증에서 정확도를 높이는 것을 특징으로 한다.And it features increased accuracy in verification using external data by using 8 cancer types, BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, and SARC from the TCGA dataset for learning.

그리고 학습된 딥러닝 네트워크를 이용하여 암종 분류(cancer type classification)에 기여하는 각 유전자 및 기능별 유전자군의 기여도를 수치 표시를 포함하는 시각적으로 분석하기 위하여, CAM(class activation mapping)을 이용한 분류 기여도 분석을 하는 것을 특징으로 한다.And, in order to visually analyze the contribution of each gene and functional gene group contributing to cancer type classification using the learned deep learning network, including numerical representation, it is characterized by performing classification contribution analysis using CAM (class activation mapping).

그리고 기능별 유전체 딥러닝 최적화를 통하여 학습에 필요한 gene 개수를 감소시키기 위하여, C2H2 ZF, bZIP, bHLH, STAT, PAX5를 포함하는 TF의 하위 기능군 별로 암종 분류 기여도를 기준으로 이들의 조합 중 유전체 수 대비 가장 높은 정확도를 갖는 조합을 딥러닝을 이용한 암종 분류에 이용하는 것을 특징으로 한다.And in order to reduce the number of genes required for learning through functional genome deep learning optimization, the combination with the highest accuracy per number of genomes among the combinations of the sub-functional groups of TFs including C2H2 ZF, bZIP, bHLH, STAT, and PAX5 is used for cancer classification using deep learning based on their contribution to cancer classification.

그리고 암종 분류의 정확도를 높이기 위하여, 기능(function)별 유전체 딥러닝으로 학습된 네트워크의 CAM(class activation mapping)의 강도값이 높은 순으로 gene을 선택한 후, 선택된 상위 10%의 gene들의 C2H2 ZF, bZIP, bHLH을 포함하는 기능별 group을 누적하여 상위에 있는 group들을 묶어서 다시 딥러닝 네트워크를 학습시켜서 가장 높은 정확도를 얻는 것을 특징으로 한다.And in order to increase the accuracy of cancer classification, genes are selected in the order of the strength value of CAM (class activation mapping) of the network learned by functional genome deep learning, and then the functional groups including C2H2 ZF, bZIP, and bHLH of the top 10% of selected genes are accumulated, and the upper groups are grouped and trained again with the deep learning network to obtain the highest accuracy.

이상에서 설명한 바와 같은 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법은 다음과 같은 효과가 있다.The device and method for cancer classification using deep learning by genetic function according to the present invention as described above have the following effects.

첫째, 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 한다.First, groups with specific functions are individually trained through deep learning, and several groups with the highest classification accuracy can be used as representative data for cancer classification using deep learning.

둘째, 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 하여 외부데이터를 이용한 검증에서 높은 검증 정확도를 갖도록 한다.Second, several groups with the highest classification accuracy can be used as representative data for cancer classification using deep learning, thereby ensuring high verification accuracy in verification using external data.

셋째, CAM(class activation mapping)을 이용한 분류 기여도 분석으로 학습된 딥러닝 네트워크를 이용하여 암종 분류에 기여하는 각 유전자 및 유전자군(기능별)의 기여도를 시각(수치)적으로 분석 가능하도록 한다.Third, by using a deep learning network trained through classification contribution analysis using CAM (class activation mapping), the contribution of each gene and gene group (by function) contributing to cancer classification can be visually (numerically) analyzed.

넷째, TF의 하위 기능군(예: C2H2 ZF, bZIP, bHLH, STAT, PAX5) 별로 암종 분류의 기여도를 파악하여, 이들의 조합 중 유전체 수 대비 가장 높은 정확도를 갖는 조합을 딥러닝을 이용한 암종 분류에 사용하여 분류에 필요한 gene 수를 줄일 수 있도록 한다.Fourth, by identifying the contribution of each sub-functional group of TFs (e.g., C2H2 ZF, bZIP, bHLH, STAT, PAX5) to cancer classification, the combination with the highest accuracy relative to the number of genomes among these combinations is used for cancer classification using deep learning, thereby reducing the number of genes required for classification.

다섯째, 학습된 네트워크의 CAM의 강도 값을 이용하여 중요도 순(강도값이 높은 순)으로 gene을 선택한 후, 선택된 상위 gene들의 기능별 그룹(C2H2 ZF, bZIP, bHLH 등)을 누적하여 상위에 있는 그룹들을 묶어서 다시 딥러닝 네트워크를 학습시켜서 가장 높은 정확도를 얻을 수 있도록 하여 기능별 유전체 딥러닝 최적화가 가능하도록 한다.Fifth, by selecting genes in order of importance (highest intensity value) using the intensity value of the CAM of the learned network, the functional groups (C2H2 ZF, bZIP, bHLH, etc.) of the selected top genes are accumulated, and the top groups are grouped and trained again to train the deep learning network to obtain the highest accuracy, thereby enabling functional genomic deep learning optimization.

여섯째, 높은 정확도를 갖는 gene data를 암종 분류의 대표 데이터로 사용할 수 있도록 하여 소수의 유전자 사용만으로도 암을 분류하는 진단 kit를 구성할 수 있도록 한다.Sixth, by enabling the use of highly accurate gene data as representative data for cancer classification, it is possible to construct a diagnostic kit that classifies cancer using only a small number of genes.

일곱째, 유전체의 이미지화 후 딥러닝으로 대표 데이터를 이미지화하여 분류하는 것에 의해 적은 환자수로도 높은 정확도를 얻을 수 있는 가볍고 빠른 네트워크를 획득할 수도 있도록 한다.Seventh, by imaging the genome and then classifying the representative data using deep learning, we can obtain a lightweight and fast network that can achieve high accuracy even with a small number of patients.

도 1은 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치의 구성도
도 2는 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법을 나타낸 플로우 차트
도 3은 TF(Transcription factor)로만 학습시킨 TCGA 암종 분류 결과 테이블
도 4는 학습된 네트워크의 평균 CAM(class activation map)
도 5는 TF에서 각 암종별로 CAM에서 높은 강도값을 보이는 gene과 그 기능별 그룹 테이블
Figure 1 is a configuration diagram of a device for cancer classification using deep learning by genetic function according to the present invention.
Figure 2 is a flow chart showing a method for cancer classification using deep learning by genome function according to the present invention.
Figure 3 is a table of TCGA cancer classification results trained only with TF (Transcription factor).
Figure 4 shows the average CAM (class activation map) of the learned network.
Figure 5 shows a table of genes and their functional groups that show high intensity values in CAM for each cancer type in TF.

이하, 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.Hereinafter, preferred embodiments of a device and method for cancer classification using deep learning by genome function according to the present invention will be described in detail.

본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.The features and advantages of the device and method for cancer classification using deep learning by genome function according to the present invention will become apparent through detailed descriptions of each embodiment below.

도 1은 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치의 구성도이다.Figure 1 is a configuration diagram of a device for cancer classification using deep learning by genetic function according to the present invention.

본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법은 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 한 것이다.The device and method for cancer classification using deep learning by genome function according to the present invention individually learns groups having specific functions through deep learning so that several groups with the highest classification accuracy can be used as representative data for cancer classification using deep learning.

이를 위하여, 본 발명은 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 하여 외부데이터를 이용한 검증에서 높은 검증 정확도를 갖도록 하는 구성을 포함할 수 있다.To this end, the present invention may include a configuration that enables several groups with the highest classification accuracy to be used as representative data for cancer classification using deep learning, thereby ensuring high verification accuracy in verification using external data.

본 발명은 CAM(class activation mapping)을 이용한 분류 기여도 분석으로 학습된 딥러닝 네트워크를 이용하여 암종 분류에 기여하는 각 유전자 및 유전자군(기능별)의 기여도를 시각(수치)적으로 분석 가능하도록 하는 구성을 포함할 수 있다.The present invention may include a configuration that enables visual (numerical) analysis of the contribution of each gene and gene group (by function) contributing to cancer classification using a deep learning network learned through classification contribution analysis using CAM (class activation mapping).

본 발명은 TF의 하위 기능군(예: C2H2 ZF, bZIP, bHLH, STAT, PAX5) 별로 암종 분류의 기여도를 파악하여, 이들의 조합 중 유전체 수 대비 가장 높은 정확도를 갖는 조합을 딥러닝을 이용한 암종 분류에 사용하여 분류에 필요한 gene 수를 줄일 수 있도록 하는 구성을 포함할 수 있다.The present invention may include a configuration that identifies the contribution of each sub-functional group of TFs (e.g., C2H2 ZF, bZIP, bHLH, STAT, PAX5) to cancer classification, and uses the combination of these with the highest accuracy relative to the number of genomes for cancer classification using deep learning, thereby reducing the number of genes required for classification.

본 발명은 학습된 네트워크의 CAM의 강도 값을 이용하여 중요도 순(강도값이 높은 순)으로 gene을 선택한 후, 선택된 상위 gene들의 기능별 그룹(C2H2 ZF, bZIP, bHLH 등)을 누적하여 상위에 있는 그룹들을 묶어서 다시 딥러닝 네트워크를 학습시켜서 가장 높은 정확도를 얻을 수 있도록 하여 기능별 유전체 딥러닝 최적화가 가능하도록 하는 구성을 포함할 수 있다.The present invention may include a configuration that enables functional genomic deep learning optimization by selecting genes in order of importance (highest intensity value) using the intensity value of the CAM of the learned network, accumulating functional groups (C2H2 ZF, bZIP, bHLH, etc.) of the selected upper genes, grouping the upper groups, and training the deep learning network again to obtain the highest accuracy.

본 발명은 높은 정확도를 갖는 gene data를 암종 분류의 대표 데이터로 사용할 수 있도록 하여 소수의 유전자 사용만으로도 암을 분류하는 진단 kit를 구성할 수 있도록 하는 구성을 포함할 수 있다.The present invention may include a configuration that enables the use of gene data with high accuracy as representative data for cancer classification, thereby enabling the construction of a diagnostic kit that classifies cancer using only a small number of genes.

본 발명은 유전체의 이미지화 후 딥러닝으로 대표 데이터를 이미지화하여 분류하는 것에 의해 적은 환자수로도 높은 정확도를 얻을 수 있는 가볍고 빠른 네트워크를 획득할 수도 있도록 하는 구성을 포함할 수 있다.The present invention may include a configuration that enables obtaining a lightweight and fast network that can obtain high accuracy even with a small number of patients by classifying representative data by imaging the genome and then using deep learning.

이하의 설명에서 '유전체 데이터'는 TCGA(The Cancer Genome Atlas) 및 ICGC(Internal Cancer Genome Consortium)와 같이 대규모 암 유전체 연구 프로젝트를 통해 각기 다른 여러 기술적 플랫폼을 이용하여 생산된 다양한 형태의 데이터일 수 있다.In the following description, ‘genomic data’ may refer to various types of data produced using different technological platforms through large-scale cancer genome research projects such as The Cancer Genome Atlas (TCGA) and the Internal Cancer Genome Consortium (ICGC).

본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치는 도 1에서와 같이, 학습용 유전체 데이터(TCGA 등의 유전자 발현 데이터(gene expression data))를 입력받아 학습용 유전체 데이터를 전처리(log2X+1)하고 교차 검증(5 fold cross-validation)을 위한 기능 군 별 학습(Classification)을 수행하는 유전체 데이터 학습부(100)와, 외부 유전체 데이터(ICGC 등의 유전체 발현 데이터(gene expression data))를 입력받아 외부 유전체 데이터를 전처리(log2X+1)하고 전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 가장 external validation 성능이 높은 네트워크를 선택하는 외부 유전체 데이터 유효성 검사부(200)를 포함한다.The device for classifying cancer using deep learning by genome function according to the present invention includes, as shown in FIG. 1, a genome data learning unit (100) which receives learning genome data (gene expression data such as TCGA), preprocesses the learning genome data (log 2 X+1), and performs learning (classification) by functional group for cross-validation (5 fold cross-validation), and an external genome data validation unit (200) which receives external genome data (gene expression data such as ICGC), preprocesses the external genome data (log 2 X+1), and verifies the performance of a network learned with the preprocessed external genome data to select a network with the highest external validation performance.

여기서, 유전체 데이터 학습부(100)는 학습용 유전체 데이터(TCGA 등의 유전자 발현 데이터(gene expression data))를 입력하는 학습용 데이터 입력부(10)와, 학습용 유전체 데이터 전처리(log2X+1)하는 학습용 데이터 전처리부(20)와, transcription factor, celll membrane protein 등의 기능 군(group)별로 학습용 데이터를 분리하는 데이터 분리부(30)와, 교차 검증(5 fold cross-validation)을 위한 기능 군 별 학습(Classification)을 수행하는 기능군별 학습부(40)를 포함한다.Here, the genome data learning unit (100) includes a learning data input unit (10) that inputs learning genome data (gene expression data such as TCGA), a learning data preprocessing unit (20) that preprocesses learning genome data (log 2 X+1), a data separation unit (30) that separates learning data by functional group such as transcription factor, cellular membrane protein, etc., and a functional group-specific learning unit (40) that performs functional group-specific learning (classification) for cross-validation (5-fold cross-validation).

그리고 외부 유전체 데이터 유효성 검사부(200)는 외부 유전체 데이터(ICGC 등의 유전체 발현 데이터(gene expression data))를 입력하는 외부 데이터 입력부(50)와, 외부 유전체 데이터 전처리(log2X+1)를 수행하는 외부 데이터 전처리부(60)와, 전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 5개의 네트워크 중 가장 external validation 성능이 높은 네트워크 선택을 하는 학습 네트워크 검증부(70)를 포함한다.And the external genome data validation unit (200) includes an external data input unit (50) that inputs external genome data (gene expression data such as ICGC), an external data preprocessing unit (60) that performs external genome data preprocessing (log 2 X+1), and a learning network validation unit (70) that verifies the performance of a network learned with the preprocessed external genome data and selects the network with the highest external validation performance among five networks.

본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법을 구체적으로 설명하면 다음과 같다.The method for cancer classification using deep learning by genome function according to the present invention is specifically described as follows.

도 2는 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법을 나타낸 플로우 차트이다.Figure 2 is a flow chart illustrating a method for cancer classification using deep learning by genome function according to the present invention.

먼저,학습용 유전체 데이터(TCGA 등의 유전자 발현 데이터(gene expression data))를 입력받는다.(S201)First, learning genome data (gene expression data such as TCGA) is input (S201).

이어, 입력된 학습용 유전체 데이터의 전처리(log2X+1)를 수행한다.(S202)Next, preprocessing (log 2 X+1) of the input learning genetic data is performed (S202).

그리고 transcription factor, celll membrane protein 등의 기능 군(group)별로 학습용 데이터를 분리한다.(S203)And the training data is separated by functional group such as transcription factor, cellular membrane protein, etc. (S203)

이어, 교차 검증(5 fold cross-validation)을 위한 기능군별 학습(Classification)을 수행한다.(S204)Next, learning (Classification) by feature group for cross-validation (5 fold cross-validation) is performed (S204).

그리고 외부 유전체 데이터 유효성 검사를 위하여, 외부 유전체 데이터(ICGC 등의 유전체 발현 데이터(gene expression data))를 입력받는다.(S205)And, for external genome data validation, external genome data (gene expression data such as ICGC) is input (S205).

이어, 외부 유전체 데이터 전처리(log2X+1)를 수행하고(S206), 전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 네트워크 중 가장 external validation 성능이 높은 네트워크 선택을 한다.(S206)Next, external genome data preprocessing (log 2 X+1) is performed (S206), and the performance of the network learned with the preprocessed external genome data is verified to select the network with the highest external validation performance among the networks (S206).

본 발명에 따른 기능(function)별 유전체 딥러닝에 관하여 구체적으로 설명하면 다음과 같다.The functional genetic deep learning according to the present invention is specifically described as follows.

기능별 학습은 단순 계량 통계값을 이용해 전처리를 하는 문제에서 벗어나, 유전체 발현 데이터(gene expression data)의 TF(transcription factor), 세포막 유전체(cell membrane gene), microRNA 등의 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류(cancer type classification)의 대표 데이터로 사용할 수 있다.Functional learning goes beyond the problem of preprocessing using simple quantitative statistics, and individually deep-learns groups that perform specific functions, such as transcription factors (TFs), cell membrane genes, and microRNAs in gene expression data, so that several groups with the highest classification accuracy can be used as representative data for cancer type classification using deep learning.

그리고 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법은 높은 검증 정확도를 갖는다.And the device and method for cancer classification using deep learning by genome function according to the present invention have high verification accuracy.

TF만(1468개, TCGA dataset 8개 cancer type; BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, SARC)을 학습에 사용하였을 때 평균 0.99의 정확도를 보였고, 외부데이터를 이용한 검증인 external validation(ICGC dataset)에서도 약 0.96의 높은 정확도를 보인다.When only TF (1468, 8 cancer types of TCGA dataset; BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, SARC) was used for learning, it showed an average accuracy of 0.99, and in external validation (ICGC dataset) using external data, it showed a high accuracy of about 0.96.

도 3은 TF(Transcription factor)로만 학습시킨 TCGA 암종 분류 결과 테이블 및 외부데이터를 이용한 검증인 external validation(ICGC dataset) 특성 테이블이다.Figure 3 is a table of TCGA cancer classification results trained only with TF (Transcription factor) and a table of external validation (ICGC dataset) characteristics using external data.

특히, 본 발명은 CAM(class activation mapping)을 이용한 분류 기여도 분석으로 학습된 딥러닝 네트워크를 이용하여 암종 분류(cancer type classification)에 기여하는 각 유전자 및 유전자군(기능별)의 기여도를 시각(수치)적으로 분석 가능하도록 한다.In particular, the present invention enables visual (numerical) analysis of the contribution of each gene and gene group (by function) contributing to cancer type classification by using a deep learning network trained through classification contribution analysis using CAM (class activation mapping).

도 4는 학습된 네트워크의 평균 CAM(class activation map)이다.Figure 4 is the average CAM (class activation map) of the learned network.

또한, 본 발명은 기능별 유전체 딥러닝 최적화를 통하여 학습에 필요한 gene 개수를 감소시킬 수 있다.In addition, the present invention can reduce the number of genes required for learning through functional genome deep learning optimization.

도 5 및 표 1에서와 같이, TF의 하위 기능군(예: C2H2 ZF, bZIP, bHLH, STAT, PAX5) 별로 cancer classification의 기여를 파악하여, 이들의 조합 중 유전체 수 대비 가장 높은 accuracy를 보이는 조합을 딥러닝을 이용한 cancer type classification에 이용하여 분류에 필요한 gene 수를 줄일 수 있다.As shown in Fig. 5 and Table 1, by identifying the contribution of each TF sub-functional group (e.g., C2H2 ZF, bZIP, bHLH, STAT, PAX5) to cancer classification, the combination with the highest accuracy relative to the number of genomes among these combinations can be used for cancer type classification using deep learning, thereby reducing the number of genes required for classification.

도 5는 TF에서 각 암종별로 CAM에서 높은 강도값을 보이는 gene과 그 기능별 그룹 테이블이다.Figure 5 is a table of genes and their functional groups that show high intensity values in CAM for each cancer type in TF.

본 발명은 TF에서 학습에 필요한 gene 개수 감소시킨다.The present invention reduces the number of genes required for learning in TF.

기능(function)별 유전체 딥러닝으로 학습된 네트워크의 class activation mapping(CAM)의 강도 값을 이용하여 중요도 순(강도값이 높은 순)으로 gene을 선택한 후, 선택된 상위 10%의 gene들의 기능별 group(C2H2 ZF, bZIP, bHLH 등)을 누적하여 상위에 있는 group들을 묶어서 다시 deep learning 네트워크를 학습시켜서 가장 높은 정확도를 얻을 수 있다.By selecting genes in order of importance (highest intensity value) using the intensity value of class activation mapping (CAM) of the network trained with functional genomic deep learning, the highest accuracy can be obtained by accumulating functional groups (C2H2 ZF, bZIP, bHLH, etc.) of the top 10% of selected genes, grouping the upper groups, and training the deep learning network again.

표 2에서와 같이, TF 중 C2H2 ZF (272개의 유전자)만으로 0.97의 높은 accuracy를 갖는 gene data를 암종 분류의 대표 데이터로 사용할 수 있다.As shown in Table 2, only C2H2 ZF (272 genes) among TFs can be used as representative data for cancer classification with a high accuracy of 0.97.

따라서 소수의 유전자만으로 암을 분류하는 진단 kit로 사용될 수 있도록 한다.Therefore, it can be used as a diagnostic kit to classify cancer with only a small number of genes.

C2H2 ZF, bZIP, bHLH 3개 기능군의 조합(약 800개의 유전자)으로 0.98의 높은 accuracy를 갖는 gene data를 암종 분류의 대표 데이터로 사용할 수 있으며, 따라서 암종 발견 시 이 800개의 gene data를 사용하여 신속하고 정확하게 암 검진이 가능하도록 한다.Gene data with a high accuracy of 0.98 using a combination of three functional groups (approximately 800 genes) of C2H2 ZF, bZIP, and bHLH can be used as representative data for cancer classification, and therefore, when cancer is discovered, rapid and accurate cancer screening is possible using these 800 gene data.

따라서 CH2H ZF gene 단독이나, 다른 기능군인 bZIP, bHLH, STAT, PAX5 등과 함께 조합되어 암 분류를 위한 신속 진단 kit로 사용가능하다.Therefore, the CH2H ZF gene alone or in combination with other functional groups such as bZIP, bHLH, STAT, and PAX5 can be used as a rapid diagnostic kit for cancer classification.

또한 암종에 따라 TF 기능별 그룹을 2개, 3개, 4개...씩 무작위로 조합하여 가장 높은 accuracy를 보이는 그룹을 선택하는 것도 가능하다.Additionally, depending on the cancer type, it is possible to randomly combine 2, 3, 4, etc. TF functional groups and select the group with the highest accuracy.

그리고 유전체의 이미지화 후 딥러닝으로, 대표 데이터를 이미지화하여 classification함으로써 적은 환자수로도 높은 정확도를 얻을 수 있는 가볍고 빠른 네트워크를 획득할 수도 있다.And after imaging the genome, deep learning can be used to image and classify representative data, thereby obtaining a lightweight and fast network that can achieve high accuracy even with a small number of patients.

이상에서 설명한 본 발명에 따른 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치 및 방법은 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 한 것이다.The device and method for cancer classification using deep learning according to the genome function according to the present invention described above individually deep learns groups having specific functions so that several groups with the highest classification accuracy can be used as representative data for cancer classification using deep learning.

본 발명은 가장 분류 정확도가 높은 몇 개의 군을 딥러닝을 이용한 암종 분류의 대표 데이터로 사용할 수 있도록 하여 외부데이터를 이용한 검증에서 높은 검증 정확도를 갖도록 한 것이다.The present invention enables several groups with the highest classification accuracy to be used as representative data for cancer classification using deep learning, thereby ensuring high verification accuracy in verification using external data.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.As described above, it will be understood that the present invention may be implemented in modified forms without departing from the essential characteristics of the present invention.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.Therefore, the stated embodiments should be considered in an illustrative rather than a restrictive sense, and the scope of the present invention is indicated by the claims rather than the foregoing description, and all differences coming within the scope equivalent thereto should be construed as being included in the present invention.

100. 유전체 데이터 학습부
200. 외부 유전체 데이터 유효성 검사부
100. Genomic Data Learning Department
200. External Genome Data Validation Unit

Claims (16)

학습용 유전체 데이터로 사용하기 위한 유전자 발현 데이터(gene expression data)를 입력받아 학습용 유전체 데이터를 전처리하고 교차 검증을 위한 기능 군 별 학습(Classification)을 수행하는 유전체 데이터 학습부;
외부 유전체 데이터로 사용하기 위한 유전체 발현 데이터(gene expression data)를 입력받아 외부 유전체 데이터를 전처리하고, 전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 외부 유효성(external validation) 성능이 기장 높은 네트워크를 선택하는 외부 유전체 데이터 유효성 검사부;를 포함하고,
유전체 발현 데이터(gene expression data)의 TF(transcription factor) 또는 세포막 유전체(cell membrane gene) 또는 microRNA의 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도 높은 군을 선택하여 딥러닝을 이용한 암종 분류(cancer type classification)의 대표 데이터로 사용하는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치.
A genome data learning unit that inputs gene expression data to be used as learning genome data, preprocesses the learning genome data, and performs learning (classification) by functional group for cross-validation;
An external genome data validation unit is included, which inputs gene expression data for use as external genome data, preprocesses the external genome data, verifies the performance of a network trained with the preprocessed external genome data, and selects a network with the highest external validation performance;
A device for cancer classification using deep learning by genome function, characterized in that it individually deep-learns groups of TFs (transcription factors) or cell membrane genes or microRNAs that perform specific functions of gene expression data, selects groups with the highest classification accuracy, and uses them as representative data for cancer type classification using deep learning.
제 1 항에 있어서, 유전체 데이터 학습부에 입력되는 유전체 발현 데이터(gene expression data)는 TCGA(The Cancer Genome Atlas)이거나,
외부 유전체 데이터 유효성 검사부에 입력되는 유전체 발현 데이터(gene expression data)는 ICGC(Internal Cancer Genome Consortium)인 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치.
In the first paragraph, the gene expression data input to the genome data learning unit is TCGA (The Cancer Genome Atlas), or
A device for cancer classification using deep learning by genome function, characterized in that the gene expression data input to the external genome data validation unit is ICGC (Internal Cancer Genome Consortium).
제 1 항에 있어서, 유전체 데이터 학습부는,
학습용 유전체 데이터를 입력하는 학습용 데이터 입력부와,
학습용 유전체 데이터 전처리하는 학습용 데이터 전처리부와,
기능 군(group)별로 학습용 데이터를 분리하는 데이터 분리부와,
교차 검증(5 fold cross-validation)을 위한 기능 군 별 학습(Classification)을 수행하는 기능군별 학습부를 포함하는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치.
In the first paragraph, the genetic data learning unit,
A learning data input section for inputting learning genetic data,
A learning data preprocessing unit that preprocesses learning genome data,
A data separation unit that separates learning data by functional group,
A device for cancer classification using genome-specific deep learning, characterized by including a functional group-specific learning unit that performs functional group-specific learning (Classification) for cross-validation (5-fold cross-validation).
제 1 항에 있어서, 외부 유전체 데이터 유효성 검사부는,
외부 유전체 데이터를 입력하는 외부 데이터 입력부와,
외부 유전체 데이터 전처리를 수행하는 외부 데이터 전처리부와,
전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 네트워크 중 외부 유효성(external validation) 성능이 가장 높은 네트워크 선택을 하는 학습 네트워크 검증부를 포함하는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치.
In the first paragraph, the external genetic data validation unit,
An external data input section for inputting external genetic data,
An external data preprocessing unit that performs external genome data preprocessing,
A device for cancer classification using deep learning by genome function, characterized by including a learning network verification unit that verifies the performance of a network learned with preprocessed external genome data and selects a network with the highest external validation performance among the networks.
삭제delete 제 1 항에 있어서, TCGA dataset 8개의 cancer type,
BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, SARC을 학습에 사용하여 외부데이터를 이용한 검증에서 정확도를 높이는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치.
In the first paragraph, 8 cancer types of TCGA dataset,
A device for cancer classification using deep learning by genome function, characterized by using BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, and SARC for learning to increase accuracy in verification using external data.
제 1 항에 있어서, 학습된 딥러닝 네트워크를 이용하여 암종 분류(cancer type classification)에 기여하는 각 유전자 및 기능별 유전자군의 기여도를 수치 표시를 포함하는 시각적으로 분석하기 위하여,
CAM(class activation mapping)을 이용한 분류 기여도 분석을 하는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치.
In the first paragraph, in order to visually analyze the contribution of each gene and functional gene group contributing to cancer type classification using the learned deep learning network, including numerical display,
A device for cancer classification using deep learning by genome function, characterized by analyzing classification contribution using CAM (class activation mapping).
제 1 항에 있어서, 기능별 유전체 딥러닝 최적화를 통하여 학습에 필요한 gene 개수를 감소시키기 위하여,
C2H2 ZF, bZIP, bHLH, STAT, PAX5를 포함하는 TF의 하위 기능군 별로 암종 분류 기여도를 기준으로 이들의 조합 중 유전체 수 대비 가장 높은 정확도를 갖는 조합을 딥러닝을 이용한 암종 분류에 이용하는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치.
In the first paragraph, in order to reduce the number of genes required for learning through functional genome deep learning optimization,
A device for cancer classification using deep learning by genome function, characterized in that the combination of the combinations with the highest accuracy per genome number among the combinations of the sub-functional groups of TFs including C2H2 ZF, bZIP, bHLH, STAT, and PAX5 is used for cancer classification using deep learning.
제 1 항에 있어서, 암종 분류의 정확도를 높이기 위하여,
기능(function)별 유전체 딥러닝으로 학습된 네트워크의 CAM(class activation mapping)의 강도값이 높은 순으로 gene을 선택한 후,
선택된 상위 10%의 gene들의 C2H2 ZF, bZIP, bHLH을 포함하는 기능별 group을 누적하여 상위에 있는 group들을 묶어서 다시 딥러닝 네트워크를 학습시켜서 가장 높은 정확도를 얻는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 장치.
In the first paragraph, in order to increase the accuracy of cancer classification,
After selecting genes in order of high strength value of CAM (class activation mapping) of the network learned by function-specific genome deep learning,
A device for cancer classification using genome-specific deep learning, characterized by accumulating functional groups including C2H2 ZF, bZIP, and bHLH of the top 10% of selected genes, grouping the upper groups, and training a deep learning network again to obtain the highest accuracy.
유전체 데이터 학습부에서 학습용 유전체 데이터로 사용하기 위한 유전자 발현 데이터(gene expression data)를 입력받아 학습용 유전체 데이터를 전처리하고 교차 검증을 위한 기능 군 별 학습(Classification)을 수행하는 유전체 데이터 학습 단계;
외부 유전체 데이터 유효성 검사부에서 외부 유전체 데이터로 사용하기 위한 유전체 발현 데이터(gene expression data)를 입력받아 외부 유전체 데이터를 전처리하고, 전처리된 외부 유전체 데이터로 학습된 네트워크의 성능을 검증하여 외부 유효성(external validation) 성능이 기장 높은 네트워크를 선택하는 외부 유전체 데이터 유효성 검사 단계;를 포함하고,
유전체 발현 데이터(gene expression data)의 TF(transcription factor) 또는 세포막 유전체(cell membrane gene) 또는 microRNA의 특정 기능을 하는 군(group)을 개별적으로 딥러닝 학습하여 그 중 가장 분류 정확도 높은 군을 선택하여 딥러닝을 이용한 암종 분류(cancer type classification)의 대표 데이터로 사용하는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법.
A genome data learning step in which gene expression data for use as learning genome data is input into the genome data learning unit, the learning genome data is preprocessed, and learning (classification) by functional group for cross-validation is performed;
An external genome data validation step for selecting a network with the highest external validation performance by inputting gene expression data for use as external genome data in an external genome data validation unit, preprocessing the external genome data, and verifying the performance of a network trained with the preprocessed external genome data;
A method for cancer classification using deep learning by genome function, characterized in that groups of TFs (transcription factors) or cell membrane genes or microRNAs that perform specific functions of gene expression data are individually deep-learned and the group with the highest classification accuracy is selected to be used as representative data for cancer type classification using deep learning.
제 10 항에 있어서, 유전체 데이터 학습 단계에서 입력되는 유전체 발현 데이터(gene expression data)는 TCGA(The Cancer Genome Atlas)이거나,
외부 유전체 데이터 유효성 검사 단계에서 입력되는 유전체 발현 데이터(gene expression data)는 ICGC(Internal Cancer Genome Consortium)인 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법.
In the 10th paragraph, the gene expression data input in the genome data learning step is TCGA (The Cancer Genome Atlas), or
A method for cancer classification using deep learning by genome function, characterized in that the gene expression data input in the external genome data validation step is ICGC (Internal Cancer Genome Consortium).
삭제delete 제 10 항에 있어서, TCGA dataset 8개의 cancer type,
BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, SARC를 학습에 사용하여 외부데이터를 이용한 검증에서 정확도를 높이는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법.
In the 10th paragraph, 8 cancer types of TCGA dataset,
A method for cancer classification using deep learning by genome function, characterized by using BRCA, DLBC, HNSC, KIRC, OV, PAAD, PRAD, and SARC for learning and increasing accuracy in verification using external data.
제 10 항에 있어서, 학습된 딥러닝 네트워크를 이용하여 암종 분류(cancer type classification)에 기여하는 각 유전자 및 기능별 유전자군의 기여도를 수치 표시를 포함하는 시각적으로 분석하기 위하여,
CAM(class activation mapping)을 이용한 분류 기여도 분석을 하는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법.
In the 10th paragraph, in order to visually analyze the contribution of each gene and functional gene group contributing to cancer type classification using the learned deep learning network, including numerical representation,
A method for cancer classification using deep learning by genome function, characterized by analyzing classification contribution using CAM (class activation mapping).
제 10 항에 있어서, 기능별 유전체 딥러닝 최적화를 통하여 학습에 필요한 gene 개수를 감소시키기 위하여,
C2H2 ZF, bZIP, bHLH, STAT, PAX5를 포함하는 TF의 하위 기능군 별로 암종 분류 기여도를 기준으로 이들의 조합 중 유전체 수 대비 가장 높은 정확도를 갖는 조합을 딥러닝을 이용한 암종 분류에 이용하는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법.
In the 10th paragraph, in order to reduce the number of genes required for learning through functional genome deep learning optimization,
A method for cancer classification using deep learning by genome function, characterized in that the combination of sub-functional groups of TFs including C2H2 ZF, bZIP, bHLH, STAT, and PAX5, and having the highest accuracy relative to the number of genomes among these combinations is used for cancer classification using deep learning.
제 10 항에 있어서, 암종 분류의 정확도를 높이기 위하여,
기능(function)별 유전체 딥러닝으로 학습된 네트워크의 CAM(class activation mapping)의 강도값이 높은 순으로 gene을 선택한 후,
선택된 상위 10%의 gene들의 C2H2 ZF, bZIP, bHLH을 포함하는 기능별 group을 누적하여 상위에 있는 group들을 묶어서 다시 딥러닝 네트워크를 학습시켜서 가장 높은 정확도를 얻는 것을 특징으로 하는 유전체 기능별 딥러닝을 이용한 암종 분류를 위한 방법.
In Article 10, in order to increase the accuracy of cancer classification,
After selecting genes in order of high strength value of CAM (class activation mapping) of the network learned by function-specific genome deep learning,
A method for cancer classification using genome-specific deep learning, characterized by accumulating functional groups including C2H2 ZF, bZIP, and bHLH of the top 10% of selected genes, grouping the upper groups, and training a deep learning network again to obtain the highest accuracy.
KR1020210170287A 2021-12-01 2021-12-01 System and Method for classificating Cancer type using deep learning according to the function of gene group KR102706355B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210170287A KR102706355B1 (en) 2021-12-01 2021-12-01 System and Method for classificating Cancer type using deep learning according to the function of gene group

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210170287A KR102706355B1 (en) 2021-12-01 2021-12-01 System and Method for classificating Cancer type using deep learning according to the function of gene group

Publications (2)

Publication Number Publication Date
KR20230082734A KR20230082734A (en) 2023-06-09
KR102706355B1 true KR102706355B1 (en) 2024-09-19

Family

ID=86765104

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210170287A KR102706355B1 (en) 2021-12-01 2021-12-01 System and Method for classificating Cancer type using deep learning according to the function of gene group

Country Status (1)

Country Link
KR (1) KR102706355B1 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102099166B1 (en) * 2016-09-30 2020-04-09 서울대학교산학협력단 Apparatus and method for integrated analysis of gene expression omnibus's gene expression data
KR101928094B1 (en) 2016-11-08 2018-12-12 한국과학기술원 Method for detecting diagnosing marker of cancer-specific in whole genome sequence
KR101950395B1 (en) 2017-09-25 2019-02-20 (주)신테카바이오 Method for deep learning-based biomarker discovery with conversion data of genome sequences
KR102044094B1 (en) 2018-05-03 2019-11-12 한동대학교 산학협력단 Method for classifying cancer or normal by deep neural network using gene expression data
KR102336311B1 (en) * 2019-11-15 2021-12-08 한국과학기술원 Model for Predicting Cancer Prognosis using Deep learning

Also Published As

Publication number Publication date
KR20230082734A (en) 2023-06-09

Similar Documents

Publication Publication Date Title
Hu et al. The genetic basis of haploid induction in maize identified with a novel genome-wide association method
US10354747B1 (en) Deep learning analysis pipeline for next generation sequencing
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
Suurväli et al. The laboratory domestication of zebrafish: from diverse populations to inbred substrains
CN112289376B (en) Method and device for detecting somatic cell mutation
CN110692101A (en) Method for aligning targeted nucleic acid sequencing data
JP2024037916A (en) pattern recognition system
CN112669903A (en) HLA typing method and device based on Sanger sequencing
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN111180013B (en) Device for detecting blood disease fusion gene
EP4446439A2 (en) Identification of host rna biomarkers of infection
CN109949866B (en) Method and device for detecting pathogen operation group, computer equipment and storage medium
KR102706355B1 (en) System and Method for classificating Cancer type using deep learning according to the function of gene group
WO2012096015A1 (en) Nucleic acid information processing device and processing method thereof
Roy et al. NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
CN116469462B (en) Ultra-low frequency DNA mutation identification method and device based on double sequencing
JP6356015B2 (en) Gene expression information analyzing apparatus, gene expression information analyzing method, and program
CN114496089B (en) Pathogenic microorganism identification method
KR20170000707A (en) Method and apparatus for identifying phenotype-specific gene network using gene expression data
Pharris et al. An automated workflow for quantifying RNA transcripts in individual cells in large data-sets
KR102110017B1 (en) miRNA ANALYSIS SYSTEM BASED ON DISTRIBUTED PROCESSING
KR20190069929A (en) miRNA DATA ANALYSIS METHOD FOR SERVER
CN116168761B (en) Method and device for determining characteristic region of nucleic acid sequence, electronic equipment and storage medium
US20230207050A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
CN112562786B (en) Method, device and storage medium for assembling genome based on genetic population

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant