KR102418984B1 - A pseudonymization system for data-set according to risks to an environment and a control method thereof - Google Patents

A pseudonymization system for data-set according to risks to an environment and a control method thereof Download PDF

Info

Publication number
KR102418984B1
KR102418984B1 KR1020200159176A KR20200159176A KR102418984B1 KR 102418984 B1 KR102418984 B1 KR 102418984B1 KR 1020200159176 A KR1020200159176 A KR 1020200159176A KR 20200159176 A KR20200159176 A KR 20200159176A KR 102418984 B1 KR102418984 B1 KR 102418984B1
Authority
KR
South Korea
Prior art keywords
information
information set
variable
data
level
Prior art date
Application number
KR1020200159176A
Other languages
Korean (ko)
Other versions
KR20220072113A (en
Inventor
김수정
조남열
Original Assignee
김수정
(주)큐브더모먼트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김수정, (주)큐브더모먼트 filed Critical 김수정
Priority to KR1020200159176A priority Critical patent/KR102418984B1/en
Publication of KR20220072113A publication Critical patent/KR20220072113A/en
Application granted granted Critical
Publication of KR102418984B1 publication Critical patent/KR102418984B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예는 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법에 있어서, 원천 정보집합물을 획득하는 과정; 상기 원천 정보집합물의 변수를 획득하는 과정; 상기 원천 정보집합물의 변수에 대한 대표명칭을 확인하는 과정; 상기 원천 정보집합물의 변수에 대한 개인정보의 유형을 확인하는 과정; 상기 원천 정보집합물의 개인정보의 유형에 대한 가명처리 수준을 확인하는 과정; 및 상기 원천 정보집합물의 변수를 상기 대표명칭으로 변경하기 위한 개인정보의 메타데이터를 획득하는 과정을 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법을 제공할 수 있다.An embodiment of the present invention provides a control method of a system for pseudonymizing an information set according to a risk to a use environment, the process comprising: obtaining a source information set; obtaining a variable of the source information set; confirming the representative names of the variables of the source information set; a process of confirming the type of personal information for the variable of the source information set; confirming the level of pseudonymization for the type of personal information of the source information set; and obtaining metadata of personal information for changing the variable of the source information set to the representative name. have.

Description

사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템 및 그 제어방법{A pseudonymization system for data-set according to risks to an environment and a control method thereof}A system for pseudonymization processing information sets according to risks to the environment and a control method thereof {A pseudonymization system for data-set according to risks to an environment and a control method thereof}

본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템 및 그 제어방법에 관한 것으로, 자세히는 개인 정보의 오남용을 차단하기 위하여 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템 및 그 제어방법에 관한 것이다. To a system for pseudonymizing an information set according to a risk to the use environment and a control method therefor, according to an embodiment of the present invention It relates to a system for processing pseudonyms and a method for controlling the same.

최근 들어, 데이터 3법의 통과로 개인정보보호법에 처음으로 개인정보와 익명정보의 중간 개념인 가명정보의 개념이 도입되었다. 특정 정보주체를 식별할 수 있는 정보는 개인정보, 식별할 수 없는 것은 익명정보, 그리고 추가 정보 없이는 특정 정보주체를 식별할 수 없도록 가명처리된 정보가 가명정보이다. Recently, with the passage of the Data 3 Act, the concept of pseudonymous information, an intermediate concept between personal information and anonymous information, was introduced for the first time in the Personal Information Protection Act. Information that can identify a specific data subject is personal information, non-identifiable information is anonymous information, and pseudonymized information that cannot identify a specific data subject without additional information is pseudonymous information.

가명정보는 통계작성, 과학적 연구, 공익적 기록 보존 등과 같은 일정한 목적을 위한 처리와 그 정보 결합을 허용했으며, 가명정보는 정보주체의 동의 없이 활용이 가능하다. 가명정보는 가명처리함으로써 원래의 상태로 복원하기 위한 추가정보의 사용·결합 없이 특정 정보주체를 알아볼 수 없는 정보이다. The processing of pseudonymous information for certain purposes such as statistical preparation, scientific research, and preservation of records in the public interest is permitted, and pseudonymous information can be used without the consent of the data subject. Pseudonymized information is information that cannot identify a specific data subject without the use or combination of additional information to restore the original state by pseudonymizing it.

그러나, 가명처리의 취급자별 주관적 판단에 의해 가명처리 기준을 설정하기 때문에 취급자별로 다른 가명정보가 도출되는 문제점을 가진다.However, there is a problem in that different pseudonym information is derived for each handler because the pseudonymization standard is set by the subjective judgment of each handler of the pseudonym processing.

대한민국 공개특허공보 제10-2016-0108993호 (2016.09.21.)Republic of Korea Patent Publication No. 10-2016-0108993 (2016.09.21.)

본 발명은 개인정보의 노출 위험에 따른 가명처리 수준을 표준화하고, 개인정보의 노출 위험을 정량적으로 측정하고, 위험에 맞는 가명처리 수준을 결정하고 가명처리함으로써, 신뢰성 있는 가명정보를 제공할 수 있다. The present invention can provide reliable pseudonymous information by standardizing the level of pseudonymization according to the risk of exposure of personal information, quantitatively measuring the risk of exposure of personal information, determining the level of pseudonymization appropriate to the risk, and pseudonymizing it. .

본 발명은 정보집합물의 취급자의 전문 지식과 상관없이 재식별 위험의 측정 및 가명처리 수준의 결정을 수행함으로써, 취급자에 따라 동일한 가명정보의 결과를 도출할 수 있다.The present invention can derive the same pseudonymized information according to the handler by measuring the risk of re-identification and determining the level of pseudonymization regardless of the expert knowledge of the handler of the information set.

본 발명은 가명정보에서 특정 정보주체의 식별 위험을 평가할 수 있는 방안을 제시함으로써, 정보주체의 프라이버시를 보고하고 신뢰성 있는 데이터 활용 플랫폼을 제공할 수 있다. The present invention can report the privacy of a data subject and provide a reliable data utilization platform by proposing a method for evaluating the identification risk of a specific data subject in pseudonymous information.

본 발명은 개인정보를 포함하는 정보집합물에 대해 동일한 사용환경에 대해 동일한 가명정보의 결과를 도출할 수 있는 정보집합물을 가명 처리하는 시스템 및 그 제어방법을 제공할 수 있다. The present invention can provide a system for pseudonymizing an information set including personal information and a method for controlling the same for an information set that can derive the same pseudonymized information result for the same usage environment.

본 발명은 개인정보의 오남용을 차단하고 신뢰성 있는 가명정보를 제공할 수 있다. The present invention can block the misuse of personal information and provide reliable pseudonymous information.

본 발명의 실시예는 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법에 있어서, 원천 정보집합물을 획득하는 과정; 상기 원천 정보집합물의 변수를 획득하는 과정; 상기 원천 정보집합물의 변수에 대한 대표명칭을 확인하는 과정; 상기 원천 정보집합물의 변수에 대한 개인정보의 유형을 확인하는 과정; 상기 원천 정보집합물의 개인정보의 유형에 대한 가명처리 수준을 확인하는 과정; 및 상기 원천 정보집합물의 변수를 상기 대표명칭으로 변경하기 위한 개인정보의 메타데이터를 획득하는 과정을 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법을 제공할 수 있다.An embodiment of the present invention provides a control method of a system for pseudonymizing an information set according to a risk to a use environment, the process comprising: obtaining a source information set; obtaining a variable of the source information set; confirming the representative names of the variables of the source information set; a process of confirming the type of personal information for the variable of the source information set; confirming the level of pseudonymization for the type of personal information of the source information set; and obtaining metadata of personal information for changing the variable of the source information set to the representative name. have.

본 발명의 실시예는, 상기 원천 정보집합물의 변수에 대한 대표명칭이 없는 경우, 상기 원천 정보집합물의 변수에 대한 새로운 대표명칭을 생성하는 과정을 더 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법을 제공할 수 있다. In an embodiment of the present invention, when there is no representative name for the variable of the source information set, the information set according to the risk to the use environment further includes the step of generating a new representative name for the variable of the source information set It is possible to provide a method for controlling a system for pseudonymizing water.

본 발명의 실시예는, 상기 원천 정보집합물의 변수에 대한 개인정보의 유형이 없는 경우, 상기 원천 정보집합물의 변수에 대한 개인정보의 새로운 유형을 생성하는 과정을 더 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법을 제공할 수 있다.An embodiment of the present invention, when there is no type of personal information for the variable of the source information set, further comprising the process of creating a new type of personal information for the variable of the source information set, risk to the use environment It is possible to provide a control method of a system that processes an information set according to the pseudonym.

본 발명의 실시예는, 상기 원천 정보집합물의 개인정보의 유형에 대한 가명처리 수준이 없는 경우, 상기 원천 정보집합물의 개인정보의 유형에 대한 새로운 가명처리 수준을 생성하는 과정을 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법을 제공할 수 있다.In an embodiment of the present invention, when there is no pseudonymization level for the type of personal information of the source information set, the use environment includes the process of creating a new level of pseudonymization for the type of personal information of the source information set It is possible to provide a control method for a system that processes an information set according to the risk of a pseudonym.

본 발명의 실시예는, 상기 원천 정보집합물의 데이터의 실제 값을 획득하는 과정; 상기 데이터의 실제 값에 기초하여 상기 데이터의 변수의 대표명칭을 획득하는 과정; 및 상기 데이터의 변수를 상기 대표명칭으로 변경하는 과정을 더 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법을 제공할 수 있다. An embodiment of the present invention includes the steps of: obtaining an actual value of the data of the source information set; obtaining a representative name of the variable of the data based on the actual value of the data; and changing the variable of the data to the representative name, it is possible to provide a control method of a system for pseudonymizing an information set according to a risk to a use environment.

본 발명은 개인정보의 노출 위험에 따른 가명처리 수준을 표준화하고, 개인정보의 노출 위험을 정량적으로 측정하고, 위험에 맞는 가명처리 수준을 결정하고 가명처리 함으로써, 신뢰성 있는 가명정보를 제공하는 효과를 가진다.The present invention standardizes the level of pseudonymization according to the risk of exposure of personal information, quantitatively measures the risk of exposure of personal information, determines the level of pseudonymization appropriate to the risk, and performs pseudonymization, thereby providing reliable pseudonymous information. have

본 발명은 정보집합물의 취급자의 전문 지식과 상관없이 재식별 위험의 측정 및 가명처리 수준의 결정을 수행함으로써, 취급자에 따라 동일한 가명정보의 결과를 도출하는 효과를 가진다.The present invention has the effect of deriving the same pseudonymized information according to the handler by measuring the risk of re-identification and determining the level of pseudonymization regardless of the expert knowledge of the handler of the information set.

본 발명은 가명정보에서 특정 정보주체의 식별 위험을 평가할 수 있는 방안을 제시함으로써, 정보주체의 프라이버시를 보고하고 신뢰성 있는 데이터 활용 플랫폼을 제공하는 효과를 가진다.The present invention has the effect of reporting the privacy of a data subject and providing a reliable data utilization platform by proposing a method for evaluating the identification risk of a specific data subject in pseudonymous information.

본 발명은 개인정보를 포함하는 정보집합물에 대해 동일한 사용환경에 대해 동일한 가명정보의 결과를 도출할 수 있는 정보집합물을 가명 처리하는 시스템 및 그 제어방법을 제공하는 효과를 가진다.The present invention has the effect of providing a system for pseudonymizing an information set including personal information and a method for controlling the same for an information set that can derive the result of the same pseudonymous information for the same use environment.

본 발명은 개인정보의 오남용을 차단하고 신뢰성 있는 가명정보를 제공하는 효과를 가진다.The present invention has the effect of blocking the misuse of personal information and providing reliable pseudonymous information.

도 1은 본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 블록도를 도시한 것이다.
도 2는 본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 상세 블록도를 도시한 것이다.
도 3은 본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법을 도시한 것이다.
도 4는 본 발명의 실시예에 따른 메타데이터를 표준화하는 방법의 흐름도를 도시한 것이다.
도 5는 본 발명의 다른 실시예에 따른 메타데이터를 표준화하는 방법의 흐름도를 도시한 것이다.
1 is a block diagram of a system for pseudonymizing an information set according to a risk to a use environment according to an embodiment of the present invention.
2 is a detailed block diagram of a system for pseudonymizing an information set according to a risk to a use environment according to an embodiment of the present invention.
3 is a diagram illustrating a control method of a system for pseudonymizing an information set according to a risk to a use environment according to an embodiment of the present invention.
4 is a flowchart of a method for standardizing metadata according to an embodiment of the present invention.
5 is a flowchart of a method for standardizing metadata according to another embodiment of the present invention.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.Since the embodiments according to the concept of the present invention may have various changes and may have various forms, the embodiments will be illustrated in the drawings and described in detail herein. However, this is not intended to limit the embodiments according to the concept of the present invention to specific disclosed forms, and includes all modifications, equivalents, or substitutes included in the spirit and scope of the present invention.

본 명세서에서 사용한 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The technical terms used herein are used only to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise. In this specification, terms such as “comprise” or “have” are intended to designate that a feature, number, step, operation, component, part, or combination thereof described herein is present, but one or more other features It is to be understood that it does not preclude the possibility of the presence or addition of numbers, steps, operations, components, parts, or combinations thereof.

본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈(module)" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니며, 본 발명의 실시 예에 따른 방법을 수행하기 위한 하드웨어 또는 상기 하드웨어를 구동할 수 있는 소프트웨어의 기능적 또는 구조적 결합을 의미할 수 있다.The suffixes "module" and "part" for components used in this specification are given or mixed in consideration of ease of writing the specification, and do not have distinct meanings or roles per se, and this It may refer to a functional or structural combination of hardware for performing a method according to an embodiment of the invention or software capable of driving the hardware.

이하에서 첨부된 도면을 참고하여, 본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템 및 그 제어방법에 대해서 설명한다.Hereinafter, a system for pseudonymizing an information set according to a risk to a use environment and a control method thereof according to an embodiment of the present invention will be described with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 블록도를 도시한 것이다.1 is a block diagram of a system for pseudonymizing an information set according to a risk to a use environment according to an embodiment of the present invention.

본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템은 전자 장치(1000)일 수 있다. 전자 장치(1000)는, 단말기, 디바이스, 전자기기 등으로 호칭될 수 있다. 전자 장치(1000)는, 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 서버, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 컴퓨팅 장치일 수 있으나, 이에 한정되는 것은 아니다. 또한, 이에 한정되지 않으며, 전자 장치(100)는 데이터를 처리하고, 처리된 데이터를 제공할 수 있는 모든 종류의 기기를 포함할 수 있다.A system for pseudonymizing an information set according to a risk to a use environment according to an embodiment of the present invention may be the electronic device 1000 . The electronic apparatus 1000 may be referred to as a terminal, a device, an electronic device, or the like. The electronic device 1000 is a smart phone, a tablet PC, a PC, a smart TV, a mobile phone, a personal digital assistant (PDA), a laptop, a media player, a server, a micro server, a global positioning system (GPS) device, an e-book terminal, a digital It may be a broadcasting terminal, a navigation device, a kiosk, an MP3 player, a digital camera, a home appliance, and other computing devices, but is not limited thereto. In addition, the present invention is not limited thereto, and the electronic device 100 may include all kinds of devices capable of processing data and providing the processed data.

도 1에 도시된 바와 같이, 일 실시 예에 따른 전자 장치(1000)는, 저장부(1100), 출력부(1200), 제어부(1300), 통신부(1500), 및 사용자 입력부(1700)를 포함할 수도 있다. 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니며, 보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.1 , an electronic device 1000 according to an embodiment includes a storage unit 1100 , an output unit 1200 , a control unit 1300 , a communication unit 1500 , and a user input unit 1700 . You may. Not all illustrated components are essential components of the electronic device 1000 , and the electronic device 1000 may be implemented by more components, and the electronic device 1000 may be implemented by fewer components. may be

저장부(1100)는 메모리로 호칭될 수 있으며, 제어부(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되는 정보 또는 전자 장치(1000)로부터 출력되는 정보를 저장할 수도 있다.The storage unit 1100 may be referred to as a memory, may store a program for processing and control of the controller 1300 , and may store information input to the electronic device 1000 or information output from the electronic device 1000 . may be

출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 디스플레이부(1210)는, 사용자의 입력에 대한 응답으로, 응답에 관련된 동작을 실행하기 위한 사용자 인터페이스를 디스플레이할 수 있다.The output unit 1200 may output an audio signal, a video signal, or a vibration signal, and the output unit 1200 displays and outputs information processed by the electronic device 1000 . In response to a user's input, the display 1210 may display a user interface for executing an operation related to the response.

제어부(1300)는 프로세서로 호칭될 수 있으며, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 제어부(1300)는, 저장부(1100)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1700), 출력부(1200), 통신부(1500), 사용자 입력부(1700) 등을 전반적으로 제어할 수 있다.The controller 1300 may be referred to as a processor, and generally controls the overall operation of the electronic device 1000 . For example, the control unit 1300 may control the user input unit 1700, the output unit 1200, the communication unit 1500, the user input unit 1700, etc. as a whole by executing the programs stored in the storage unit 1100. can

통신부(1500)는, 전자 장치(1000)가 다른 장치(미도시) 및 서버(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 다른 장치(미도시)는 전자 장치(1000)와 같은 컴퓨팅 장치이거나, 센싱 장치일 수 있으나, 이에 한정되는 것은 아니다. The communication unit 1500 may include one or more components that allow the electronic device 1000 to communicate with another device (not shown) and a server (not shown). The other device (not shown) may be a computing device such as the electronic device 1000 or a sensing device, but is not limited thereto.

사용자 입력부(1700)는, 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. The user input unit 1700 means a means for a user to input data for controlling the electronic device 1000 .

도 2는 본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 상세 블록도를 도시한 것이다.2 is a detailed block diagram of a system for pseudonymizing an information set according to a risk to a use environment according to an embodiment of the present invention.

본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템은 상술한 전자 장치(1000)일 수 있다. 본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템은 표준화부(100), 위험(risk) 측정부(200), 가명처리부(300), 검토부(400)를 포함할 수 있다. The system for pseudonymizing an information set according to a risk to a use environment according to an embodiment of the present invention may be the electronic device 1000 described above. The system for pseudonymizing the information set according to the risk to the use environment according to the embodiment of the present invention is a standardization unit 100, a risk measurement unit 200, a pseudonym processing unit 300, a review unit 400. may include.

표준화부(100), 위험 측정부(200), 가명처리부(300), 검토부(400) 중 적어도 하나는 본 발명의 실시예에 따른 방법을 수행하기 위한 하드웨어 또는 상기 하드웨어를 구동할 수 있는 소프트웨어의 기능적 또는 구조적 결합을 의미할 수 있다. 일 예로, 표준화부(100), 위험 측정부(200), 가명처리부(300), 검토부(400) 중 적어도 하나는 해당 기능을 수행하는 제어부()의 일부일 수 있다. 또한, 다른 예로, 표준화부(100), 위험 측정부(200), 가명처리부(300), 검토부(400) 중 적어도 하나는 제어부()에 의해 수행되는 메모리()에 저장된 소프트웨어의 일부 일 수 있다. At least one of the standardization unit 100, the risk measurement unit 200, the pseudonym processing unit 300, and the review unit 400 is hardware for performing the method according to an embodiment of the present invention or software capable of driving the hardware. It may mean a functional or structural combination of For example, at least one of the standardization unit 100 , the risk measurement unit 200 , the pseudonym processing unit 300 , and the review unit 400 may be a part of the control unit ( ) that performs a corresponding function. In addition, as another example, at least one of the standardization unit 100 , the risk measurement unit 200 , the pseudonym processing unit 300 , and the review unit 400 may be a part of the software stored in the memory ( ) performed by the control unit ( ) have.

표준화부(100), 위험 측정부(200), 가명처리부(300), 검토부(400)는 후술할 도 3의 S100, S200, S300, S400 각각의 과정을 수행하는 프로세서일 수 있으며, 혹은 각각의 과정을 수행하는 저장부()에 저장된 소프트웨어일 수 있다. The standardization unit 100 , the risk measurement unit 200 , the pseudonym processing unit 300 , and the review unit 400 may be processors that perform each of the processes S100 , S200 , S300 , and S400 of FIG. 3 to be described later, or each It may be software stored in the storage unit ( ) that performs the process of

도 3은 본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법을 도시한 것이다. 도 4는 본 발명의 실시예에 따른 메타데이터를 표준화하는 방법의 흐름도를 도시한 것이다. 도 5는 본 발명의 다른 실시예에 따른 메타데이터를 표준화하는 방법의 흐름도를 도시한 것이다. 3 is a diagram illustrating a control method of a system for pseudonymizing an information set according to a risk to a use environment according to an embodiment of the present invention. 4 is a flowchart of a method for standardizing metadata according to an embodiment of the present invention. 5 is a flowchart of a method for standardizing metadata according to another embodiment of the present invention.

도 3에 도시된 바와 같이, 본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법은, 표준화하는 과정(S100), 위험을 측정하는 과정(S200), 가명처리를 수행하는 과정(S300), 가명처리된 가명정보를 검토하는 과정(S400)을 포함할 수 있다. As shown in FIG. 3, the control method of the system for pseudonymizing the information set according to the risk to the use environment according to the embodiment of the present invention is a process of standardizing (S100), a process of measuring the risk (S200) , a process of performing pseudonymization (S300), and a process of reviewing pseudonymized information (S400).

본 발명의 실시예에 따른 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법은, 가명정보로부터 특정한 정보주체가 식별될 수 있는 위험을 최소화함으로써, 개인의 프라이버시를 보호할 수 있다. The control method of a system for pseudonymizing an information set according to a risk to the use environment according to an embodiment of the present invention minimizes the risk that a specific information subject can be identified from pseudonymous information, thereby protecting individual privacy. have.

S100 과정에서, 시스템은 표준화 과정을 수행할 수 있다. 표준화하는 과정(S100)은 정보집합물을 구성하는 메타데이터를 표준화하는 과정(S110), 정보집합물의 사용환경을 표준화하는 과정(S120)을 포함할 수 있다. In step S100 , the system may perform a standardization process. The standardization process ( S100 ) may include a process of standardizing metadata constituting the information set ( S110 ) and a process of standardizing the use environment of the information set ( S120 ).

S110 과정에서, 시스템은 원천 정보집합물(Raw Data-Set)의 개인정보에 대한 메타데이터를 표준화하여 정보집합물(Data-Set)로 생성할 수 있다. In the process S110, the system may standardize the metadata for personal information of the source information set (Raw Data-Set) and generate it as an information set (Data-Set).

도 4를 참조하며, 시스템이 개인정보에 대한 메타데이터를 표준화하는 방법을 설명한다. 시스템은 개인정보의 메타데이터를 저장부() 혹은 통신부()를 통해 획득하기 이전에 개인정보의 메타데이터를 표준화할 수 있다. Referring to FIG. 4 , a description will be given of a method for the system to standardize metadata for personal information. The system can standardize the metadata of personal information before acquiring the metadata of personal information through the storage unit ( ) or communication unit ( ).

시스템은 개인정보를 포함하는 원천 정보집합물을 저장부() 혹은 통신부()를 통해 획득할 수 있다(S511). The system may acquire the source information set including personal information through the storage unit ( ) or the communication unit ( ) ( S511 ).

원천 정보집합물(Raw Data-Set)은 정보주체인 개인의 개인정보를 포함할 수 있다. 예를 들어, 정보주체의 '이름', '나이', '주민등록번호', '전화번호' 등과 같은 개인에 관련된 데이터의 집합물을 의미한다. 원천 정보집합물은 데이터를 쉽게 검색할 수 있도록 일정한 규칙에 따라 체계적으로 배열되거나 구성된 데이터의 집합물을 말한다. 정보집합물(Data-Set)은 자료 집합, 데이터 세트라고도 불린다.Raw Data-Set may include personal information of individuals who are information subjects. For example, it refers to a collection of data related to an individual, such as 'name', 'age', 'resident registration number', 'phone number' of the information subject. Source information set refers to a set of data that is systematically arranged or organized according to certain rules so that data can be easily retrieved. A data-set is also called a data set or data set.

원천 정보집합물은 데이터베이스의 테이블의 내용이나 통계적 자료 행렬을 의미할 수 있다. 테이블의 모든 필드(컬럼)의 명칭은 객체에 대한 변수들을 의미하고, 각 레코드(로우)는 변수들의 실제 값에 의해 정의된 하나의 객체를 의미할 수 있다. 예를 들어, 특정 객체에 대한 변수들은 사람의 '이름', '나이', '주민등록번호', '전화번호' 등을 포함할 수 있다. 변수들의 실제 값은 정보, 자료, 데이터라고 불리고, '홍길동', '29', '200101-112233', '010-2222-3333' 등의 값을 가질 수 있다. The source information set may mean the contents of a table in a database or a matrix of statistical data. The names of all fields (columns) of the table mean variables for an object, and each record (row) can mean an object defined by the actual values of the variables. For example, variables for a specific object may include a person's 'name', 'age', 'resident registration number', 'phone number', and the like. The actual values of the variables are called information, data, and data, and may have values such as 'Gildong Hong', '29', '200101-112233', and '010-2222-3333'.

원천 정보집합물은 적어도 하나 또는 다수의 변수들의 실제 값들인 데이터들(자료들, 정보들)로 이뤄질 수 있다. 원천 정보집합물의 개수는 정보집합물에서 변수의 명칭의 레코드를 제외한 나머지 레코드의 수와 일치할 수 있다. The source information set may consist of data (data, information) that are actual values of at least one or more variables. The number of source information sets may be identical to the number of records other than the records of variable names in the information set.

시스템은 원천 정보집합물의 변수들을 획득할 수 있다(S512). 시스템은 원천 정보집합물로부터 변수들의 명칭을 획득할 수 있다. 개인정보의 변수들의 명칭은 '이름', '나이', '주민등록번호', '전화번호' 등을 포함할 수 있다. The system may acquire the variables of the source information set (S512). The system may obtain the names of the variables from the source dataset. The names of variables of personal information may include 'name', 'age', 'resident registration number', 'phone number', and the like.

시스템은 변수들의 명칭에 대한 대표명칭이 존재하는지 확인할 수 있다(S513). 시스템은 저장부() 혹은 통신부()를 통해 획득한 변수들의 대표명칭에 대한 정보에 기초하여 원천 정보집합물에서 획득한 변수들이 대표명칭인지 확인할 수 있다. The system may check whether representative names for the names of variables exist (S513). The system may check whether the variables obtained from the source information set are representative names based on the information on the representative names of the variables obtained through the storage unit ( ) or the communication unit ( ).

변수들의 대표명칭에 대한 정보는 동일한 종류의 데이터를 지칭하는 변수들의 명칭 집합과 명칭 집합을 대표하는 대표명칭을 포함할 수 있다. 예를 들어 나이에 대한 변수들의 명칭 집합은 ['age', '나이', '연세', 'old' ]이며, 이를 대표하는 대표명칭은 'age' 일수 있다. 또는, 변수들의 대표명칭에 대한 정보는 변수 마다 매핑된 대표명칭을 포함하는 매칭정보일 수 있다. 예를 들어, [변수-대표명칭]의 구조를 가지며, '나이'-'age', '연세'-'age', 'age'-'age'를 볼 수 있다. 변수들의 대표명칭에 대한 정보는 개인정보의 메타데이터에 포함되며, 개인정보 메타데이터는 저장부()에 저장될 수 있다. The information on the representative names of variables may include a name set of variables indicating the same type of data and a representative name representing the name set. For example, a set of names of variables for age is ['age', 'age', 'Yeonsei', 'old' ], and a representative name for this may be 'age'. Alternatively, the information on the representative names of the variables may be matching information including the representative names mapped to each variable. For example, it has the structure of [variable-representative name], and you can see 'age'-'age', 'yonsei'-'age', 'age'-'age'. Information on representative names of variables is included in the metadata of personal information, and the personal information metadata may be stored in the storage unit ( ).

또한, 변수들의 대표명칭에 대한 정보는 원천 정보집합물에서 데이터의 변수들에 대한 대표명칭의 정보 및 각 객체들이 어떠한 변수들을 가지는지 정의하는 정보를 포함할 수 있다. 일 예로, 대표명칭의 정보는 객체(특정 정보주체)의 이름, 나이, 주민등록번호, 전화번호에 대한 정보와 같은 개인정보들의 변수들에 대한 표준화된 명칭 ['name', 'age', 'resident registration number', 'mobile number']의 정보를 포함하고, ['name', 'age', 'resident registration number', 'mobile number'] 중 어떠한 개인정보로 대표명칭의 정보가 이뤄질지에 대한 정보가 포함될 수 있다. Also, the information on the representative names of the variables may include information on the representative names of the variables of the data in the source information set and information defining which variables each object has. For example, the representative name information is the standardized name ['name', 'age', 'resident registration number', 'mobile number'], and information on which personal information among ['name', 'age', 'resident registration number', 'mobile number'] will be included can

시스템은 변수의 대표명칭이 존재하지 않는 경우 해당 변수에 대한 대표명칭에 대한 정보를 생성하여 저장부()에 저장할 수 있다(S514). 시스템은 변수의 대표명칭이 존재하는 경우, 다음 과정을 수행할 수 있다. When the representative name of the variable does not exist, the system may generate information about the representative name of the variable and store it in the storage unit ( S514 ). The system can perform the following process when a representative name of a variable exists.

시스템은 변수에 대한 개인정보의 유형이 존재하는지 확인할 수 있다(S515). The system may check whether the type of personal information for the variable exists (S515).

원천 정보집합물에 저장된 개인정보들은, 데이터의 실제 값(필드의 값)으로서, 데이터의 정보주체(혹은 객체)의 식별의 용이성에 따라 ①직접식별자(고유식별자), ②간접식별자(준식별자), ③속성정보, ④특이정보의 4가지 유형으로 구분될 수 있다. Personal information stored in the source information set is the actual value of the data (the value of the field), and depending on the ease of identification of the data subject (or object), ① direct identifier (unique identifier), ② indirect identifier (quasi-identifier) , ③ attribute information, and ④ specific information.

“직접식별자”란 해당 정보주체에게만 고유하게 부여되어 있는 정보로써 그 자체만으로 개인 식별성이 강한 정보이고, “준식별자”는 정보주체에게만 고유하게 부여된 정보는 아니지만 보편적으로 널리 이용되고 있는 정보 이어서 다른 정보와 결합하면 특정 개인을 식별하기 쉬운 정보이며, “속성정보”는 주로 해당 개인정보처리자만 보유하고 있어 개인정보처리자 이외의 자는 다른 정보와 결합해도 특정 개인을 식별하기 어려운 정보이고, “특이정보”는 해당 정보주체에게 고유하게 부여된 정보는 아니지만 해당 정보주체에 대해서만 해당되는 정보여서 누구든지 쉽게 식별이 가능한 정보를 의미한다.“Direct identifier” is information that is uniquely assigned only to the data subject and is highly personally identifiable by itself. When combined with information, it is information that can easily identify a specific individual, and “attribute information” is mainly possessed by the personal information controller, so it is difficult for a person other than the personal information controller to identify a specific individual even when combined with other information. ” means information that is not uniquely assigned to the data subject, but is information that is only applicable to the data subject and can be easily identified by anyone.

시스템은 저장부() 혹은 통신부()를 통해 복수개의 개인정보의 유형분류정보를 획득할 수 있다. The system may acquire type classification information of a plurality of personal information through the storage unit ( ) or the communication unit ( ).

복수개의 개인정보의 유형분류정보는 개인정보가 직접식별자, 준식별자, 속성정보, 특이정보 중 적어도 하나의 유형에 속하는지 알려준다. 유형분류정보는 모든 유형의 직접식별자, 준식별자, 속성정보, 특이정보에 대한 개인정보를 포함할 수 있고, 적어도 하나의 유형의 직접식별자, 준식별자, 속성정보, 특이정보에 대한 개인정보만을 포함할 수 있다. The type classification information of a plurality of personal information informs whether the personal information belongs to at least one type of direct identifier, quasi-identifier, attribute information, and specific information. Type classification information may include personal information for all types of direct identifiers, quasi-identifiers, attribute information, and specific information, and includes only personal information for at least one type of direct identifier, quasi-identifier, attribute information, and specific information. can do.

일 예로, 복수개의 개인정보의 유형분류정보는 직접식별자, 준식별자, 속성정보, 특이정보에 속하는 개인정보들의 리스트들이 위험등급에 따라 다르게 구성된다. 예를 들어, 특정 개인정보는 1등급에서 준식별자에 대한 정보일 수 있지만, 2등급에서 특이정보에 속할 수 있다. 다른 예로, 복수개의 개인정보의 유형분류정보는 정보집합물의 민감도, 사용자 수준, 정보보호 수준 중 적어도 하나에 기초하여 직접식별자, 준식별자, 속성정보, 특이정보에 속하는 개인정보들의 리스트들이 다르게 구성된다.For example, in the classification information of a plurality of types of personal information, lists of personal information belonging to direct identifiers, quasi-identifiers, attribute information, and specific information are configured differently according to risk levels. For example, specific personal information may be information about a quasi-identifier in Level 1, but may belong to specific information in Level 2. As another example, in the classification information of a plurality of personal information, the list of personal information belonging to the direct identifier, quasi-identifier, attribute information, and specific information is configured differently based on at least one of the sensitivity of the information set, the user level, and the information protection level. .

개인정보의 유형분류정보의 일 예로, 개인정보 중 이름, 사진, 주민등록번호, 전화번호, 이메일주소, IP주소, 차량의 번호판정보 등은 직접식별자에 속하고, 개인정보 중 생년월일, 사망일, 결혼기념일, 직업, 성별, 신용등급, 주소, 우편번호 등은 준식별자에 속하고, 개인정보 중 상품 구매이력, 월별 전화 사용액, 대출 총액, 예금 총액, 보험 구좌수, 고객고유번호 등은 속성정보에 속하고, 개인정보 중 특이 질환자, 초고소득자, 초고령 연령자, 특이 직업, 이동 동선 등은 특이정보에 속할 수 있다. As an example of type classification information of personal information, name, photo, resident registration number, phone number, e-mail address, IP address, and vehicle license plate information among personal information belong to direct identifiers, and among personal information, date of birth, date of death, wedding anniversary, Occupation, gender, credit rating, address, postal code, etc. belong to quasi-identifiers, and among personal information, product purchase history, monthly phone usage, total loan amount, total deposit, number of insurance accounts, customer identification number, etc. belong to attribute information. , persons with special diseases, very high-income earners, super-aged persons, special occupations, and movement routes among personal information may belong to special information.

다른 개인정보 유형분류정보의 다른 예로, 개인정보 중 이름, 사진, 주민등록번호, 전화번호, 이메일주소, IP주소, 차량의 번호판정보 등은 직접식별자에 속하고, 개인정보 중 생년월일, 사망일, 결혼기념일, 직업, 성별, 신용등급, 주소, 우편번호 등은 준식별자에 속할 수 있고, 속성정보 또는 특이정보에 속하는 개인정보는 없을 수 있다. As another example of other personal information classification information, names, photos, resident registration numbers, phone numbers, email addresses, IP addresses, and vehicle license plate information among personal information belong to direct identifiers, and among personal information, date of birth, date of death, wedding anniversary, Occupation, gender, credit rating, address, postal code, etc. may belong to quasi-identifiers, and there may be no personal information belonging to attribute information or special information.

시스템은 개인정보의 유형분류정보에 기초하여 원천 정보집합물의 변수가 어떤 유형의 개인정보인지 확인할 수 있으며, 대응하는 개인정보의 유형이 없는 경우 새로운 개인정보의 유형을 생성할 수 있다. 예를 들어, 유형분류정보가 직접식별자 및 준식별자에 대한 개인정보를 포함하되, 속성정보에 속하는 개인정보를 포함하지 않는 경우 속성정보의 유형을 새롭게 생성하고, 새롭게 생성된 속성정보의 유형을 포함하는 새로운 유형분류정보를 생성하여 저장할 수 있다(S516).The system can confirm what type of personal information the variable of the source information set is based on the type classification information of personal information, and can create a new type of personal information if there is no corresponding type of personal information. For example, if the classification information includes personal information for direct identifiers and quasi-identifiers, but does not include personal information belonging to attribution information, a new type of attribution information is created and the newly created type of attribution information is included. It is possible to create and store new type classification information (S516).

시스템은 원천 정보집합물의 변수가 개인정보의 유형분류정보에 속하는 경우 다음 과정으로, 유형별 가명처리 수준이 존재하는지 확인할 수 있다(S517). 시스템은 유형별 가명처리 수준에 대한 정보를 저장부() 혹은 통신부를 통해 획득할 수 있다. 시스템은 유형별 가명처리 수준에 대한 정보에 기초하여 개인정보의 유형에 대한 가명처리 수준이 존재하는지 확인할 수 있다. 혹은 시스템은 유형별 가명처리 수준에 대한 정보에 기초하여 유형분류정보에 속한 유형들의 가명처리 수준이 존재하는지 확인할 수 있다. When the variable of the source information set belongs to the type classification information of personal information, the system can check whether there is a level of pseudonymization by type as the next process (S517). The system may acquire information on the level of pseudonymization by type through the storage unit ( ) or the communication unit. The system may check whether there is a pseudonymization level for the type of personal information based on the information on the level of pseudonymization for each type. Alternatively, the system may check whether the pseudonymization level of the types included in the classification information exists based on the information on the pseudonymization level for each type.

시스템은 유형별 가명처리 수준이 존재하지 않는 경우 새로운 유형별 가명처리 수준에 대한 정보를 생성하여 저장할 수 있다(S518). 새로운 유형별 가명처리 수준에 대한 정보는 데이터의 유형 및 속성에 따른 각 유형별 가명처리 기법, 개인정보의 유형 마다 할당된 가명처리 정보의 식별자를 포함할 수 있다.When the pseudonymization level for each type does not exist, the system may generate and store information on a new pseudonymization level for each type (S518). Information on the level of pseudonymization for each new type may include pseudonymization processing techniques for each type according to data types and attributes, and identifiers of pseudonymization information assigned to each type of personal information.

시스템은 유형별 가명처리 수준이 존재하는 경우, 개인정보의 메타데이터를 획득할 수 있다(S519). The system may acquire metadata of personal information when there is a level of pseudonymization for each type (S519).

개인정보의 메타데이터는 정보집합물(개인정보를 포함함)의 생성 및 사용 목적에 대한 정보 및 정보집합물이 개인정보 중 정보주체를 식별할 수 있는 속성 분류 정보를 포함할 수 있다. Metadata of personal information may include information on the purpose of creation and use of an information set (including personal information) and attribute classification information that enables the information set to identify a subject of personal information.

개인정보의 메타데이터는 원천 정보집합물의 변수의 정보, 변수의 대표명칭에 대한 정보, 개인정보의 유형에 대한 정보, 유형분류정보, 유형별 가명처리 수준 정보, 유형분류정보에 따른 가명처리 수준 정보를 포함할 수 있다. Metadata of personal information includes information on variables of the source information set, information on representative names of variables, information on types of personal information, type classification information, pseudonymization level information by type, and pseudonymization level information according to type classification information. may include

개인정보의 메타데이터는 변수의 실제 값(예로, 데이터 값)에 대한 정보를 포함할 수 있다. 변수의 실제 값에 대한 정보는 데이터의 유형과 특성에 대한 정보를 포함할 수 있다. 데이터의 타입은 숫자, 문자, 날짜로 구분될 수 있으며, 숫자의 경우 연속형, 이산형 등을 포함할 수 있다. 데이터의 특성은 해당 변수가 가지는 특징을 가질 수 있으며, 일 예로 성별의 경우 2가지의 변수만 존재하는 바이너리 특징을 가지고, 나이의 경우 최소값과 최대값의 특징을 부여할 수 있다. Metadata of personal information may include information about actual values (eg, data values) of variables. Information about the actual value of a variable may include information about the type and characteristics of data. Data types may be classified into numbers, characters, and dates, and in the case of numbers, continuous and discrete types may be included. The characteristics of the data may have characteristics of the corresponding variable. For example, in the case of gender, a binary characteristic in which only two variables exist, and in the case of age, characteristics of a minimum value and a maximum value may be given.

시스템은 개인정보의 메타데이터에 기초하여 데이터의 변수를 확인할 수 있다. The system may identify the variables of the data based on the metadata of the personal information.

일 예로, 시스템은 원천 정보집합물의 데이터의 변수(필드의 명칭)을 개인정보의 메타데이터로 변경하기 위하여 변수의 실제 값(데이터 값)을 확인하고, 데이터의 유형 및 특성에 기초하여 데이터의 변수의 명칭을 유도할 수 있다. 변수의 실제 값에 대한 정보에 기초하여 변수의 실제 값이 어떠한 변수에 해당하는지 확인할 수 있다. 예를 들어, '남' 혹은 'male'의 데이터 값을 보고 문자에 해당하고 성별을 의미하는 바이너리 특징에 속하므로, ['gender'] 변수의 데이터임으로 판단할 수 있다.As an example, the system checks the actual value (data value) of the variable in order to change the variable (name of field) of the data of the source information set to the metadata of personal information, and the variable of the data based on the type and characteristics of the data name can be derived. Based on the information about the actual value of the variable, it is possible to check which variable the actual value of the variable corresponds to. For example, looking at the data value of 'male' or 'male', it can be determined as the data of the ['gender'] variable because it corresponds to a character and belongs to a binary characteristic that means gender.

시스템은 개인정보의 메타데이터를 이용하여 정보집합물을 획득할 수 있다(S520). 시스템은 개인정보에 대한 메타데이터에 기초하여 원천 정보집합물의 데이터의 변수가 변수의 대표명칭과 일치하는 확인한 후에 일치하지 않는 경우 대표명칭으로 변수를 변경할 수 있다. 이를 통해서 생성된 데이터의 집합을 정보집합물(Data-Set)이라 한다.The system may acquire an information set by using the metadata of personal information (S520). The system may change the variable to the representative name if it does not match after confirming that the variable of the data of the source information set matches the representative name of the variable based on the metadata about personal information. The set of data generated through this is called a data-set.

정보집합물(Data-Set)은 원천 정보집합물과 동일하게 테이블 혹은 행렬로 구성될 수 있으며, 테이블의 각 레코드는 제기된 정보집합물의 객체를 의미하고, 모든 필드는 객체에 대한 변수들(혹은 속성들)을 의미할 수 있다.A data-set can be composed of a table or a matrix in the same way as a source information set, and each record in the table means an object of the proposed information set, and all fields are variables (or variables) for the object. properties) can be

표준화 과정에서 생성된 정보집합물(Data-Set)은 원천 정보집합물를 개인정보의 메타데이터를 이용하여 개인정보의 유형에 대응하는 변수의 대표명칭으로 변수를 변경함으로써 표준화한 정보의 집합물을 의미한다. 혹은 정보집합물은 적어도 2개 이상의 정보집합물의 결합된 정보집합물을 의미한다. The data-set created in the standardization process refers to a set of standardized information by changing the source information set to the representative name of the variable corresponding to the type of personal information using the metadata of personal information. do. Alternatively, the information set refers to a combined information set of at least two or more information sets.

S110 과정에서, 다른 예로, 시스템은 원천 정보집합물(Raw Data-Set)의 개인정보에 대한 메타데이터를 표준화하여 정보집합물(Data-Set)로 생성할 수 있다. In the process S110, as another example, the system may standardize metadata for personal information of a raw data-set and generate it as a data-set.

도 5를 참조하며, 다른 예로, 시스템이 개인정보에 대한 메타데이터를 표준화하는 방법을 설명한다. 시스템은 개인정보의 메타데이터를 저장부() 혹은 통신부()를 통해 획득하기 이전에 개인정보의 메타데이터를 표준화할 수 있다.Referring to FIG. 5 , as another example, a method for standardizing metadata for personal information by a system will be described. The system can standardize the metadata of personal information before acquiring the metadata of personal information through the storage unit ( ) or communication unit ( ).

시스템은 원천 정보집합물을 저장부() 혹은 통신부()를 통해 획득할 수 있다(S611). The system may acquire the source information set through the storage unit ( ) or the communication unit ( ) ( S611 ).

시스템은 원천 정보집합물의 특정 변수의 실제 값들(필드의 값들)을 획득할 수 있다(S612). 예를 들어, '생년월일' 필드의 값들은 '990211', '001212', '880102' 등을 포함할 수 있다. The system may obtain actual values (values of fields) of a specific variable of the source information set ( S612 ). For example, values of the 'date of birth' field may include '990211', '001212', '880102', and the like.

시스템은 저장부() 혹은 통신부()를 통해 획득한 데이터 타입의 대비정보에 기초하여 변수의 실제 값인 데이터의 타입을 확인할 수 있다. 데이터 타입이란 숫자, 문자, 날짜 와 같은 정보를 의미하며, 숫자의 경우 연속형, 이산형의 유형으로 구분될 수 있고, 문자의 경우 단어, 문장, 단락의 유형으로 구분될 수 있다. The system may check the data type that is the actual value of the variable based on the data type contrast information acquired through the storage unit ( ) or the communication unit ( ). Data types refer to information such as numbers, characters, and dates, and in the case of numbers, it can be divided into continuous and discrete types, and in the case of characters, it can be divided into word, sentence, and paragraph types.

시스템은 원천 정보집합물의 변수의 실제 값인 데이터의 타입이 데이터 타입의 대비정보 내에 존재하지 않는 경우 원천 정보집합물의 변수의 데이터의 실제 값을 정의하는 새로운 데이터 타입을 생성하여 저장할 수 있다(S614). When the type of data that is the actual value of the variable of the source information set does not exist in the contrast information of the data type, the system may create and store a new data type defining the actual value of the data of the variable of the source information set (S614).

시스템은 원천 정보집합물의 변수의 실제 값에 대한 데이터 타입이 존재하는 경우 데이터의 특성을 확인할 수 있다(S615). 시스템은 데이터 특성의 대비정보를 저장부() 혹은 통신부()를 통해 획득할 수 있다. 시스템은 데이터 특성의 대비정보 내에 원천 정보집합물의 실제 값인 데이터의 특성이 속하는지 확인할 수 있다. When the data type for the actual value of the variable of the source information set exists, the system may check the characteristics of the data (S615). The system may acquire contrast information of data characteristics through the storage unit ( ) or the communication unit ( ). The system can check whether the data characteristic, which is the actual value of the source information set, belongs to the data characteristic contrast information.

데이터의 특성이란 특정 변수(필드)가 가지는 정보로써, '나이' 변수는 숫자이면서, 최소값과 최대값을 가지는 특징을 가지며, '성별' 변수의 경우 데이터가 '남' 혹은 '여'로 2가지만 가질 수 있는 특징을 가진다.Characteristics of data is information possessed by a specific variable (field). The 'age' variable is a number and has a minimum and maximum value. In the case of a 'gender' variable, there are only two types of data: 'male' or 'female'. characteristics that can be possessed.

시스템은 원천 정보집합물의 변수의 실제 값에 대한 데이터 특성이 존재하지 않는 경우 원천 정보집합물의 변수의 데이터의 실제 값을 정의하는 새로운 데이터 특성을 생성하여 저장할 수 있다(S616). When there is no data characteristic for the actual value of the variable of the source dataset, the system may create and store a new data characteristic defining the actual value of the data of the variable of the source dataset (S616).

시스템은 원천 정보집합물의 변수의 실제 값에 대한 데이터 타입 및 특성에 기초하여 경우 원천 정보집합물의 변수의 대표명칭을 확인할 수 있다(S617). 시스템은 원천 정보집합물의 변수의 대표명칭이 없는 경우 새로운 변수의 대표명칭을 생성할 수 있다(S618).The system may confirm the representative name of the variable of the case source information set based on the data type and characteristics of the actual value of the variable of the source information set (S617). The system may generate a representative name of a new variable when there is no representative name of the variable of the source information set (S618).

시스템은 개인정보의 메타데이터를 획득할 수 있다(S519). 개인정보의 메타데이터는 정보집합물(개인정보를 포함함)의 생성 및 사용 목적에 대한 정보 및 정보집합물이 개인정보 중 정보주체를 식별할 수 있는 속성 분류 정보를 포함할 수 있다. The system may acquire metadata of personal information (S519). Metadata of personal information may include information on the purpose of creation and use of an information set (including personal information) and attribute classification information that enables the information set to identify a subject of personal information.

개인정보의 메타데이터는 변수의 실제 값(예로, 데이터 값)에 대한 정보를 포함할 수 있다. 변수의 실제 값에 대한 정보는 데이터의 타입과 특성에 대한 정보를 포함할 수 있다. 데이터의 타입은 숫자, 문자, 날짜로 구분될 수 있으며, 숫자의 경우 연속형, 이산형 등을 포함할 수 있다. 데이터의 특성은 해당 변수가 가지는 특징을 가질 수 있으며, 일 예로 성별의 경우 2가지의 변수만 존재하는 바이너리 특징을 가지고, 나이의 경우 최소값과 최대값의 특징을 부여할 수 있다. Metadata of personal information may include information about actual values (eg, data values) of variables. The information about the actual value of the variable may include information about the type and characteristics of data. Data types may be classified into numbers, characters, and dates, and in the case of numbers, continuous and discrete types may be included. The characteristics of the data may have characteristics of the corresponding variable. For example, in the case of gender, a binary characteristic in which only two variables exist, and in the case of age, characteristics of a minimum value and a maximum value may be given.

시스템은 대표명칭이 있는 경우 해당 원천 정보집합물의 변수를 대표명칭으로 변경할 수 있다(S620). 시스템은 개인정보의 메타데이터를 이용하여 정보집합물을 획득할 수 있다. 시스템은 개인정보에 대한 메타데이터에 기초하여 원천 정보집합물의 데이터의 변수를 대표명칭으로 변경할 수 있다. 이를 통해서 생성된 데이터의 집합을 정보집합물(Data-Set)이라 한다.If there is a representative name, the system may change the variable of the corresponding source information set to the representative name (S620). The system may obtain an information set by using the metadata of personal information. The system may change the variable of the data of the source information set to the representative name based on the metadata about personal information. The set of data generated through this is called a data-set.

이를 통해서 시스템은 원천 정보집합물의 데이터 값들을 분석함으로써 데이터의 타입 및 특성을 확인하고, 확인된 데이터의 타입 및 특성에 기초하여 데이터의 변수를 확인한 후에 변수의 대표명칭으로 변경함으로써, 기존 변수의 명칭에 관계없이 데이터의 값을 이용해 대표명칭으로 변수를 변경할 수 있다. Through this, the system confirms the type and characteristics of data by analyzing the data values of the source information set, checks the data variables based on the identified data types and characteristics, and then changes the names of the variables to the representative names of the variables. Regardless, you can change the variable with the representative name using the data value.

참고로, 원천 정보집합물은 표준화되기 전의 정보집합물로, 동일한 데이터 값(실제 값)을 표현하는 변수의 명칭이 다른 경우 서로 다른 원천 정보집합물일 수 있다. 다만, 서로 다른 원천 정보집합물들이라도 표준화를 통해서 동일한 정보집합물이 될 수 있다. 예를 들어, 제1 원천 정보집합물과 제2 원천 정보집합물이 '홍길동', '29', '200101-112233', '010-2222-3333'와 같은 서로 동일한 객체에 대한 실제 값을 가지더라도, 제1 원천 정보집합물에서 해당 객체에 대한 변수들의 용어가 '이름', '나이', '주민등록번호', '전화번호'이고, 제2 원천 정보집합물에서 해당 객체에 대한 변수들의 용어가 '이름', 'age', '주민등록번호', '전화번호'인 경우 제1 원천 정보집합물과 제2 원천 정보집합물은 서로 다른 원천 정보집합물로 분류된다.For reference, the source information set is an information set before standardization, and may be different source information sets if the names of variables expressing the same data value (actual value) are different. However, even different source information sets can become the same information sets through standardization. For example, the first source information set and the second source information set have actual values for the same object, such as 'Gildong Hong', '29', '200101-112233', and '010-2222-3333'. However, in the first source information set, the terms of the variables for the object are 'name', 'age', 'resident registration number', and 'phone number', and in the second source information set, the terms of the variables for the object are In the case of 'name', 'age', 'resident registration number', and 'phone number', the first source information set and the second source information set are classified as different source information sets.

도 3에 도시된 바와 같이, S120 과정에서, 시스템은 정보집합물의 사용환경을 표준화할 수 있다. As shown in FIG. 3 , in step S120 , the system may standardize the use environment of the information set.

시스템은 정보집합물의 사용환경의 표준화 정보를 정보집합물의 취급자의 입력, 저장부(), 또는 통신부()로부터 획득할 수 있다. 정보집합물의 사용환경은 정보집합물이 이용 및 활용되는 처리 과정의 모든 요소를 포함할 수 있다. The system may obtain standardization information of the usage environment of the information set from the input of the handler of the information set, the storage unit ( ), or the communication unit ( ). The use environment of the information set may include all elements of the processing process in which the information set is used and utilized.

가명정보 내의 존재하는 특정 정보주체는 정보집합물을 이용하는 사용자의 배경지식에 의해 재식별되거나 가명정보와 함께 사용되는 다른 정보집합물에 의해 재식별될 가능성이 있다. 그러므로, 본 발명은 가명정보가 사용되는 사용환경을 표준화함으로써, 가명정보로부터 정보주체의 재식별 가능성을 통제할 수 있다.A specific data subject existing in the pseudonymous information may be re-identified by the background knowledge of the user using the data set or by other data sets used together with the pseudonymous information. Therefore, the present invention can control the possibility of re-identification of data subjects from pseudonymous information by standardizing the usage environment in which pseudonymous information is used.

정보집합물의 사용환경의 표준화는 정보집합물에 대한 민감도 수준의 표준화, 사용자 수준의 표준화, 정보집합물의 사용시 정보보호 수준의 표준화를 포함할 수 있다. Standardization of the use environment of information aggregates may include standardization of sensitivity level for information aggregates, standardization of user level, and standardization of information protection level when using information aggregates.

정보집합물에 대한 민감도 수준이란 가명정보의 원천데이터인 정보집합물의 민감도를 평가하는 방법을 표준화하여 등급화된 수준을 말하며, 가명처리 대상이 되는 정보집합물의 생성시기, 취급 정보주체 수, 시계열 등의 데이터 형태, 고유식별자와 준식별자 존재 등을 종합적으로 평가한 수준을 포함할 수 있다.Sensitivity level for information sets refers to the standardized and graded level of evaluation of the sensitivity of information sets, the source data of pseudonymized information. It can include the level of comprehensive evaluation of the data type of the data type, the existence of unique identifiers and quasi-identifiers, etc.

또한, 사용자 수준은 사용자의 데이터 관련 능력을 등급화한 수준을 말하며, 정보집합물을 이용하는 사용자의 데이터 분석 능력으로, 구체적으로 데이터 사이언티스트, DBA 등 전문가와 영업자료 활용 등 단순 업무처리자 등으로 구분한 수준을 포함할 수 있다. In addition, the user level refers to the level at which the user's data-related abilities are graded, and is the user's data analysis ability using information sets. level may be included.

저장부()는 정보집합물을 사용할 사용자들에 대한 저장정보를 저장할 수 있다. 시스템은 저장부()에 저장된 사용자들에 대한 정보에 기초하여 사용자 수준을 표준화할 수 있다. 예를 들어, 사용자들에 대한 저장정보는 사용자의 기술영역, 직업, 전문가 여부, 기업유무, 기업 형태, 업무영역 등에 기초하여 분류된 복수의 사용자 수준들에 대한 정보를 포함할 수 있다. 시스템은 정보집합물을 사용할 사용자 정보를 입력 받으면, 사용자에 대한 저장정보와 대비하여 해당 사용자의 사용자 수준을 결정할 수 있다. The storage unit ( ) may store stored information about users who will use the information set. The system may standardize the user level based on the information about the users stored in the storage unit ( ). For example, the stored information about users may include information on a plurality of user levels classified based on the user's technical area, occupation, expert status, existence of a company, company type, work area, and the like. When the system receives user information to use the information set, it can determine the user level of the corresponding user in comparison with the stored information about the user.

또한, 정보보호 수준은 사용자 및 비인가자를 통제하기 위하여 등급화한 수준을 말하며, 정보집합물을 대상으로 접근통제, 사용 이력 수집 분석 등 내부의 정보를 보호하기 위해 기술적, 물리적, 관리적 정보보호를 평가한 수준을 포함할 수 있다. In addition, the information protection level refers to the level graded to control users and unauthorized persons, and technical, physical, and administrative information protection is evaluated to protect internal information such as access control and usage history collection analysis targeting information sets. It can contain one level.

저장부()는 정보집합물을 사용할 때 개인정보의 보호수준에 대한 저장정보를 저장할 수 있다. 시스템은 저장부()에 저장된 보호수준에 대한 정보에 기초하여 개인정보의 보호수준을 표준화할 수 있다. 예를 들어, 정보집합물의 사용시 보호수준에 대한 저장정보는 정보집합물을 대상으로 접근통제, 사용 이력 수집 분석 등 내부의 정보를 보호하기 위해 기술적, 물리적, 관리적 정보보호를 평가한 수준에 대한 정보를 포함할 수 있다. 시스템은 정보집합물을 입력 받으면, 보호수준에 대한 저장정보와 대비하여 해당 정보집합물의 사용시 보호수준을 결정할 수 있다. The storage unit ( ) may store stored information about the protection level of personal information when using the information set. The system can standardize the protection level of personal information based on the information about the protection level stored in the storage unit ( ). For example, information stored on the level of protection when using an information set is information about the level of evaluation of technical, physical, and administrative information protection to protect internal information such as access control and usage history collection and analysis targeting the information set. may include. When the system receives an information set, it can determine the protection level when using the information set in comparison with the stored information about the protection level.

S200 과정에서, 시스템은 위험(리스크)을 획득할 수 있다. 위험을 획득하는 과정(S200)은 사용환경을 획득하는 과정(S210)과 위험의 등급을 결정하는 과정(S220)을 포함할 수 있다. In the process S200, the system may acquire a risk (risk). The process of acquiring a risk (S200) may include a process of acquiring a use environment (S210) and a process of determining a risk level (S220).

S210 과정에서, 시스템은 사용환경을 측정하기 위하여 정보집합물의 민감도, 사용자 수준, 보호수준에 대한 정보들 중 적어도 하나를 정보집합물의 취급자의 입력 혹은 저장부()로부터 획득할 수 있다. 정보집합물이 사용될 환경이란 가명정보 내의 개인정보들의 민감도 수준, 정보집합물을 실제 사용하는 사람들의 대한 수준, 가명정보에 접근성 혹은 사용권한에 대한 정보에 따라서 조성되고, 가명정보가 사용되는 환경을 의미한다. In step S210 , the system may acquire at least one of information on the sensitivity, user level, and protection level of the information set from the input of the handler of the information set or the storage unit ( ) in order to measure the use environment. The environment in which the information set will be used is created according to the level of sensitivity of personal information in pseudonymous information, the level of people who actually use the information set, and information on access or use rights to pseudonymous information, and the environment in which pseudonymous information is used. it means.

S220 과정에서, 시스템은 위험의 등급을 결정할 수 있다. 시스템은 획득된 사용환경에 대한 정보에 기초하여 위험 점수 혹은 위험의 등급을 결정할 수 있다. 시스템은 앞서 측정한 개인정보들의 민감도 수준, 가명정보를 사용하는 사용자 수준, 가명정보에 대한 보호 수준 중 적어도 하나를 S120 과정에서 표준화한 사용환경의 민감도 수준, 사용자 수준, 보호 수준과 대비하여 사용환경에 대한 위험도를 결정할 수 있다. In step S220 , the system may determine the level of risk. The system may determine a risk score or a risk class based on the obtained information about the use environment. The system compares the sensitivity level, user level, and protection level of the user environment standardized in the S120 process by at least one of the previously measured sensitivity level of personal information, the user level using pseudonymous information, and the level of protection against pseudonymous information. can determine the level of risk.

또한, S300 과정에서, 시스템은 가명처리를 수행할 수 있다. 가명처리를 수행하는 과정(S300)은 정보집합물에 대한 처리 수준을 결정하는 과정(S310)과, 가명처리를 수행하는 과정(S320)을 포함할 수 있다. Also, in step S300 , the system may perform pseudonymization. The process of performing pseudonymization processing ( S300 ) may include a process of determining a processing level for the information set ( S310 ) and a process of performing pseudonymization processing ( S320 ).

S310 과정에서, 시스템은 획득한 사용환경 자체 혹은 위험 점수(등급)에 기초하여 정보집합물에 대한 처리 수준에 대한 정보를 결정할 수 있다. 정보집합물에 대한 처리 수준에 대한 정보는 기본 처리 수준에 대한 정보와, 가중치 수준의 정보를 포함할 수 있다. In step S310, the system may determine information on the processing level of the information set based on the acquired use environment itself or the risk score (grade). The information on the processing level for the information set may include information on the basic processing level and information on the weight level.

기본 처리 수준에 대한 정보는 개인정보(데이터의 실제 값)를 가명처리하기 위해 매핑정보를 포함할 수 있다. 이 경우 개인정보는 준식별자에 해당하는 정보일 수 있다. 매핑정보은 특정한 변수의 데이터 혹은 특정한 데이터 구조(유형, 특성)를 특정한 형태의 다른 데이터로 변경시킬 수 있는 정보를 포함한다. 즉, 기본처리 수준에 대한 정보는 개인정보를 추가정보를 사용하지 않고는 재식별이 불가능하게 가명처리하는 방법에 대한 정보를 포함한다. Information on the basic processing level may include mapping information to pseudonymize personal information (actual value of data). In this case, the personal information may be information corresponding to a quasi-identifier. The mapping information includes information that can change data of a specific variable or a specific data structure (type, characteristic) into other data of a specific type. That is, the information on the basic processing level includes information on how to pseudonymize personal information so that re-identification is impossible without using additional information.

일 예로, 생년월일에 대한 기본 처리 수준에 대한 정보는 생년월일에 대한 데이터가 '110101', '990112', '031212'인 경우 앞의 2자리를 기초로 각각 '2011년생', '1999년생', '2003년생'을 도출할 수 있는 정보 내지 알고리즘을 포함할 수 있다. For example, information on the basic processing level for the date of birth is '2011', 'Born in 1999', 'based on the first two digits when the data on the date of birth is '110101', '990112', and '031212', respectively. It may include information or algorithms capable of deriving 'born in 2003'.

가중치 수준의 정보는 개인정보에 적용되는 기본 처리 수준에 부가적으로 적용되는 가중치를 의미한다. 가중치 수준의 정보는 획득한 사용환경 혹은 위험 등급에 따라 부가적으로 적용될 수 있다. 예를 들어, 가중치 수준의 정보는 위험 등급에 따라서 특정한 개인정보에 적용되는 가명 정도의 가중치를 올려서 비식별정도를 증가시킬 수 있으며, 가중치를 내려서 식별정도를 증가시킬 수 있는 정보를 포함할 수 있다. The weight level information means a weight additionally applied to the basic processing level applied to personal information. Weight level information may be additionally applied according to the acquired use environment or risk level. For example, the weight level information may include information that can increase the degree of identification by increasing the weight of the pseudonym applied to specific personal information according to the risk level, and lower the weight to increase the degree of identification. .

시스템은 위험 등급에 따라 정보집합물에 대한 가명처리 수준을 결정할 수있다. The system can determine the level of pseudonymization for the dataset according to the risk class.

일 예로, 시스템은 위험 등급에 따라 특이치 제거 처리수준을 결정할 수 있다 구체적으로, 연속형의 숫자는 정규분포 형태를 띠며 이 경우 시그마 분포에 들어있는 특이치를 제거하는데, 3시그마 분포는 가장 낮은 위험한 경우 제거하고, 2시그마는 중간 위험한 경우 제거하고, 1시그마는 가장 위험한 경우 제거하도록 처리할 수 있다. 시스템은 정규분포의 시그마 분포에 따라 위험 등급을 결정할 수 있으며, 결정된된 위험 등급에 따라서 특이치 데이터를 제거할 수 있다.As an example, the system may determine the level of removal of outliers according to the risk class. Specifically, continuous numbers have a normal distribution, and in this case, outliers in the sigma distribution are removed, and the 3 sigma distribution is the lowest risk. It can be treated to remove cases, 2 sigma is removed for medium risk, and 1 sigma is removed for the most dangerous case. The system can determine the risk class according to the sigma distribution of the normal distribution, and can remove outlier data according to the determined risk class.

다른 일 예로, 시스템은 위험 등급에 따라 차등 개인정보보(Differential Privacy)의 민감도 생성 수준을 결정할 수 있다. 민감도 생성 수준은 간접식별자들을 묶어서 동일한 정보(K-익명성의 K값)들로 구성된 클래스를 형성할 때 클래스를 구성하는 요소들의 숫자를 기준(평균 또는 특정 K값)으로 할 수 있다. 시스템은 민감도 생성 수준에 기초하여 위험 등급에 따른 차등 개인정보보호의 정도르 결정할 수 있다.As another example, the system may determine the sensitivity generation level of differential privacy according to the risk level. The sensitivity generation level can be based on the number of elements constituting the class (average or specific K value) when forming a class composed of the same information (K-anonymity K value) by grouping indirect identifiers. The system may determine the degree of differential privacy protection according to the risk class based on the sensitivity generation level.

S320 과정에서, 시스템은 가명처리를 수행할 수 있다. 시스템은 가명처리 시에 개인정보의 최소처리원칙을 준수하기 위하여 처리환경, 사용환경, 처리 목적, 정보의 성격 등에 관한 정보에 기초하여 정보집합물에 대한 가명처리를 수행하여 가명정보를 생성할 수 있다. 시스템은 기본 처리 수준에 대한 정보와 가중치 수준의 정보에 기초하여 정보집합물에 대한 가명처리를 수행하여 가명정보를 생성할 수 있다.In step S320, the system may perform pseudonymization. The system can generate pseudonymous information by performing pseudonymization on the information set based on information about the processing environment, usage environment, processing purpose, nature of information, etc. have. The system may generate pseudonym information by performing pseudonymization on the information set based on the information on the basic processing level and the weight level information.

가명정보란 개인정보를 가명처리 함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용ㆍ결합 없이는 특정 개인을 알아볼 수 없는 정보를 의미한다. 가명처리란 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보가 없이는 특정 개인을 알아볼 수 없도록 처리하는 것을 의미한다. Pseudonymized information means information that cannot identify a specific individual without the use or combination of additional information to restore the original state by pseudonymizing personal information. Pseudonymization refers to processing a specific individual so that it cannot be identified without additional information, such as by deleting part of personal information or replacing part or all of it.

가명처리 방식으로는 휴리스틱 가명화, 암호화, 교환 방법이 있다. 휴리스틱 가명화는 식별자에 해당하는 값을 기 설정된 규칙에 따라 가공해 개인정보를 숨긴다. 암호화는 일정한 규칙의 알고리즘을 적용해 암호화함으로써 개인정보를 대체하는 방법이다. 교환은 기존의 데이터베이스의 레코드를 사전에 정해진 외부 변수(항목)값과 연계해 바꾸는 방법이다. 가명처리의 방식은 정보집합물에 대한 처리 수준에 대한 정보에 의해서 결정될 수 있다. There are heuristic pseudonymization, encryption, and exchange methods as pseudonymization methods. Heuristic pseudonymization hides personal information by processing the value corresponding to the identifier according to a preset rule. Encryption is a method of replacing personal information by encrypting it by applying an algorithm of a certain rule. Exchange is a method of replacing records in an existing database by linking them with predetermined external variable (item) values. The method of pseudonymization can be determined by the information on the processing level for the information set.

또한, S400 과정에서, 시스템은 가명처리 후에 가명정보를 검토할 수 있다. 가명처리된 가명정보를 검토하는 과정(S400)은 가명정보에 대한 적정성 검토 및 추가적인 가명처리를 수행하는 과정(S410)과 가명정보에 대한 사후관리를 수행하는 과정(S420)을 포함할 수 있다. Also, in step S400 , the system may review the pseudonym information after the pseudonymization process. The process of examining the pseudonymized pseudonym information (S400) may include a process of reviewing the adequacy of the pseudonym information and performing additional pseudonymization processing (S410) and a step of performing follow-up management of the pseudonymous information (S420).

S410 과정에서, 시스템은 가명정보가 목적달성을 위해 적절한 수준으로 가명처리가 이루어졌는지 검토할 수 있으며, 정보주체에 대한 재식별 가능성이 없는지 판단할 수 있다. 시스템은 정보주체에 대한 재식별 가능성이 있다면, 리스트 등급의 상향 조절하여 추가적인 가명처리를 수행할 수 있다. 이로써, 특정주체에 대한 재식별 위험을 최소화하고, 취약점을 보완할 수 있다. In step S410, the system may review whether pseudonymization has been performed at an appropriate level for the purpose of the pseudonymous information, and may determine whether there is any possibility of re-identification of the data subject. If there is a possibility of re-identification of the data subject, the system can perform additional pseudonymization by raising the list level. In this way, it is possible to minimize the risk of re-identification of a specific subject and to compensate for weaknesses.

S420 과정에서, 시스템은 S410 과정의 검토결과로 정보주체에 대한 재식별 가능성이 없어서 적정으로 판단된 경우에 가명정보에 대한 실사용 정보를 획득하여 기 설정된 기준과 대비하여 가명정보에 대한 실사용에 문제 여부를 판단할 수 있다. 기설정된 기준은 개인정보보호법 등과 관련된 법령을 준수하기 위해 가명정보를 사용하는 기술적 기준, 가명정보를 사용하는 사용자의 관리적 기준, 가명정보가 사용되는 환경등의 물리적 기준을 포함할 수 있다. In step S420, when it is determined that it is appropriate because there is no possibility of re-identification of the data subject as a result of the review in step S410, the system acquires actual use information for pseudonym information and compares it with a preset standard for actual use of pseudonym information. You can determine if there is a problem. The preset standards may include physical standards such as technical standards for using pseudonymous information to comply with laws related to the Personal Information Protection Act, administrative standards for users using pseudonymous information, and the environment in which pseudonymous information is used.

본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.Although the present invention has been described with reference to the embodiment shown in the drawings, which is merely exemplary, those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. Accordingly, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.

표준화부(100)
위험 측정부(200)
가명처리부(300)
검토부(400)
standardization unit (100)
Risk measurement unit (200)
pseudonym processing unit (300)
review unit 400

Claims (5)

사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법에 있어서,
원천 정보집합물을 획득하는 과정;
상기 원천 정보집합물의 변수를 획득하는 과정;
상기 원천 정보집합물의 변수에 대한 대표명칭을 확인하는 과정;
상기 원천 정보집합물의 변수에 대한 개인정보유형을 확인하는 과정;
상기 개인정보유형 별로 결정되는 가명처리 기법을 포함하는 가명처리 수준에 대한 정보를 확인하는 과정;
상기 원천 정보집합물의 변수를 상기 대표명칭으로 변경하기 위한 개인정보의 메타데이터를 획득하는 과정;
상기 원천 정보집합물의 변수의 데이터 값을 획득하는 과정;
상기 개인정보의 메타데이터를 이용하여 상기 변수의 데이터 값에 기초해 상기 원천 정보집합물의 변수에 대한 대표명칭을 획득하는 과정; 및
상기 원천 정보집합물의 변수가 상기 대표명칭으로 변경된 정보집합물을 획득하는 과정을 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법.
In the control method of the system for pseudonymizing the information set according to the risk to the use environment,
the process of acquiring the source information set;
obtaining a variable of the source information set;
a process of confirming a representative name for a variable of the source information set;
a process of confirming the personal information type for the variable of the source information set;
a process of confirming information on a level of pseudonymization including a pseudonymization processing technique determined for each type of personal information;
obtaining metadata of personal information for changing the variable of the source information set to the representative name;
obtaining a data value of a variable of the source information set;
obtaining a representative name for the variable of the source information set based on the data value of the variable using the metadata of the personal information; and
A method of controlling a system for pseudonymizing an information set according to a risk to a use environment, comprising acquiring an information set in which the variable of the source information set is changed to the representative name.
제1항에 있어서,
상기 원천 정보집합물의 변수에 대한 대표명칭이 없는 경우, 상기 원천 정보집합물의 변수에 대한 새로운 대표명칭을 생성하는 과정을 더 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법.
According to claim 1,
When there is no representative name for the variable of the source information set, the system for processing the information set according to the risk to the use environment as a pseudonym, further comprising the step of generating a new representative name for the variable of the source information set control method.
제1항에 있어서,
상기 원천 정보집합물의 변수에 대한 개인정보유형이 없는 경우, 상기 원천 정보집합물의 변수에 대한 새로운 개인정보유형을 생성하는 과정을 더 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법.
According to claim 1,
When there is no personal information type for the variable of the source information set, the process of generating a new personal information type for the variable of the source information set further comprises the process of pseudonymizing the information set according to the risk to the use environment How to control the system.
제1항에 있어서,
상기 가명처리 수준에 대한 정보 내에 특정한 개인정보유형에 대한 가명처리 수준에 대한 정보가 없는 경우, 상기 특정한 개인정보유형에 대한 새로운 가명처리 수준에 대한 정보를 생성하는 과정을 포함하는, 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템의 제어방법.
According to claim 1,
If there is no information on the level of pseudonymization for a specific type of personal information in the information on the level of pseudonymization, including the process of generating information on a new level of pseudonymization for the specific type of personal information, A control method of a system that pseudonymizes information sets according to risk.
삭제delete
KR1020200159176A 2020-11-24 2020-11-24 A pseudonymization system for data-set according to risks to an environment and a control method thereof KR102418984B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200159176A KR102418984B1 (en) 2020-11-24 2020-11-24 A pseudonymization system for data-set according to risks to an environment and a control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200159176A KR102418984B1 (en) 2020-11-24 2020-11-24 A pseudonymization system for data-set according to risks to an environment and a control method thereof

Publications (2)

Publication Number Publication Date
KR20220072113A KR20220072113A (en) 2022-06-02
KR102418984B1 true KR102418984B1 (en) 2022-07-12

Family

ID=81985228

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200159176A KR102418984B1 (en) 2020-11-24 2020-11-24 A pseudonymization system for data-set according to risks to an environment and a control method thereof

Country Status (1)

Country Link
KR (1) KR102418984B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102509748B1 (en) * 2022-11-28 2023-03-14 (주)씨앤노마드 System for providing pseudonymization processing service using metadata and deeplearning security control

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102348812B1 (en) 2015-03-09 2022-01-07 삼성전자주식회사 User information processing method and electronic device supporting the same

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
‘개인정보의 비식별 처리’, 미국 국립표준 기술연구소, NISTIR 8053, 2015.10.
김양호 외 2인, ‘메타데이터를 활용한 개인정보 처리에 대한 의사결정 모델’, Journal of The Korea Institute of Information Security & Cryptology, VOL.26, NO.1, Feb. 2016.
이창범, ‘가명정보에 있어서 "다른 정보"와 "추가 정보"의 차이 및 가명처리의 대상과 범위’, 2020 KISA REPORT, VOL.5, 2020.05. pp.42-51.

Also Published As

Publication number Publication date
KR20220072113A (en) 2022-06-02

Similar Documents

Publication Publication Date Title
JP6814017B2 (en) Computer implementation systems and methods that automatically identify attributes for anonymization
CN108509485B (en) Data preprocessing method and device, computer equipment and storage medium
Hazel et al. Who knows what, and when: a survey of the privacy policies proffered by US direct-to-consumer genetic testing companies
US10372733B2 (en) Systems and methods for secure storage of user information in a user profile
Hacker A legal framework for AI training data—from first principles to the Artificial Intelligence Act
US11080423B1 (en) System for simulating a de-identified healthcare data set and creating simulated personal data while retaining profile of authentic data
EP3640832A1 (en) Consent-based data privacy management system
JP7545010B2 (en) System and method for contextual data masking for private and secure data links
US20160306999A1 (en) Systems, methods, and computer-readable media for de-identifying information
CN108885673A (en) For calculating data-privacy-effectiveness compromise system and method
CN113420018A (en) User behavior data analysis method, device, equipment and storage medium
JP2023512338A (en) Context-driven data profiling
Sáinz-Pardo Díaz et al. A Python library to check the level of anonymity of a dataset
KR102418984B1 (en) A pseudonymization system for data-set according to risks to an environment and a control method thereof
JP7154884B2 (en) Information anonymization method, information anonymization program, information anonymization device, and information providing system
CN115081447A (en) Method, device and equipment for constructing requirement document of software development and storage medium
Fernandes Synthetic data and re-identification risks
JP7121276B2 (en) DATA MANAGEMENT LEVEL DETERMINATION PROGRAM AND DATA MANAGEMENT LEVEL DETERMINATION METHOD
US12086285B1 (en) Data subject request tiering
JP6550931B2 (en) Detection method, detection device and detection program
US20240070323A1 (en) Method and system for modelling re-identification attacker's contextualized background knowledge
CN118504036B (en) Enterprise data desensitization management and control method, device, equipment and readable storage medium
Chetty Privacy preserving data anonymisation: an experimental examination of customer data for POPI compliance in South Africa
CN112613902B (en) Method and system for establishing user portrait
US12061722B1 (en) Systems and methods for managing personal data using client ledgers

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant