데이터 매핑

Data mapping

컴퓨팅 및 데이터 관리에서 데이터 매핑은 두 개의 서로 다른 데이터 모델 간에 데이터 요소 매핑을 만드는 프로세스입니다.데이터 매핑은 다음과 [1]같은 다양한 데이터 통합 태스크의 첫 번째 단계로 사용됩니다.

  • 데이터 원본과 대상 간의 데이터 변환 또는 데이터 조정
  • 데이터 계보 분석의 일부로서 데이터 관계를 특정하다
  • 데이터 마스킹 또는 식별 해제 프로젝트의 일부로서 다른 사용자 ID에 숨겨진 사회보장번호의 마지막 4자리 등 숨겨진 기밀 데이터의 검출
  • 여러 데이터베이스를 하나의 데이터베이스로 통합하고 통합 또는 삭제를 위해 중복된 데이터 열을 식별합니다.

예를 들어, 다른 회사와 구매 및 송장을 송수신하고자 하는 기업은 데이터 매핑을 사용하여 회사의 데이터에서 표준화된 ANSI ASC X12 메시지(예: 구매 주문서 및 송장)에 대한 데이터 맵을 작성할 수 있습니다.

표준

X12 표준은 기업이 업종에 관계없이 다른 회사와 데이터를 교환할 수 있도록 설계된 범용 전자 데이터 교환(EDI) 표준입니다.표준은 공인 표준 위원회 X12(ASC X12)에 의해 유지되며, ANSI(American National Standards Institute)는 EDI에 대한 표준을 설정할 수 있도록 인증을 받았습니다.X12 표준은 ANSI ASC X12 표준이라고 불리는 경우가 많습니다.

W3CR2RLRelational 데이터베이스의 데이터를 Resource_Description_Framework(RDF)로 표현된 데이터에 매핑하기 위한 표준으로 도입했습니다.

미래에는 Resource Description Framework(RDF), Web Ontology Language(OWL), 표준화된 메타데이터 레지스트리 등 시맨틱 웹 언어를 기반으로 하는 툴을 통해 데이터 매핑이 보다 자동으로 처리됩니다.각 애플리케이션이 메타데이터의 게시를 실행했을 경우, 이 프로세스는 고속화됩니다.완전 자동 데이터 매핑은 매우 어려운 문제입니다(의미 변환 참조).

손으로 코딩한 그래픽 매뉴얼

데이터 매핑은 절차 코드를 사용하여 XSLT 변환을 만들거나 실행 가능한 변환 프로그램을 자동으로 생성하는 그래픽 매핑 도구를 사용하여 다양한 방법으로 수행할 수 있습니다.이는 사용자가 한 데이터 세트의 필드에서 다른 데이터 세트의 필드까지 선을 "긋기" 위한 그래픽 도구입니다.일부 그래픽 데이터 매핑 도구를 사용하면 소스 및 대상을 "자동 연결"할 수 있습니다.이 기능은 소스 및 대상 데이터 요소 이름이 동일한지에 따라 달라집니다.변환 프로그램은 SQL, XSLT, Java 또는 C++에서 자동으로 생성됩니다.이러한 종류의 그래픽 도구는 대부분의 ETL(Extract, Transform, and Load) 도구에서 데이터 맵을 입력하여 데이터 이동을 지원하는 주요 수단으로 사용됩니다.예를 들어 SAP BODS 및 Informatica PowerCenter 등이 있습니다.

데이터 중심 매핑

이는 데이터 매핑의 최신 접근법이며, 두 데이터 세트 간의 복잡한 매핑을 자동으로 검출하기 위해 휴리스틱과 통계를 사용하여 두 데이터 소스의 실제 데이터 값을 동시에 평가해야 합니다.이 접근방식은 기판, 연결, 산술, 케이스 스테이트먼트 및 기타 종류의 변환 로직을 검출하는 두 데이터 세트 간의 변환을 찾는 데 사용됩니다.이 접근방식은 검출된 변환 로직을 따르지 않는 데이터 예외도 검출합니다.

시멘틱 맵핑

시멘틱 매핑은 메타데이터 레지스트리를 참조하여 데이터 요소의 동의어를 검색할 수 있다는 점을 제외하고는 데이터 매퍼의 자동 연결 기능과 유사합니다.예를 들어, 소스 시스템은 FirstName을 나열하지만 수신처는 PersonGivenName을 나열하는 경우 이러한 데이터 요소가 메타데이터 레지스트리에 동의어로 나열되면 매핑이 이루어집니다.시멘틱 매핑은 데이터 열 간의 정확한 일치만 검색할 수 있으며 열 간의 변환 논리 또는 예외를 검색하지 않습니다.

데이터 계통은 분석 시스템에서 수집, 처리 및 출력되는 각 데이터의 수명 주기를 추적하는 것입니다.이를 통해 분석 파이프라인에 대한 가시성을 제공하고 오류를 소스로 추적하는 작업을 간소화할 수 있습니다.또한 데이터 흐름의 특정 부분 또는 입력을 재생하여 단계별 디버깅 또는 손실 출력을 재생합니다.실제로 데이터베이스 시스템은 [2]이미 유사한 검증 및 디버깅 과제를 해결하기 위해 데이터 프로벤스라고 불리는 정보를 사용해 왔습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Shahbaz, Q. (2015). Data Mapping for Data Warehouse Design. Elsevier. p. 180. ISBN 9780128053355. Retrieved 29 May 2018.
  2. ^ 데, 수미야루파.(2012).Newt : DISC 시스템에서 계보 기반 재생 및 디버깅을 위한 아키텍처.UC 샌디에이고: b7355202.취득원: https://escholarship.org/uc/item/3170p7zn