LG CNS ‘서울시민 라이프스타일 재현 데이터’ 생성
‘서울시민 금융 현황’과 ‘서울시민 소비 및 이동 패턴’ 분석
| 김정인 기자 kji01@newspim.com
서울시민의 라이프스타일은 국내 산업계를 좌지우지합니다. 특히 기업들은 서울시민의 금융, 소비 패턴 등을 분석해 새로운 비즈니스 기회를 창출하기도 합니다. 다만 정보 수집의 제한성, 개인정보 유출 우려 등에서 애로 사항이 있었습니다. 앞으로는 LG CNS의 기술력을 바탕으로 누구나 자유롭게 서울시민의 합성 데이터를 활용해 연구·분석이 가능해질 전망입니다.
LG CNS가 서울시민의 생활 특성을 담은 가상의 ‘합성 데이터(재현 데이터)’를 성공적으로 생성해 본격 서비스 제공에 나섰습니다. 합성 데이터는 원본 데이터의 통계적 특성을 유지한, 가상으로 재현된 데이터. 원본 데이터 분석 결과와 유사한 결과를 얻을 수 있도록 설계됩니다. 가명 정보와 함께 데이터 개인정보 이슈를 해결할 수 있는 방법 중 하나로 꼽히기도 합니다.
LG CNS는 주민등록자료, 건축물대장, 민간 3사(신용정보회사·카드사·통신사)의 정보로 제작된 가명 결합 데이터를 기반으로 합성 데이터를 생성했습니다. 이 합성 데이터는 원본 데이터의 통계적 특성을 유지하면서도 개인식별 위험 없이 데이터의 활용 가치를 유지하는 것이 가장 큰 특징입니다.
또 결합된 가명 정보를 기반으로 합성 데이터를 생성함으로써 데이터의 활용성과 안전성을 한층 강화했습니다. 가명 정보는 안전하고 유용한 개인정보 활용 방안임에도 불구하고 정해진 목적과 제한된 취급자만 정보를 활용할 수 있는 제약이 있었습니다. 이번에 LG CNS가 생성한 서울시 합성 데이터는 충분한 안전성을 확보해 누구나 자유롭게 활용 가능합니다. 서울시 합성 데이터를 활용해 유관기관들은 정책연구 사전설계를, 시민들은 데이터 분석 실습 등을 더욱 활발하게 진행할 수 있습니다.
LG CNS는 유스케이스(Use-Case) 설계부터 정교한 데이터 샘플링, 합성 데이터 생성 모델 개발, 전·후처리 과정 등을 통해 대규모의 고품질 합성 데이터를 생성했습니다. ‘서울시민 라이프스타일 재현 데이터’는 범주형 데이터와 수치형 데이터가 공존하는 정형 데이터입니다. ‘서울시민 금융 현황’과 ‘서울시민 소비 및 이동 패턴’ 등 두 가지 주제의 데이터 세트로 제공돼 활용 가치가 높습니다. 서울 동작구 노량진수산시장에서 시민들이 수산물을 구매하고 있다.
‘서울시민 금융 현황’ 데이터의 경우 65개의 변수, 약 740만 건의 합성 데이터로 이뤄져 있습니다. 이 합성 데이터를 활용하고 싶은 기관 및 시민들은 빅데이터캠퍼스에서 △성별 △생년월일 △직업 △추정연소득 △자산금액 △대출잔액 등 65개 변수를 조합해 서울시민의 금융 현황 데이터를 분석하고 인사이트를 얻을 수 있습니다. 예를 들어 서울시민 금융 현황 합성 데이터를 통해 △1인가구의 다인가구 대비 연체 및 대출 통계량 분석 △가구구성원 수 및 세대주 연령대에 따른 주택담보대출 상환비중 분석 △1인가구 자영업자 경제적 부담 분석 등을 진행해 볼 수 있습니다.
앞으로 모든 분야에서 개인정보 보호와 데이터 활용의 중요성이 더욱 커지고 있는 가운데 LG CNS의 가명 정보 결합과 합성 데이터를 활용해 새로운 비즈니스 기회가 창출될 수 있을지 주목됩니다.