네이버 디지털 트랜스포메이션, AI, 빅테이터 - 5 - Big data
본문 바로가기
회사이야기/회사·취업이야기

디지털 트랜스포메이션, AI, 빅테이터 - 5 - Big data

by 핑포 2020. 11. 10.

 

1, 데이터의 종류

 

- 정형 데이터 : 그래프, 스프레드 시트, 테이블 등, 수치만으로 의미 파악이 쉽거나 규칙적인 값

 

- 비정형 데이터 : 구조가 정해져 있지 않고, 의미를 파악하기 힘듦, 그림,음성, 동영상, 음악 등의 형태

 

- 반정형 데이터 : 데이터의 구조에 대한 메타 데이터는 존재하지만, 구조데이터가 따로 분리되어 있지 않음.

                      HTML, XML, 로그 데이터


2. 정형 데이터

 

- 잘 정리되어 분석하기 쉽고 단순한 형태로 되어있는 전통적인 데이터

 

- 연속형 데이터 : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터

                     (구간형, 실수형, 수치형) , 풍속, 지속시간 등

 

- 이산형 데이터 : 횟수와 같은 정수 값만을 데이터 

                    (정수형, 횟수 데이터) 시간의 발생 빈도 등

 

- 범주형 데이터 : 가능한 범주 안의 값만을 취하는 데이터, 순서는 없지만 셀 수 있는 특성을 가짐

                     (목록, 명부 등 다항형 데이터) 혈액형, 도시명 등

 

- 순서형 데이터 : 값들 사이에 순위가 있는 범주형 데이터

                     만족도 평가, 평점 등

 

데이터 구분


3. 반정형 데이터

 

- XML, HTML 등 논리적 구조와 형태는 있으나 연산이 불가능한 데이터

 

-일반적으로 파일 현태로 저장됨


4. 비정형 데이터

 

- 텍스트, 이미지, 영상 등의 형태와 구조가 정해지지 않고 연산이 불가능한 데이터

 

- 기업의 데이터 80%이상이 비정형 데이터였으나, 과거에는 기술의 한계로 분석이 불가능

 

- 인터넷/스마트폰 보급으로 비정형데이터의 양이 증가 하였으며, 기술의 발달로 비정형 데이터 분석이 가능해지기 시작하면서, 핵심 데이터로 부상중

 


5. 데이터의 수집

 

- 서비스 활용에 필요한 데이터를 시스템의 내외부에서 주기적으로 필요한 형태로 수집하는 활동

 

- 데이터 수집방법

데이터 선정 : 수집 데이터 도출, 목록 작성

데이터 수집 계획 : 데이터 유형 분류, 수집 방법 도출

데이터 수집 : 사전 테스트 실행, 데이터 수집, 수집 데이터 검증

 

- 데이터 수집 기술

크롤링 : 웹 페이지를 그대로 가져와 데이터를 추출 ( SNS, 인터넷 등)

센싱 : 센서를 통한 데이터 수집

RSS reader :  XML 기반 컨텐츠 수집

스쿱 : 전송 프로세스를 자동화하여 대용량의 데이터를 수집, 하둡(대용량 데이터 분석프로그램)으로 전송 (정형 데이터 수집)

로그 수집 : 웹로그, 트랜잭션 로그, 클릭 로그 등의 데이터 수집 ( 비/반정형 데이터 수집)


6. 빅데이터의 정의

 

- 5V + 2V

규모(Volume) : 용량이 큼, 테라바이트 이상

다양성 (Variety) : 정형, 비정형의 다양한 데이터, 수치화가 힘든 데이터

속도 (Velocity) : 데이터의 생성속도가 빠름, 데이터를 빠르게 처리해야함.

신뢰성(Veracity) : 데이터에 대해 신뢰할 수 있어야 함. 정보의 양이 많아지는 만큼 데이터의 신뢰성이 떨어지기 쉽기 때문에 데이터 노이즈 검증 필요

가치(Value) : 분석을 통해 도출된 결론은 통찰력 있는 유용한 정보를 제공해 문제해결에 도움이 되어야 함.

 

휘발성 (Volatility) : 데이터가 얼마나 오래 쓸 수 있는가(시간이 지나면 의미가 없어지는 지), 활용성 제고, 장기적 관점

타당성 (Validity) : 결정을 내리는 데 중요, 데이터 자체가 어울리는 지의 의미


7. 빅데이터의 정의

 

- 빅데이터는 병렬 컴퓨팅이 필요할 정도의 큰 데이터 셋

 

- 비정형화된 데이터에 초점을 맞춤

 

- 비즈니스 혹은 연구에서 유용한 가치를 창출해야 한다.

 

- 타당성과 신뢰성이 확보되어야 함.

 

- 장기간 활용에 초점

 

*빅데이터는 획기적이고 새로운 것이 아니다.

 

이메일, PDF, TEXT, 워드 , RFID,  GPS, 웹 로그, 사진, 위성, SNS 등


8. 빅데이터의 출현 배경

 

(1)하드웨어의 발달

- 저장매체, CPU, 네트워크 등의 하드웨어의 성능이 향상되고, 가격 또한 크게 하락

 

(2) 분석 기술의 고도화

- 기존 기술로는 분석 할 수 없는 비정형 데이터들을 수집, 저장/분류, 분석할 수 있게 됨

 

(3) 데이터 발생의 가속

- 스마트폰과 SNS 의 확산, IOT, 센서의 증가로 새로운 형태의 데이터 발생 가속

 

* 엑사바이트, 제타바이트 급의 초대용량의 빅데이터들을 수집, 저장, 분석, 불러오기 가능해짐


9. 전통 데이터와 빅데이터의 비교


10. 빅데이터 활용 사례 (자라)

 

- 무재고 운영 시스템

 

- RFID 도입 + 데이터 수집 + 데이터 분석 + 재고 최적화

 

- 데이터수집

POS 단말기, 전자상거래 판매, 고객 조사, PDA 기기, RFID 태그 정보 수집

판매하는 모든 옷에 RFID 부착, 재고상태, 자주 입어보는 상품, 선호도 파악

인스타그램, 설문조사, 온라인 소셜 미디어로부터 패션 민감도에 대한 데이터 수집

 

- 데이터 기반 생산 전략

빅데이터 분석에 기반한 제품 기획

예측 수요와 실제 수요의 Gap 최소화를 위하여 in-house 자체 생산 물량의 15%만 사전 생산

고객 반응에 따른 추가 생산 혹은 제품 교체 및 디자인 변경 (1~2주 주기)

 

-효과

할인 판매 감소

제품 재고율 하락

신제품 실패율 1%미만


11. 빅데이터 활용사례 (자동차 보험)

 

-자동차 보험 효율화

 

- 주행 데이터 + 데이터 수집 + 분석 + 신상품 개발

 

- 데이터 수집 및 분석

차량의 OBD, 스마트폰의 GPS 등의 단말기를 통해 운전자의 운전 패턴에 대한 데이터를 수집 

수집된 데이터를 통해 시간대, 동승자, 운전 습관에 따른 사고율 분석

 

-운전습관연계 보험상품

고객의 주행 데이터를 바탕으로 사고율 산출 및 고객 등급 적용

안전 등급 고객을 대상으로 할인 적용

 

- 효과

고객의 안전 운전 유도 -> 사고율 감소 -> 보험사 손해율 감소

데이터를 바탕으로 한 기초 보험료 자동화

보험료 할인

데이터에 기반한 합당한 기초 보험료 산정


12. 빅데이터 활용사례 (닐슨)

 

-핵심 인재 유치를 위한 제도

 

- 핵심인재 감소 + 데이터수집 분석 + 직무이동 확대 + 근속년수 증가

 

- 데이터 수집

나이,성별,근속기한, 고과 등 20개의 데이터 수집

휴가, 권한 범위 등 추가 데이터 분석

 

- 결과

입사 후 1년차의 경험이 이직의 핵심 요인

승진 , 부서 이동이 근속년수를 높이는데 기여하는 것을 확인, 40%의 인원을 새로운 업무로 이동

 

- 신규제도 신설

Golen year : 1년차 신규 입사자 밀착관리

Ready to rotate : 구성원의 직무 이동 활성화, 근속확률 40% 증가

 


13. 빅데이터 유의점

 

- 개인정보 관리 규정 확립, 데이터 보안/오남용을 주의해야 함

댓글