상세 컨텐츠

본문 제목

빅데이터와 이에 대한 사례들은 무엇이 있을까?

10분이면 공부하는 AI

by 십분AI 2021. 11. 30. 16:44

본문

 

https://youtu.be/Jd_fK-6dfcI

안녕하세요, 십분AI입니다. 이번 영상은 네번째, AI기술과 사례를 알아보도록 하겠습니다.

 

여러분 빅데이터에 대해서 알고 계시나요?

 

빅데이터란, 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미합니다.

 

크기, 속도, 다양성의 앞글자를 따 3V라고도 불리는 빅데이터의 특징을 살펴보면,

크기는 저장되는 물리적 데이터의 양으로, 빅 데이터를 사용하면 저밀도 비정형 데이터를 대량으로 처리해야 합니다. Twitter 데이터 피드, 웹 페이지나 모바일 앱의 클릭 스트림, 센서 지원 장비와 같이 알려지지 않은 값의 데이터가 여기에 해당될 수 있습니다. 일부 조직의 경우, 데이터 양이 수십 테라바이트 또는 페타바이트가 될 수 있습니다.

속도는 데이터가 얼마나 빨리 수신되고 처리되는가를 나타냅니다. 일반적으로 데이터를 디스크에 기록하는 것보다 메모리로 직접 스트리밍할 때 속도가 가장 빠릅니다. 일부 인터넷 지원 스마트 제품은 실시간으로 작동하기 때문에 실시간 평가 및 조치가 필요합니다.

다양성은 사용 가능한 데이터의 유형 수를 나타냅니다. 전통적인 데이터 유형은 정형화되어 관계형 데이터베이스에 적합했습니다. 빅 데이터의 등장으로 새로운 비정형 유형의 데이터가 나타났습니다. 텍스트, 오디오 및 비디오 같은 비정형 및 반정형 데이터 유형은 의미를 도출하고 메타 데이터를 지원하기 위해 추가로 전처리가 필요합니다.

이러한 세 가지 요소의 측면에서 빅데이터는 기존의 데이터베이스와 차별화됩니다.

 

 빅데이터의 특징은 3V로 요약하는 것이 일반적이지만 최근에는 이 외에도 가치, 정확성, 가변성, 시각화 등이 제시되고 있습니다. 데이터 전체를 파악하고 패턴 분석이 어려워면서 가치의 중요성이 강조되고 있고, 빅데이터를 분석하는 데 있어 기업이나 기관에서 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 생겼고 이에 빅데이터의 새로운 속성인 정확성이 제시되고 있기 때문입니다. 또한, 소셜미디어의 확산으로 자기 의견을 웹을 통해 자유롭게 게시하는 것이 쉬워졌지만 실제로 자신의 의도와는 달리 자기 생각을 글로 표현하게 되면 데이터가 맥락에 따라 의미가 달라진다고 하여 빅데이터의 새로운 속성으로 가변성이 포함되게 되었습니다. 마지막으로, 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무용지물이 될 수 있기 때문에 빅데이터의 정보는 정보의 사용 대상자가 쉽게 이해할 수 있어야 합니다. 이러한 필요성으로 인해 빅데이터의 새로운 속성으로 시각화가 제시되고 있습니다. 앞으로 정보사회가 발전할 수록 이러한 속성들은 더 추가될 것으로 전망됩니다.

 

  전통적인 데이터와 빅데이터의 특징을 비교해보겠습니다. 전통적 데이터는 전통적 정보 서비스, 빅데이터는 일상화된 정보 서비스가 데이터 원천입니다. 업무와 효율성이 목적인 전통적 데이터와 달리 빅데이터는 사회적 소통, 자기표현, 사회 기반 서비스를 목적으로 합니다. 또한 생성 주체를 보면, 전통적 데이터는 정부와 기업 같은 조직이고, 빅데이터는 개인 및 시스템을 주체로 하고 있습니다. 데이터 유형을 보면, 각각 정형 데이터, 조직 내부 데이터(고객 정보, 거래 정보 등), 비공개 데이터를 사용하고 (전통적 데이터), 비정형 데이터(사용자 데이터, 센서 데이터, 응용 프로그램 데이터 등), 조직 외부 데이터, 일부 공개 데이터를 사용합니다(빅데이터). 전통적 데이터는 데이터 증가량이 관리 가능하며, 신뢰성 높은 핵심 데이터를 사용합니다. 빅데이터는 기하급수로 양적 데이터가 증가하며, 쓰레기 데이터의 비중이 높습니다. 또한 문맥 정보 등 다양한 데이터를 가지고 있습니다. 전통적 데이터는 정부, 기업 등 대부분 조직이 데이터를 보유하고 있으며, 빅데이터는 인터넷 서비스 기업, 포털, 이동 통신 회사, 디바이스 생산 회사가 데이터를 보유합니다. 전통적 데이터는 정형 데이터를 생산/저장/분석/처리할 수 있는 전통적 플랫폼을 이용하며, 빅데이터는 비정형 대량 데이터를 생산/저장/분석/처리할 수 있는 새로운 플랫폼을 이용합니다.

 

빅데이터 분석 과정은 6단계가 있습니다.

1단계, 데이터 인식 단계는 분석을 전제로 가용한 데이터를 확인하는 단계입니다

2단계데이터 수집 단계는 조직 내외부의 여러 데이터 소스로부터필요로 하는 데이터를 수집하는 단계입니다

3단계데이터 저장 단계는 대용량의 정형비정형 데이터를 데이터 분석 및 활용을 위해 저장관리하는 단계입니다

4단계빅데이터 처리분석 단계는 통계분석을 이용하여 다양한 형태의 데이터로부터 관계패턴 등 알려지지 않은 정보와 지식을 찾아내는 과정입니다

5단계빅데이터 시각화 단계는 데이터 분석 결과를 쉽게 이해할 수 있도록 분포 시각화인포그래픽 등 시각적인 수단으로 정보를 전달하는 과정입니다.

마지막, 6단계인 데이터 활용 단계는 데이터 분석을 통해 추출한 정보지식 등을 의사결정에 반영하는 단계입니다.

 

빅데이터 수집기술에는 아래와 같이 다양한 기술을 통해 수집할 수 있습니다.

로그 수집기는 내부에 있는 웹서버의 로그를 수집하는 것으로, 웹로그, 트랜잭션 로그, 클릭 로그, DB로그, 사용자 로그 등을 수집합니다.

센싱은 각종 센서로 이미지, 음성, 온도, 전력, 전압, 압력, 화학물질, 전파/방사능, 수온, 강우/수량 등의 데이터들을 수집하는 것을 의미합니다.

크롤링은 주로 웹 로봇, 크롤링 프로그램으로 거미줄처럼 얽혀 있는 인터넷 링크를 따라다니며 방문한 웹사이트의 웹페이지라든가 소셜 데이터 등 인터넷에 공개되어 있는 데이터를 수집합니다.

ETL(Extraction, Transformation, Loading)은 데이터의 추출, 변환, 적재. 다양한 소스 데이터를 취합하여 데이터를 추출하고 하나의 공통된 형식으로 변환하여 데이터 웨어하우스에 적재하는 과정을 지원합니다. 여기서 데이터의 전처리와 저장 단계가 진행되기도 합니다.

RSS리더/Open API는 데이터의 생산, 공유, 참여 환경인 웹 2.0을 구현하는 기술로 필요한 데이터를 프로그래밍으로 수집합니다

 

다음으로 빅데이터 저장 기술에 대하여 알아보도록 하겠습니다.

데이터에서 의미 있는 정보를 추출하려면 효율적으로 저장 관리하는 기술이 필요한데, 데이터 저장 관리는 추후 사용할 수 있도록 데이터를 안전하고 효율적으로 저장하는 것을 말합니다. 빅데이터는 대용량, 비정형, 실시간성속성을 수용할 수 있는 저장 방식이 필요합니다. 특히 대량의 데이터를 파일 형태로 저장할 수 있는 기술과 비정형 데이터를 정형화된 데이터 형태로 저장하는 기술이 중요합니다.

분산 파일 시스템은 컴퓨터 네트워크로 공유하는 여러 호스트 컴퓨터 파일에 접근할 수 있는 파일 시스템이고, 그 예로 아마존 Cloud S3 파일시스템이 있습니다.

NoSQL은 데이터 모델을 단순화하여 관계형 데이터 모델과 SQL을 사용하지 않는 모든 DBMS, 데이터 저장장치에서 사용합니다. Cloudata, HBase, Cassandra 등이 있습니다.

병렬 DBMS는 다수의 마이크로프로세서를 사용하여 여러 디스크의 질의, 갱신, 입출력 등 데이터베이스 처리를 동시에 수행하는 데이터 베이스 시스템으로 VoltDB, SQP HANA, Vertica, Greenplum, Netezza 등이 있습니다.

네트워크 구성 저장 시스템은 서로 다른 종류의 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리하는 것으로, SAN(Storage Area Network), NAS(Network Attached Storage) 등이 있습니다.

 

빅데이터 일괄 처리 기술은 빅데이터를 여러 서버로 분산하여 각 서버에서 나누어 처리하고, 이를 다시 모아서 결과를 정리하는 분산처리 기술 방식로, 구글 맵리듀스, 하둡 맵리듀스, 마이크로소프트 Dryad 등이 있습니다.

빅데이터 실시간 처리 기술은 데이터가 생성되면 곧바로 처리하는 방식으로, 실시간으로 생성되는 데이터들이 시냇물처럼 끊임없이 흘러나온다고 하여 스트림 처리 기술이라고도 부름. 스트림 처리 기술로 강화된 스트림 컴퓨팅을 지원하는 IBM InfoSphere 인포스피어 스트림즈, 분산 환경에서 스트리밍 데이터를 분석할 수 있게 해주는 트위터의 Storm이 있습니다.

빅데이터 처리 프로그래밍 지원 기술은 맵리듀스와 같은 프로그래밍 모델을 기반으로 합니다. 분산 데이터를 처리하는 프로그래밍 언어인 구글의 Sawzall과 병렬 처리를 하는 고성능 데이터-플로우 언어와 실행 프레임워크인 하둡 Pig가 있습니다. 하둡의 pig는 고수준의 처리 언어 피그 라틴을 이용하여 프로그램하면 이를 맵리듀스 프로그램으로 변환하여 실행합니다.

 

빅데이터 분석에 사용하는 기술은 대부분 통계학과 전선학, 특히 기계학습과 데이터 마이닝 분야에서 이미 사용한 것들입니다. 이 분석 기술들의 알고리즘을 대규모 데이터 처리에 맞게 개선하여 빅데이터 처리에 적용시키고 있는 것입니다.

텍스트 마이닝은 자연어 처리 기술을 사용해 인간의 언어로 쓰인 비정형 텍스트에서 유용한 정보를 추출합니다. 다른 데이터와의 연계성을 파악하여 분류나 군집화 등 빅데이터에서 의미있는 정보를 발견하는 것을 말합니다. 웹 마이닝은 인터넷에서 수집한 정보를 데이터 마이닝 기법으로 분석하는 것입니다. 오피니언 마이닝은 사용자가 만든 콘텐츠에서 표현된 의견을 추출/분류/이해/하고 자신화하는 컴퓨팅 기술로, 감정 상태를 식별하는 감성 분석을 사용합니다.

 

리얼리티 마이닝은 휴대폰 등의 기기를 사용하여 인간관계와 행동 양태를 추론하고, 통화량, 통화 위치, 통화 상태, 대상, 내용 등을 분석하여 사용자의 인간관계, 행동 특성 등의 정보를 찾아냅니다. 소셜 네트워크 분석은 수학의 그래프 이론을 바탕으로 소셜 네트워크 서비스에서 소셜 네트워크 연결 구조와 강도를 분석하여 사용자의 명성 및 영향력을 측정하는 것을 말합니다. 분류는 미리 알려진 클래스들로 구분되는 훈련 데이터군(Group)을 학습시켜 새로 추가되는 데이터가 속할 만한 데이터군을 찾는 지도 학습 방법입니다.

 

군집화는 특성이 비슷한 데이터를 합쳐 군(Group)으로 분류하는 학습 방법으로, 분류와 달리 훈련 데이터군을 이용하지 않기 때문에 비지도 학습으로 분류됩니다. 기계학습은 인간의 학습을 모델링한 것으로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 이용하여 판단할 수 있도록 훈련시키는 것으로 결정 트리 등 기호적 학습, 신경망이나 유전자 알고리즘 등 비기호적 학습, 베이지안이나 은닉 마코프 등의 확률적 학습 등 다양한 기법이 있습니다. 마지막으로 감성 분석은 문장의 의미를 파악하여 감정의 강도를 지수화하여 분석하는 것으로 기업의 신속한 대응 및 부정적인 의견의 확산을 방지하는 데 활용합니다.

수집되는 데이터 유형에느 정형 데이터, 반정형 데이터, 비정형 데이터의 3가지 유형이 있습니다.

정형 데이터는 미리 정해 놓은 형식과 구조에 따라 고정된 필드에 저장되도록 구성된 데이터입니다. 정해진 형식과 구조를 바탕으로 쉽게 연산을 수행할 수 있고, 데이터베이스에 적재된 데이터가 대표적 정형 데이터입니다.

반정형 데이터는 고정된 필드로 저장되지만 데이터의 형식과 구조가 변경될 수 있는 데이터입니다. 구조화되어있진 않지만 파일에 포함된 구조 정보를 바탕으로 정형 데이터로 변환할 수 있습니다.

비정형 데이터는 정의된 구조가 없는 웹문서, 이메일, 소셜 데이터 등 정형화 되지 않은 데이터를 의미하며, 데이터 구조가 없기 때문에 전처리 과정이 필요합니다.

 

빅데이터를 도입하면서 발생하는 효과를 알아보겠습니다

제품 개발자는 빅데이터 분석으로 고객 리뷰와 문화적 동향 같은 비정형 데이터를 분석하고 신속하게 대응할 수 있습니다. 그리고 전 세계 설문조사에서 맥킨지(McKinsey) IoT 지원 기계의 빅데이터 분석으로 설비 유지보수 비용이 최대 40% 감소함을 발견했습니다. 2020년 글로벌 비즈니스 리더 설문조사에서 가트너(Gartner)성장 중인 기업들은 그렇지 않은 기업보다 고객 경험 데이터를 보다 적극적으로 수집하고 있음을 발견했습니다. 기업들은 빅데이터 분석으로 브랜드의 고객 경험 개인화 수준을 높일 수 있습니다. 코로나19 팬데믹으로 인해 많은 비즈니스 리더들은 운영 중단에 매우 취약함을 깨닫게 되었습니다. 빅데이터 인사이트는 기업이 리스크를 예측하고 예기치 못한 상황에 대비하는 데 도움이 될 수 있습니다. 조직 내 모든 프로세스에 고급 빅데이터 분석을 적용하면 비효율성을 발견할 뿐 아니라 신속하고 효과적인 솔루션을 구현할 수 있습니다. 빅데이터가 제공하는 인사이트를 통해 기업은 비용을 절감하고 고객을 만족시키며 제품을 개선하고 비즈니스 운영을 혁신할 수 있습니다.

 

아마존은 빅데이터 분석 시스템을 통해 고객이 어떤 상품을 좋아할지 예측이 가능합니다. 빅데이터가 예측한 추천상품은 고객이 아마존에서 쇼핑을 하는 동안 배너 형태로 공개됩니다. 또한 가격을 최적화할 때 빅데이터를 활용하여 경쟁 업체의 방대한 데이터를 수집해 가격을 10분마다 최적화합니다. 할리우드는 빅데이터를 활용하여 예측 불가능할 줄만 알았던 영화 흥행을 예측합니다. 할리우드에서는 영화 한 편당 제작예산이 늘어나는 추세인데 흥행에 실패하면 제작사는 파산하게 됩니다. 이를 방지하기 위해 할리우드에서는 마케팅을 적극적으로 이용하고, 전체 영화 제작 예산의 10%이상을 마케팅 비용으로 사용한다고 합니다. 스타벅스는 신규 매장을 내기 전에 빅데이터를 기반으로 상권을 철저히 분석합니다. 다른 스타벅스의 위치, 교통 패턴, 지역 인구 통계 등의 데이터를 다량 수집 후 분석하여 최상의 입점 위치를 찾아냅니다. 또한, 이 분석을 통해 신규 스타벅스 매장에 의해 기존 매장이 얼마나 타격을 입게 될 지도 예측합니다. 자체 어플리케이션을 통해 소비자들의 정보를 수집하고 그 정보를 바탕으로, 고객에 취향에 맞을 법한 신메뉴를 추천해주는 서비스를 제공합니다.

 

자라 매장은 매일 데이터 분석을 실시합니다. 자라의 모든 옷에는 RFID태그가 붙어있어 영업이 종료 되면, 자라 매장 직원들은 RFID태그 데이터를 바탕으로, 그 날 가장 많이 팔린 옷이 무엇인지 정리합니다. 정리한 데이터는 자라 본사의 디자이너에게 전달되는데, 디자이너는 많이 팔린 옷의 디자인과 원단, 무늬, 색상 등을 참고하여 잘 팔릴 것 같은새 옷을 디자인합니다.

서울시는 늦은 밤에 이용할 대중교통이 마땅하지 않아 심야버스인 올빼미버스운영하기로 결정했습니다. 서울시는 KT와 합작하여 심야버스 최적화 노선을 구축하는데 도움이 될 만한 빅데이터를 분석하였고, 가장 많은 통신 데이터가 기록된 지역들을 선별하여 올빼미버스 노선에 포함시켰습니다.

미국 보스턴에서는 파손된 도로를 파악하기 위해 직원들이 차를 타고 시 전체를 돌아다니며 점검을 하는 방식을 활용했는데, 비효율적이고 많은 인력 필요하며 빠른 대응이 불가능했습니다. 그래서 보스턴시는 미국의 벤처회사 애터비스타와 함께 스트리트범프앱을 개발함으로써 이 문제를 해결하고자 했음. 이 앱은 운전자의 스마트폰을 이용해 도로노면이 파인 곳을 자동으로 감지하고, 그 위치를 보스턴시 도로 관리국에 데이터를 전송하는 것을 도움. 가속도계의 변화를 바탕으로 도로 파손이 감지되면 보스턴 시의 데이터베이스에 저장되고, 그 정보를 바탕으로 복구 계획을 세우고 실시간으로 복구 작업에 착수하였고, 이 앱을 통해서 보스턴 시는 도로 파손으로 인한 비용을 획기적으로 줄일 수 있었습니다.

 

그 동안 저희 십분 ai가 제공한 총 5개의 영상들 잘 보셨나요?

짧은 시간이였지만, 저희의 영상과 포스팅을 봐주신 모든 분들께 감사합니다 !

4차 산업혁명의 메인 '인공지능'에 대하여 저희 십분 Ai와 함께 해주셔서 감사합니다. 

 

이상으로 십분 AI의 모든 포스팅을 마치겠습니다 !

관련글 더보기