상세 컨텐츠

본문 제목

AI 기술에는 무엇이 있을까?

10분이면 공부하는 AI

by 십분AI 2021. 11. 22. 23:00

본문

안녕하세요 십분AI입니다.

저번 영상에서 산업혁명과 인공지능의 역사에 대해서 알아봤는데요, 이번 영상에서는 2번에 나누어 구체적인 AI기술에 대해서 다루어 보았습니다!

https://www.youtube.com/watch?v=3KILz6BvA7c

 

https://www.youtube.com/watch?v=jykyG4ZfBWc

 

여러분은 어떻게 AI가 작동하는지 알고 계신가요?

한국진흥정보사회진흥원에서 ‘‘NeurlPS 2020’을 통해 본 인공지능 기술 트렌드라는 동향 보고서를 통해 AI를 작동시키는 기술과 원리 6가지를 소개했습니다. 바로 메타학습, 연합학습, 자기지도학습, 강화학습, 그래프 신경망 기반 딥러닝, 생성적 AI입니다.

먼저 메타학습이란 적은 양의 데이터와 주어진 환경으로 스스로 학습하고 기존의 학습한 모델을 이용하여 새로운 문제를 해결하는 학습 방법입니다. 새로운 데이터를 효율적으로 학습시키는 것이 주요 목표입니다.

연합학습이란 각각 기기에서 인공지능 모델을 업데이트하고 학습한 모델의 가중치만 중앙 서버에 공유해 취합하고 공통 모델을 업데이트해 전체적인 인공지능 성능을 높여가는 방식입니다.

원래 데이터를 한 중앙 서버에 모아서 인공지능을 훈련시키는 통합학습을 사용하였으나, 유저가 수집을 허락한 데이터만 활용이 가능하기 때문에 개인정보에는 접근하기 힘들고 개인화된 서비스를 제공하기 힘들어 연합학습이 부상했습니다.

자기지도학습이란 비지도학습 중 하나로, 원본 데이터로부터 레이블을 자동으로 생성해 지도학습에 이용하는 방법입니다. 데이터 부분들의 관계를 학습해 레이블 없이도 학습을 수행할 수 있다는 점에서 주목받고 있습니다. 영상, 이미지, 텍스트, 오디오 관련 분야에서 널리 활용됩니다.

강화학습이란 정답을 주며 학습하는 것과 달리, 특정 행위를 했을 때 받는 보상을 최대화하는 방식으로 학습하는 것입니다. 시행착오를 겪는 방식을 통해 실제 경험한 정보를 토대로 가치 함수를 순차적으로 업데이트하며 학습합니다.

그래프 신경망 기반 딥러닝 알고리즘이란 소셜 네트워크 등 복잡한 연결관계와 상호 의존성을 그래프의 형태로 표현하는 것입니다. 알리바바 등의 전자상거래 기업들은 그래프 신경망을 기반으로 한 추천 시스템을 적용하여 제품을 판매합니다. 

그래프 생성 -> GNN -> 유사도 측정 -> 상품 추천

이렇게 4단계의 경로로 구성된 것으로 알려지고 있습니다.

여기서 GNN이란 그래프 구조에서 사용하는 인공 신경망을 뜻합니다. 다른 인공 신경망들과는 다르게 input이 그래프라는 특징이 있습니다. 그래프 구조와 각 노드별 특징 정보를 입력받고, 하나의 레이어에서 입력받은 특징 정보와 그래프 내에서 나타나는 이웃 정보를 바탕으로 각 노드 별 vector embedding을 출력 결과로 얻어냅니다. 쉽게 말하자면 특징이 인접한 노드들끼리 맵핑 짓는 것입니다!

마지막으로 생성적 AI란 인공지능이 텍스트, 이미지 등 기존 콘텐츠를 사용해 자체적으로 새로운 콘텐츠를 만드는 것입니다. 생성적 적대 신경망 인공지능(GAN)은 생성적 AI의 대표적인 기술입니다. GAN은 이미지 합성(딥페이크), 화질개선, 스타일 전이 등 다양한 분야에 응용되고 있습니다.

1번과 2번 중 하나는 GAN이 생성한 사진입니다. 어떤 사진이 GAN이 생성한 사진같나요?

GAN이 자체적으로 만든 사진이 사람의 실제 사진과 구별이 힘들다는 점이 놀라운데요, 정답은

1번입니다. 여러분은 정답을 맞히셨나요? 댓글로 후기를 알려주세요!

 

20171, 포브스가 선정한 최신 AI기술 TOP 10에 자연어 생성, 음성 인식, 가상 에이전트, Machine Learning platforms, Ai 최적화 하드웨어, 의사 결정 관리, 딥러닝 플랫폼, 생체 인식, 로봇 프로세스 자동화, 텍스트 분석 및 NLP가 들었습니다. 자세한 그래프는 밑 사진을 참고해주세요!

 

지금부터 머신러닝과 딥러닝에 대해 자세히 알아보겠습니다.

머신러닝은 AI의 하위 집합입니다. 학습과 개선을 위해 명시적으로 컴퓨터를 프로그래밍하는 대신, 컴퓨터가 데이터를 통해 학습하고 경험을 통해 개선하도록 훈련하는 데 중점을 둡니다. 머신러닝에서 알고리즘은 대규모 데이터세트에서 패턴과 상관관계를 찾고 분석을 토대로 최적의 의사결정과 예측을 수행하도록 훈련됩니다. 적용을 통해 개선되며, 이용 가능한 데이터가 증가할수록 더욱 정확해집니다. 머신러닝은 주거 공간부터 장바구니, 엔터테인먼트 미디어, 의료에 이르기까지 우리 주변에 널리 응용됩니다.

 

딥러닝에 이란 표현을 쓰는 이유는 여러 신경망 레이어와 복잡하고 이질적이며 대량의 데이터를 포함하기 때문입니다. 딥러닝 또는 심층학습은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습의 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고 방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 얘기할 수 있습니다. 시스템은 딥러닝을 수행하기 위해 네트워크의 여러 레이어와 상호작용해 상위 수준의 결과값을 추출합니다. 음성 인식, 이미지 분류, 약품 분석 등에 응용됩니다.

 

머신러닝과 그 구성요소인 딥러닝은 모두 AI의 세부 하위집합입니다. 아래 사진처럼, 인공지능 안에 머신러닝이, 머신러닝 안에 딥러닝이 속합니다.

자연어 처리란 인공지

능의 한 분야로, 머신러닝을 사용하여 텍스트의 구조와 의미를 파악하고 데이터를 처리, 해석합니다. 자연어 처리 애플리케이션은 구조화되지 않은 텍스트 기반 데이터로부터 유용한 정보를 얻기 위해 사용됩니다. 사용자가 추출된 정보에 액세스하여 해당 데이터에 대해 새로운 이해를 생성할 수 있게 돕습니다.

 

딥러닝 기반의 자연어 처리를 활용하면 정교한 정서 분석이 가능해집니다. 이로써 공략할 수 있는 집단의 범위를 확장할 수 있을 뿐 아니라, 잠재 고객들에게 보다 연관성 높은 콘텐츠로 다가갈 수 있습니다.

 

다음은 주변에서 활용되는 여러 AI기술에 대해서 알아보겠습니다.

먼저 음성 합성 기술은 총 3세대로 구성됩니다. 1세대 기술은 딥러닝 기술을 음성 합성 분야에 활용하려 했던 첫 번째 시도라는 점에서 의미가 있었습니다.

2세대 기술은 시계열 데이터의 예측에서 뛰어난 성능을 보이는 ‘LSTM-RNN’을 활용했습니다. 통계 모델을 활용하지 않음으로써 1세대 기술에 비해 발음이 더 명료해지고 음향 품질은 더욱 좋아졌습니다.

3세대부터는 1, 2세대에서 활용됐던 음성의 특징 파라미터들을 대신하여 음성 신호들을 직접 예측하기 시작했습니다. 3세대 기술은 입력부터 출력까지 하나의 모듈로 구성되어 입력 텍스트와 그에 대한 음성 데이터만 가지고도 모델을 학습할 수 있게 되었습니다. 이는 음성 합성 기술에 대한 진입 장벽을 낮추는 역할을 했을 뿐 아니라, 음성 데이터를 가공하기 위해 필요했던 노력도 줄어들며 자체 비용 개발이 절감되는 효과를 얻을 수 있다는 점에서 의미가 있습니다.

3세대 기술의 시작은 구글이 20173월에 발표한 타코트론입니다. 타코트론은 입력 텍스트와 그에 대한 음성 신호 예측 과정이 하나의 학습 모델로 이루어져 있는데, 학습 모델은 다시 크게 4가지 모듈로 구성됩니다. 입력 문자열에서 특징 정보를 생성하는 인코더, 음성의 스펙트로그램을 예측하는 디코더, 인코더와 디코더를 연결하는 어텐션, 음성을 만들어 내는 음성 합성부입니다. 딥러닝 기술 중 전이학습이란 기술을 활용하면, 소량의 녹음 데이터로 특정인의 목소리를 가진 음성합성기를 만들어낼 수 있습니다.

 

다음은 생체 인식 기술입니다. 생체 인식 기술이란 각 개인의 독특한 생체 정보를 판별하여 사용자를 인증하는 보안 기술입니다. 지문, 얼굴, 홍채 등 신체 정보와 음성, 걸음걸이 등 행동적 특징의 패턴을 추출하고 데이터 베이스에 저장합니다. 그 후 데이터 베이스에 저장되어 있는 특징들을 비교 후 신원을 확인합니다. 생체 인식 시스템은 사용자를 등록하는 과정과 사용자를 확인 받는 인증 (1 : 1), 데이터 베이스에서 사용자를 찾아내는 인식 (1 : N) 으로 구성됩니다.

 

생체 인식 기술에는 안면 인식 기술, 지문 인식 기술, 홍채 인식 기술, 음성 인식 기술, 행동 인식 기술, 손바닥 혈관 인식 기술이 있습니다.

안면 인식 기술은 입력된 영상으로부터 처리 대상인 얼굴 영역을 추출하는 방법입니다. 크게 얼굴의 열상을 이용하는 방식과 2차원 / 3차원 얼굴 열상을 이용하는 방식으로 구분됩니다. 특히 얼굴의 열상을 이용하는 방식은 얼굴 혈관에서 발생하는 열을 적외선 카메라로 촬영, 디지털 정보로 변환해 저장하는 것으로 얼굴에 외과적인 손상이 발생하더라도 변하지 않는 장점이 있습니다.

 

지문 인식 기술은 생체 인식 분야 중 가장 오래되고 일반화된 기술입니다. 지문 융기의 분기점, 끝점 등으로 구성되는 특징점의 위치와 속성을 추출, 저장, 비교하는 알고리즘을 채용합니다.

 

홍채 인식 기술은 정확히 홍채와 망막의 혈관을 인식하는 기술입니다. 망막 인식은 사용자의 안구 배면에 위치한 모세 혈관의 구성이 인간의 지문과 같이 종생 불변의 특징을 가지고 있다는 점을 이용하는 것으로, 이러한 망막 패턴을 읽기 위해서는 미약한 강도의 연필 지름만 한 적색 광선이 안구를 투시하여 망막에 있는 모세혈관에 반사된 역광을 측정해야 합니다.

 

음성 인식 기술은 소리 센서를 통해 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술입니다. 음향 신호를 추출한 후 잡음을 제거하고 음성 신호의 특징을 추출하여 데이터베이스와 비교하는 방식입니다.

 

행동 인식 기술은 사람의 모션이나 제스처와 관련된 정보를 수집하고 해석하여 행동을 인식하는 기술입니다. 분석하는 데이터의 종류에 따라 영상 분석 기반의 행동 인식 기술, 은바디 센서 기반의 행동 인식 기술로 구분합니다.

 

손바닥 혈관 인식 기술은 손등의 피부로부터 정맥 패턴을 추출하는 방법입니다. 적외선 조명과 필터를 사용해 피부에 대한 혈관의 밝기 대비를 최대화한 다음, 입력된 디지털 영상으로부터 정맥 분포 정보를 추출합니다.

 

로봇프로세스 자동화 기술(RPA)은 소프트웨어 로봇 혹은 인공지능으로 관리하는 비즈니스 프로세스 기술의 형태입니다. 방대한 문서 자료에서 원하는 정보를 추출하는 과정을 자동화할 수 있습니다. 데이터 관리의 전 과정을 자동화 가능하기 때문에 업무를 효율적으로 처리 가능하고, 이는 생산성을 제고함과 동시에 시스템적인 데이터 관리로 발생 가능한 오류를 최소화해 줍니다.

 

RPA기술의 원리는 자동화 대상 업무를 선정하고, RPA 솔루션을 통한 Recording, RPA 솔루션 실행입니다.

자동화의 주요 대상이 되는 업무에는 수작업 및 반복 업무, 낮은 예외확률, 규칙 기반 업무, 정형화된 데이터, 표준화된 입력방식, 다수의 인력이 수행해야 하는 업무 등이 있습니다.

 

그 후 사용자 업무 프로세스 Recording, 변수 설정 등을 통한 업무 규칙 등록, OCR을 통한 이미지 인식 처리, 예외 사항 처리 등 RPA 솔루션을 통한 Recording을 진행합니다.

 

마지막으로 신속하고 정확한 업무를 처리하고 24시간 무중단 작업이 가능한, 단순 반복 업무 자동처리로 고부가가치를 창출하는 RPA 솔루션이 실시됩니다. 민감 데이터에 대한 로봇 실행을 인적자원 접근 제한으로 보안을 강화합니다.

 

RPA 기술 수준별 3단계는 밑 표와 같습니다.

 RPA 기술 도입 효과로는 추가 인력 없이 정보보호 수행 (안정성), 입력 자동화를 통한 오류 예방(정확성), 고부가가치 활동에 집중(효율성), 연중 24시간 작업 수행 가능(신속성), 추가 인력 불필요(경제성)이 있습니다.

 

다음 3강에서는 우리 주변에서 AI기술이 사용된 사례에 대해서 알아보겠습니다.

저희 십분 AI의 영상이 도움이 되셨다면,

구독과 댓글, 좋아요까지 부탁드립니다!

*해당 포스팅에 수정할 점, 궁금한 점이 있다면 언제든지 댓글 달아주세요!

 

저희 블로그에 방문해주셔서 감사합니다. 그럼 다음주에 만나요! 😊

 

관련글 더보기