인공지능기술 동향

인공지능과 자연어 처리 기술 동향

그 해 여름의 하늘 2021. 8. 29. 09:18

1.인공지능 자연어처리 기술의 개념

정의 개념도
사람이 표현하는 텍스트로부터 의미를 이해하고 테스트에 포함된 정보를 추출 및 분류하여 텍스트를 생성하는 머신러닝 기술

-NLP(Natural Language Processing)은 과학기술정보통신부의 인공지능분야 국가전략

 프로젝트인 엑소브레인의 핵심 과제중 하나로 고도화와 산업화 추진

 

2.주요 기술 유형

유형 특징 설명
워드 클라우드 자연어 시각화 도구 텍스트를 분석하고 빈도수를 카운트하여 시각화하는 기술
N-gram Model Uni-gram, Bi-gram 등 연속적 단어의 출연에 기반한 확률적 계산 언어 모델 기술
토픽 모델링 LDA기법의 확률 분포 활용 단어, 말뭉치로부터 숨겨진 주제를 찾고 키워드별 주제를 묶어 주는 비지도학습 알고리즘

-자연어 처리를 위해서는 텍스트를 컴퓨터가 이해할 수 있도록 숫자로 바꾸는 작업이 필요

 

3.자연어 처리 임베딩 기술

  가.자연어 처리 임베딩 기술의 정의

     -사람이 쓰는 문장을 기계가 이해할 수 있도록 0, 1의 수치로 표현하는 벡터화를 통해

      단어들 사이의 유사도를 계산하는 기법

  나.자연어 처리 임베딩 기술의 유형

유형 세부기법 설명
통계적기반 TDM -Term-Document Matrix
-문서에서 등장하는 단어들의 빈도를 행렬로 표현하는 기법
TF-IDF -Term Frequency-Inverse Document Frequency
-특정 단어가 문서 내에서 출현하는 빈도(TF)값과 흔한 단어는 문서에서 자주 등장되는 경우가 많은 역빈도(IDF)값을 계산하는 기법
One-hot
Encoding
문서의 단어를 0과 1로 구분하여 벡터로 표현하는 기법
뉴럴 네트워크 기반 Word2Vec -벡터 공간상에서 유클러디안 거리, 코사인 유사도 거리에 가까운 벡터로 표현하는 기법 
-CBOW, skip-gram 두가지 모델로 분류
FastText -n-gram의 characters(Bag-Of-Characters)를 적용하는 임베딩기술로 하나의 단어를 여러 개로 잘라서 벡터로 계산하는 기법
-'where'를 Trigram 적용시, <'whe',
'her', 'ere'>로 표현
ELMo -Word2Vec의 한계를 보완하기 위해 양향향 언어 모델(BiLM, Bi-directional Language Model)을 적용하여 문맥을 반영하는기법
-'River Bank', 'Bank Account'의 'Bank'를 다른 의미로 인식
BERT -대량의 코퍼스를 인코더(Encoder)가 임베딩하고, 트랜스퍼(Transfer)하여 Fine-tuning을 통해 목적에 맞는 학습을 수행하는 양바향 학습 모델 기법
-프랜스포머에서 인코더(Encoder)를 사용하므로문장 의미 추출에 강점 존재
GPT -이전 단어들이 주어졌을 때 다음 단어가 무엇인지맞추는 과정인 프리트레인(Pre-Train)을 통해 문장 시작부터 순차적으로 계산하는 일방향 학습 모델 기법
-프랜스포머에서 디코더(Decoder)만 사용하므로 문장 생성에 강점

-단어수준 임베딩 기법(Word2Vec, FastText, ELMo)에서 문장수준 임베딩 기법

 (BERT, GPT)으로 발전 및 적용 확대

 

4.자연어처리 기술 적용사례

-Feature 추출과 Fine-Tuning을 통해 BERT를 활용한 챗봇 시스템에 적용

 

※ 출처 및 참고문헌

  • 인공지능과 자연어처리 기술 동향(유승의, 주간기술동향, 2021)

인공지능과 자연어처리 기술 동향.pdf
0.65MB

'인공지능기술 동향' 카테고리의 다른 글

머신러닝 모델에서의 Human-in-the-Loop  (0) 2021.09.03
인공지능 기술 마인드맵  (0) 2021.08.27