1.인공지능 자연어처리 기술의 개념
정의 | 개념도 |
사람이 표현하는 텍스트로부터 의미를 이해하고 테스트에 포함된 정보를 추출 및 분류하여 텍스트를 생성하는 머신러닝 기술 | ![]() |
-NLP(Natural Language Processing)은 과학기술정보통신부의 인공지능분야 국가전략
프로젝트인 엑소브레인의 핵심 과제중 하나로 고도화와 산업화 추진
2.주요 기술 유형
유형 | 특징 | 설명 |
워드 클라우드 | 자연어 시각화 도구 | 텍스트를 분석하고 빈도수를 카운트하여 시각화하는 기술 |
N-gram Model | Uni-gram, Bi-gram 등 | 연속적 단어의 출연에 기반한 확률적 계산 언어 모델 기술![]() |
토픽 모델링 | LDA기법의 확률 분포 활용 | 단어, 말뭉치로부터 숨겨진 주제를 찾고 키워드별 주제를 묶어 주는 비지도학습 알고리즘![]() |
-자연어 처리를 위해서는 텍스트를 컴퓨터가 이해할 수 있도록 숫자로 바꾸는 작업이 필요
3.자연어 처리 임베딩 기술
가.자연어 처리 임베딩 기술의 정의
-사람이 쓰는 문장을 기계가 이해할 수 있도록 0, 1의 수치로 표현하는 벡터화를 통해
단어들 사이의 유사도를 계산하는 기법
나.자연어 처리 임베딩 기술의 유형
유형 | 세부기법 | 설명 |
통계적기반 | TDM | -Term-Document Matrix -문서에서 등장하는 단어들의 빈도를 행렬로 표현하는 기법 |
TF-IDF | -Term Frequency-Inverse Document Frequency -특정 단어가 문서 내에서 출현하는 빈도(TF)값과 흔한 단어는 문서에서 자주 등장되는 경우가 많은 역빈도(IDF)값을 계산하는 기법 ![]() |
|
One-hot Encoding |
문서의 단어를 0과 1로 구분하여 벡터로 표현하는 기법![]() |
|
뉴럴 네트워크 기반 | Word2Vec | -벡터 공간상에서 유클러디안 거리, 코사인 유사도 거리에 가까운 벡터로 표현하는 기법 -CBOW, skip-gram 두가지 모델로 분류 ![]() |
FastText | -n-gram의 characters(Bag-Of-Characters)를 적용하는 임베딩기술로 하나의 단어를 여러 개로 잘라서 벡터로 계산하는 기법 -'where'를 Trigram 적용시, <'whe', 'her', 'ere'>로 표현 |
|
ELMo | -Word2Vec의 한계를 보완하기 위해 양향향 언어 모델(BiLM, Bi-directional Language Model)을 적용하여 문맥을 반영하는기법 -'River Bank', 'Bank Account'의 'Bank'를 다른 의미로 인식 |
|
BERT | -대량의 코퍼스를 인코더(Encoder)가 임베딩하고, 트랜스퍼(Transfer)하여 Fine-tuning을 통해 목적에 맞는 학습을 수행하는 양바향 학습 모델 기법 -프랜스포머에서 인코더(Encoder)를 사용하므로문장 의미 추출에 강점 존재 ![]() |
|
GPT | -이전 단어들이 주어졌을 때 다음 단어가 무엇인지맞추는 과정인 프리트레인(Pre-Train)을 통해 문장 시작부터 순차적으로 계산하는 일방향 학습 모델 기법 -프랜스포머에서 디코더(Decoder)만 사용하므로 문장 생성에 강점 |
-단어수준 임베딩 기법(Word2Vec, FastText, ELMo)에서 문장수준 임베딩 기법
(BERT, GPT)으로 발전 및 적용 확대
4.자연어처리 기술 적용사례
![]() |
-Feature 추출과 Fine-Tuning을 통해 BERT를 활용한 챗봇 시스템에 적용
※ 출처 및 참고문헌
- 인공지능과 자연어처리 기술 동향(유승의, 주간기술동향, 2021)
'인공지능기술 동향' 카테고리의 다른 글
머신러닝 모델에서의 Human-in-the-Loop (0) | 2021.09.03 |
---|---|
인공지능 기술 마인드맵 (0) | 2021.08.27 |