본문 바로가기

공부/AI

국립국어연구원 모두의 말뭉치 워크숍 강연 영상 : 언어 AI 기술 발전 흐름

반응형

 

  영상 : 모두의 말뭉치 워크숍 강연 '언어AI 기술발전 흐름' 

발표자 임준호 (주)튜터러스랩스

https://kli.korean.go.kr/corpus/resultRequest/supportDataView.do?recordId=1426&boardId=&inner_tabs=on&base.condition=board.title&base.keyword=

공기관 사이트라서 살짝 로딩이 걸려서 영상 파일을 다운 해서 보는 편을 추천한다.  총 36분으로 구성되었있으며 LLM 개념 부터 알려주셔서 개념 잡는데 좋았다. 

 

말뭉치 서비스는 언어 데이터를 체계적으로 수집, 정리, 제공하는 시스템으로,
자연어 처리(NLP)와 언어 연구에 활용됩니다.


특정 언어의 단어, 문장, 문법 패턴 등 다양한 정보를 대규모 데이터 형태로 제공합니다.
주로 검색, 텍스트 분석, 번역, AI 모델 학습에 사용됩니다.

학계와 기업이 언어 기반 서비스를 개발하거나 연구를 수행할 때 유용합니다.
대표적으로 한국어 말뭉치는 국가기관이나 민간 기업에서 데이터 형태로 제공됩니다.



● 나온 용어들

거대언어모델 LLM (엘엘엠)

* 대형 언어 모델(大型言語 , 영어: large language model, LLM) 또는 거대 언어 모델(巨大言語)
https://terms.naver.com/entry.naver?docId=6731603&cid=40942&categoryId=32845

 

거대 언어 모델

대량의 텍스트 데이터를 학습하여 자연어 처리 작업을 수행하는 인공지능 모델. 자연어 처리 분야에서 가장 중요한 기술 중 하나로, 대규모의 텍스트를 학습하여 다양한 언어 작업을 수행할 수

terms.naver.com

 

지연 Lag (라그)

https://terms.naver.com/entry.naver?docId=827212&cid=42344&categoryId=42344

 

지연

(1) 타임 래그(time lag)라고도 하는 신호가 입력된 후 출력될 때까지의 시간적 지연(delay)을 말한다. 펄스 응답(pulse response)에서 래그는 중요한 의미를 가지며, 주파수적으로 지연 시간이 틀릴 경우

terms.naver.com


한국어 말뭉치와 영어 말뭉치의 차이점

 

언어 구조 차이

한국어는 조사와 어미 변화가 많고, 문장 구조가 유연한 반면 영어는 고정된 어순(SVO 구조)과 비교적 간단한 문법 패턴을 가집니다. 따라서 말뭉치를 처리할 때 한국어는 형태소 분석이 필수적입니다.

 

형태소 분석 필요성

한국어는 어휘가 어간과 접사로 구성되어 있어 형태소 분석기를 통해 단어를 세분화해야 유의미한 데이터를 얻을 수 있습니다. 반면, 영어는 단어 단위로 분석하는 경우가 많습니다.

 

데이터 수집 방식

한국어는 사용 범위가 제한적이어서 주로 국내 자료(뉴스, 블로그, 공공 데이터)에서 수집되지만, 영어는 글로벌 언어로 다양한 국가와 분야에서 방대한 데이터 수집이 가능합니다.

 

코퍼스 크기

영어 말뭉치는 전 세계적으로 활용되는 언어인 만큼 크기가 방대하며, 공개된 데이터베이스도 많습니다. 한국어 말뭉치는 상대적으로 규모가 작고 활용 가능한 공개 자료도 제한적입니다.

 

언어적 특이성 처리

한국어는 높임말, 의존 명사, 중의적 표현 등 언어적 특이성이 많아 이를 처리하기 위한 추가적인 작업이 필요합니다. 영어는 이러한 문화적 요소가 상대적으로 적습니다.

 

 

◆ 같이 보면 좋은 글

AI 시대 언어를 알면 인간이 보인다 - 작가 조승연

◆ 이전 글 읽기

전세계인 가장 많이 쓴 AI Top50 Web & APP 사이트 바로가기

 

전세계인 가장 많이 쓴 AI Top50 Web & APP 사이트 바로가기

Top 100 Gen AI Consumer Apps 상위 100대 AI 소비자 앱    실리콘밸리의 대표적 벤처캐피털(VC)인 앤드리젠 호로비츠(a16z)가 2024년 8월 19일 발표한 생성형 인공지능(AI) 분야 소비자 웹, 앱 순위를 발표 하

eviltwin.tistory.com

디지털 시민을 위한 올바른 미디어 이용 가이드 라인 이미지 자료 함께보기

 

디지털 시민을 위한 올바른 미디어 이용 가이드 라인 이미지 자료 함께보기

재난 상황에서 디지털 시민을 위한 올바른 미디어 이용 가이드 전국미디어리터러시교사협회는 지난 2022년 11월에 재난적 상황을 접한 어린이와 청소년이 참사 관련 뉴스나 정보에 적절히 접근

eviltwin.tistory.com

 

반응형