엔그램(N-gram) 이해하기: 언어 데이터에서의 연속된 요소들

데이터 마케팅 2023. 8. 12. 09:41

엔그램 (N-gram) 소개

엔그램은 언어 데이터셋에서 발견되는 연속된 n개의 문자(구두점 및 공백 포함), 음절 또는 드물게 전체 단어를 의미합니다. 또한, 음성 녹음 데이터셋에서 추출된 인접한 음성소나, 게놈에서 추출된 인접한 염기 쌍을 의미하기도 합니다. 이러한 엔그램은 텍스트나 음성 말뭉치에서 수집됩니다. 엔그램의 크기에 따라 다양한 이름이 부여됩니다. 예를 들어, 크기가 1인 경우 "유니그램", 크기가 2인 경우 "바이그램"이라고 합니다. 또한, 계산 생물학에서는 "모노머", "다이머", "트라이머"와 같은 그리스 숫자 접두사를 사용하여 특정 크기의 중합체나 올리고머를 나타내기도 합니다.

예시

1. 단백질 서열화: 아미노산을 기반으로 한 엔그램 예시는 Cys-Gly-Leu-Ser-Trp와 같습니다.
2. DNA 서열화: 엔그램 예시로는 AGCTTCGA와 같은 염기 쌍이 있습니다.
3. 언어 모델: 문자를 기반으로 한 엔그램 예시는 "to_be_or_not_to_be"와 같습니다.
4. 단어 엔그램 언어 모델: 단어를 기반으로 한 엔그램 예시는 "to be or not to be"와 같습니다.

- 2020년 5월 7일까지의 코로나바이러스 질병 2019(COVID-19)에 관한 출판물의 제목에서 자주 발견되는 여섯 개의 엔그램은 다음 그림과 같습니다.

엔그램에 대한 더 깊은 이해를 위해 위키피디아를 참조하실 수 있습니다.

'데이터 마케팅' 카테고리의 다른 글

전략적 유연 가격 책정: 비수기 대응과 소비자 매력 제고 (0)	2023.12.19
안전한 소비를 위한 안내자: 소비자 제품 정보 데이터베이스(CPID) 이해하기 (0)	2023.09.07
데이터의 세계를 탐험하다: 탐색적 자료 분석 (EDA)의 이해와 실용 (0)	2023.08.04
숫자의 미스터리: 벤포드 법칙과 그 놀라운 활용 (0)	2023.08.02
급성장하는 데이터 사이언티스트 직업 분야의 미래와 가능성 (0)	2023.06.20

ABOUT ME

누쭌아빠이야기 누쭌아빠이야기

엔그램 (N-gram) 소개

예시

'데이터 마케팅' 카테고리의 다른 글

티스토리툴바

ABOUT ME

엔그램 (N-gram) 소개

예시

'데이터 마케팅' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바