엔그램은 언어 데이터셋에서 발견되는 연속된 n개의 문자(구두점 및 공백 포함), 음절 또는 드물게 전체 단어를 의미합니다. 또한, 음성 녹음 데이터셋에서 추출된 인접한 음성소나, 게놈에서 추출된 인접한 염기 쌍을 의미하기도 합니다. 이러한 엔그램은 텍스트나 음성 말뭉치에서 수집됩니다. 엔그램의 크기에 따라 다양한 이름이 부여됩니다. 예를 들어, 크기가 1인 경우 "유니그램", 크기가 2인 경우 "바이그램"이라고 합니다. 또한, 계산 생물학에서는 "모노머", "다이머", "트라이머"와 같은 그리스 숫자 접두사를 사용하여 특정 크기의 중합체나 올리고머를 나타내기도 합니다.
예시
1. 단백질 서열화: 아미노산을 기반으로 한 엔그램 예시는 Cys-Gly-Leu-Ser-Trp와 같습니다. 2. DNA 서열화: 엔그램 예시로는 AGCTTCGA와 같은 염기 쌍이 있습니다. 3. 언어 모델: 문자를 기반으로 한 엔그램 예시는 "to_be_or_not_to_be"와 같습니다. 4. 단어 엔그램 언어 모델: 단어를 기반으로 한 엔그램 예시는 "to be or not to be"와 같습니다.
- 2020년 5월 7일까지의 코로나바이러스 질병 2019(COVID-19)에 관한 출판물의 제목에서 자주 발견되는 여섯 개의 엔그램은 다음 그림과 같습니다.