한글 초성검색 in Javascript

728x90

# 한글 초성검색 in Javascript 한글의 위대함을 한껏 활용하기 위해 초성검색을 구현해 봅시다. 문서 오른쪽 위의 Fuzzy search 버튼을 누르시면, 초성검색 (엄밀히는 fuzzy search 이지만) 구현이 어떻게 되어 있는지 아실 수 있습니다. ## TOC ## 한글 Encoding in Javascript 자바스크립트의 문자열은 내부적으로 16비트 유니코드로 처리 . 유니코드에서 한글은 코드값 OxAC00부터 시작하며, 초성 19 / 중성 21 / 종성 28 개의 조합 순으로 코드가 배열. 유니코드에 대한 공식 설명은 에서... 초성, 중성, 종성의 자모 순서는 에서... (Hangul Syllables 부분에 한글 음절에 대한 유니코드표)

Hangul Array
초성 "ㄱ", "ㄲ", "ㄴ", "ㄷ", "ㄸ", "ㄹ", "ㅁ", "ㅂ", "ㅃ", "ㅅ", "ㅆ", "ㅇ", "ㅈ", "ㅉ", "ㅊ", "ㅋ", "ㅌ", "ㅍ", "ㅎ"
중성 "ㅏ", "ㅐ", "ㅑ", "ㅒ", "ㅓ", "ㅔ", "ㅕ", "ㅖ", "ㅗ", "ㅘ", "ㅙ", "ㅚ", "ㅛ", "ㅜ", "ㅝ", "ㅞ", "ㅟ", "ㅠ", "ㅡ", "ㅢ", "ㅣ"
종성 "", "ㄱ", "ㄲ", "ㄳ", "ㄴ", "ㄵ", "ㄶ", "ㄷ", "ㄹ", "ㄺ", "ㄻ", "ㄼ", "ㄽ", "ㄾ", "ㄿ", "ㅀ", "ㅁ", "ㅂ", "ㅄ", "ㅅ", "ㅆ", "ㅇ", "ㅈ", "ㅊ", "ㅋ", "ㅌ", "ㅍ", "ㅎ"

## 초성, 중성, 종성 분리하기 초성에 8 bit, 중성에 8 bit, 종성에 8 bit 형태로 encoding 이 되어 있으면 굳이 이런 작업이 필요 없겄지만;;; 쌍 기역 "ㄲ" 같은 것들도 있어서(?) 이런 24 bit encoding 이 더 효율이 좋은거 같진 않군요. 아무튼 16 bit unicode 로 이루어진 한글 string data 를 잘 분석해서 초성, 중성, 종성으로 분리해내 봅시다. (뭐 활용하고자 하는 방법에 따라 더 분리해내는게 필요할수도 있긴 하겠네요.) 유니코드에서 특정 글자의 코드 값은 다음과 같은 식으로 생각해 볼 수 있습니다. ( \text{초성} \times 21 \times 28 ) + ( \text{중성} \times 28 ) + \text{종성} \\ = \big( ( \text{초성} \times 21 ) + \text{중성} \big) \times 28 + \text{종성} 정확한 한글 유니코드 값은 \text{한글 유니코드 값} = \text{0xAC00} + \big( ( \text{초성} \times 21 ) + \text{중성} \big) \times 28 + \text{종성} 라고 하는군요 . 정리 해주셔서 감사;;; 이 블로그 글쓴이가 정리 안해주셨으면 이거 알아내는데 엄청 고생했을듯 =ㅂ=;;; 위 식에서 초성 / 중성 / 종성 은 첫 글자를 0 으로 하는 해당 글자의 상에서의 위치. 이런 정보를 바탕으로 다음과 같은 javascript code 를 통해 초성 / 중성 / 종성 을 분리해 낼 수 있는듯. ```[.linenums.lang-js] let rCho = ["ㄱ", "ㄲ", "ㄴ", "ㄷ", "ㄸ", "ㄹ", "ㅁ", "ㅂ", "ㅃ", "ㅅ", "ㅆ", "ㅇ", "ㅈ", "ㅉ", "ㅊ", "ㅋ", "ㅌ", "ㅍ", "ㅎ"]; let rJung = ["ㅏ", "ㅐ", "ㅑ", "ㅒ", "ㅓ", "ㅔ", "ㅕ", "ㅖ", "ㅗ", "ㅘ", "ㅙ", "ㅚ", "ㅛ", "ㅜ", "ㅝ", "ㅞ", "ㅟ", "ㅠ", "ㅡ", "ㅢ", "ㅣ"]; let rJong = ["", "ㄱ", "ㄲ", "ㄳ", "ㄴ", "ㄵ", "ㄶ", "ㄷ", "ㄹ", "ㄺ", "ㄻ", "ㄼ", "ㄽ", "ㄾ", "ㄿ", "ㅀ", "ㅁ", "ㅂ", "ㅄ", "ㅅ", "ㅆ", "ㅇ", "ㅈ", "ㅊ", "ㅋ", "ㅌ", "ㅍ", "ㅎ"]; let cho, jung, jong; let sTest="탱"; let nTmp=sTest.charCodeAt(0) - 0xAC00; jong=nTmp % 28; // 종성 jung=( (nTmp-jong)/28 ) % 21; // 중성 cho=( ( (nTmp-jong)/28 ) - jung ) / 21; // 종성 console.log( "초성:"+rCho[cho]+"\n" +"중성:"+rJung[jung]+"\n" +"종성:"+rJong[jong] ); ```/ ## Test it yourself ```[#hangul-split-result.linenums] ```/ ### Code

## 초성검색 구현된 초성검색은 kipid's blog - Lists 에서 확인하실 수 있습니다. Fuzzy search 버튼 눌러 보세요. 여기에 코드 정리는 나중에 할 예정. (딱히 기약은 없음.) 초성검색과 비슷한 Fuzzy search 글 kipid's blog - Auto Completion, and Fuzzy Search 참고해 보셔도 좋습니다. ## RRA

dream.ahboom.net - 한글 유니코드 자소 분리방법, 2010-02-25
www.unicode.org - Hangul Jamo.pdf and Hangul Compatibility Jamo.pdf and Hangul Syllables.pdf

728x90

저작자표시 비영리 변경금지

'[IT/Programming] > Algorithm/Database' 카테고리의 다른 글

RSA 암호가 Big brother (국가기관 및 최상위 계급층들) 들에게 쉽게 깨지는 이유. (보안이 안되는 이유.) - And 그 보완책으로서의 개인적인 solution 제안 (Hash with salt multiple times and reduce the number of hashing). (1)	2024.08.29
이진 탐색 트리 (Binary Search Tree, BST) 의 중위 순회 (Inorder), 전위 순회 (Preorder), 후위 순회 (Postorder) 에 대해 알아보자. (0)	2024.03.30
Data ENCRYPT (정보 암호화) (0)	2024.02.09
Number to Hex string (16), and vice versa (Hex string (16) to Number) (0)	2024.02.08
Learning SQL (Structured Query Language) \| MySQL (SQL \| MySQL 을 배워보자.) :: MySQL, JDBC (Java DataBase Connector) (0)	2023.12.26
Machine Learninig :: Fastest learning by Quadratic approximation approach with finite equal step size through steepest descent. (5)	2023.12.05
기계 학습 (Machine Learning - Deep Learning) (1)	2023.06.01

한글 초성검색 in Javascript

'[IT/Programming] > Algorithm/Database' 카테고리의 다른 글

'[IT/Programming]/Algorithm/Database' Related Articles

티스토리툴바