2018년 7월 4일 수요일

유니코드 버전 1.0 한중일 통합 한자 20,902자 독음 목록

2024-05-24-금 수정

유니코드 한중일 통합 한자를 보고 역시 한자는 답이 없다는 생각에 변함이 없다. 
총 8만7870자가 등록 되어 있는데 누가 이걸 다 외우고 사용하겠는가? 미쳤다.


유니코드 버전 1.0에선 2만0902자가 등록 되어 있다. 한자가 너무 많아서 16비트(65536개) 유니코드에 넣기 힘들어 한국, 중국, 일본에서 사용하는 한자 중에 모양이 유사하며 그 뜻이 같은 글자를 같은 코드로 통합했다. (즉 이것들은 원래 같은 한자란 얘기다.) 따라서 문자 코드만으로 그 한자가 사용되는 언어를 알아 낼 수 없으며, 중국의 간체자나 번체자, 일본의 구자체나 신자체 등 분명하게 모양이 다른 글자는 별도의 부호를 할당하고 있다. (중국이 한자 개혁 한다면서 간체자를 만들어서 오히려 코드 낭비를 하게 되었다.)

※ 언어 생활 가능한 수준 : 5천~6천자, 학자 수준 : 약 1만자, 나머진 중복이란 얘기다.

KS 완성형 한자 코드는 누가 만들었는지 한심할 정도다. 같은 한자인데 독음이 다르다고 2~4개까지 별도의 코드를 부여했다. 그것도 대부분 두음법칙이 적용된 한자다. 한자 배치 순서도 한국 독음+부수 순서이다. 了료와 了요를 다르게 보기 때문에 검색할 때 오히려 불편하다.

※ 두음법칙 : 단어의 첫머리가 다른 음으로 발음 되는 일. 첫소리의 ‘ㄹ’(R/L)과 이중 모음 앞의 ‘ㄴ’이 각각 ‘ㄴ’과 ‘ㅇ’으로 발음 됨《래일(來日)이 내일로, 녀자(女子)가 여자로 되는 따위》. 머리소리 법칙. 첫음절 R/L → N → 이중모음 → "ㅇ"


한국에서 한자 입력 방법


한자 하나에는 여러 독음이 있기 때문에 한자 입력을 위해서 MS 윈도우즈에선 한자를 대표 독음과 1대1로 대응 시키고 있다. 그 한자 독음 대응 목록을 여기에 올린다. 이 대응은 한국에서만 통한다. 중국어에선 독음이 다르고, 일본어에선 훈독, 음독, 음독도 여러 소리가 있어 통하지 않는다. 중국, 일본에선 단어 발음을 입력해서, 즉 단어 단위로 바꾼다. (한자를 버려야 동양이 산다. 이런 중국, 일본에선 휴대폰으로 어떻게 문자를 날리겠는가? 전쟁터에서 암호 해독에도 불리하겠다.)

U+는 유니코드란 뜻이다. 뒤의 4자리는 16진수이다. 한 줄에는 16개의 문자가 나온다. 0~F까지 16진수에 대응하며 U+XXXx에서 마지막 x에 들어가는 숫자다. 한자의 배치 순서는 부수+획수 순서이다.

유니코드 버전 1.0 한중일 통합 한자 20,902자 독음 목록
유니코드 버전 1.0 한중일 통합 한자 20,902자 획수 목록
유니코드 버전 1.0 한중일 통합 한자 20,902자 부수 목록

일단 여기서 끊는데 자세히 보기 하고 기다리면 모든 목록을 볼 수 있다.