2018년 10월 25일 목요일

유니코드 버전 1.0 한중일 통합 한자 20,902자 부수 목록

2024-05-24-금 수정

네이버 사전을 통해 부수 검색을 한 것이다. 황당하게도 몇 개의 부수가 없다. 발족변 부수는 통으로 없다. 네이버 사전 안에서도 획수 검색과 부수 검색 결과가 불일치하는 게 많다. 개판이다. 유니코드는 부수 순서로 되어 있다고 하는데 엉뚱한 부수가 중간에 끼어든다. 아마도 유니코드 작성자, 네이버 둘 중에 하나가 실수 한 걸로 보인다. 없는 부수는 항의 전화 걸라고 ☎로 표시했다. (한자인데 뭘 기대하는가?)

없는 부수 : 발족변, 밥식변, 절구구변


유니코드 버전 1.0 한중일 통합 한자 20,902자 독음 목록
유니코드 버전 1.0 한중일 통합 한자 20,902자 획수 목록
유니코드 버전 1.0 한중일 통합 한자 20,902자 부수 목록

자세히 보기 하고 기다리면 나온다.

2018년 7월 4일 수요일

유니코드 버전 1.0 한중일 통합 한자 20,902자 독음 목록

2024-05-24-금 수정

유니코드 한중일 통합 한자를 보고 역시 한자는 답이 없다는 생각에 변함이 없다. 
총 8만7870자가 등록 되어 있는데 누가 이걸 다 외우고 사용하겠는가? 미쳤다.


유니코드 버전 1.0에선 2만0902자가 등록 되어 있다. 한자가 너무 많아서 16비트(65536개) 유니코드에 넣기 힘들어 한국, 중국, 일본에서 사용하는 한자 중에 모양이 유사하며 그 뜻이 같은 글자를 같은 코드로 통합했다. (즉 이것들은 원래 같은 한자란 얘기다.) 따라서 문자 코드만으로 그 한자가 사용되는 언어를 알아 낼 수 없으며, 중국의 간체자나 번체자, 일본의 구자체나 신자체 등 분명하게 모양이 다른 글자는 별도의 부호를 할당하고 있다. (중국이 한자 개혁 한다면서 간체자를 만들어서 오히려 코드 낭비를 하게 되었다.)

※ 언어 생활 가능한 수준 : 5천~6천자, 학자 수준 : 약 1만자, 나머진 중복이란 얘기다.

KS 완성형 한자 코드는 누가 만들었는지 한심할 정도다. 같은 한자인데 독음이 다르다고 2~4개까지 별도의 코드를 부여했다. 그것도 대부분 두음법칙이 적용된 한자다. 한자 배치 순서도 한국 독음+부수 순서이다. 了료와 了요를 다르게 보기 때문에 검색할 때 오히려 불편하다.

※ 두음법칙 : 단어의 첫머리가 다른 음으로 발음 되는 일. 첫소리의 ‘ㄹ’(R/L)과 이중 모음 앞의 ‘ㄴ’이 각각 ‘ㄴ’과 ‘ㅇ’으로 발음 됨《래일(來日)이 내일로, 녀자(女子)가 여자로 되는 따위》. 머리소리 법칙. 첫음절 R/L → N → 이중모음 → "ㅇ"


한국에서 한자 입력 방법


한자 하나에는 여러 독음이 있기 때문에 한자 입력을 위해서 MS 윈도우즈에선 한자를 대표 독음과 1대1로 대응 시키고 있다. 그 한자 독음 대응 목록을 여기에 올린다. 이 대응은 한국에서만 통한다. 중국어에선 독음이 다르고, 일본어에선 훈독, 음독, 음독도 여러 소리가 있어 통하지 않는다. 중국, 일본에선 단어 발음을 입력해서, 즉 단어 단위로 바꾼다. (한자를 버려야 동양이 산다. 이런 중국, 일본에선 휴대폰으로 어떻게 문자를 날리겠는가? 전쟁터에서 암호 해독에도 불리하겠다.)

U+는 유니코드란 뜻이다. 뒤의 4자리는 16진수이다. 한 줄에는 16개의 문자가 나온다. 0~F까지 16진수에 대응하며 U+XXXx에서 마지막 x에 들어가는 숫자다. 한자의 배치 순서는 부수+획수 순서이다.

유니코드 버전 1.0 한중일 통합 한자 20,902자 독음 목록
유니코드 버전 1.0 한중일 통합 한자 20,902자 획수 목록
유니코드 버전 1.0 한중일 통합 한자 20,902자 부수 목록

일단 여기서 끊는데 자세히 보기 하고 기다리면 모든 목록을 볼 수 있다.

2018년 1월 29일 월요일

초등학생을 위한 한국어 받아쓰기 교육 (한글 맞춤법)

2024-05-24-금 수정

초등학교 때 받아쓰기 못 해도 전혀 문제없다. 나이가 어리면 지능이 낮아 아무리 설명해도 어렵지만 좀 더 머리가 커지면 하루만 배우면 뭐든 쉽게 이해하니까. 초등학교 선행 학습이야말로 돈과 시간 낭비다. 중고등학교 때 선행 학습은 귀한 자기 학습 시간을 까먹어서 역효과이다. 남의 강의만 듣고 있으면 언제 자기 공부 하냐? 영어 강의만 듣고 있으면 영어 단어 암기가 되냐? 수학 강의만 들으면 수학 문제 풀 수 있어? 연습 해야 할 거 아냐?



1. 한국어 표기는 문법을 표현한다.



  • 문법 표현 : 먹었읍니다 → 먹었습니다. (성인들 표현)
  • 소리 표현 : 머거씀니다. (초딩들 표현)
  • 풀어 쓰기 : 머거ㅆㅁ니다 (알파벳 방식) ※ "으" 소리는 기본이라 생략

원래는 소리 표현을 썼었다. 그러다 한국어 문법을 연구하면서 한국어가 조립식이란 것을 알고 문법 표현으로 바꾼 것이다. 알파벳처럼 한글 음소 풀어 쓰기를 하면 "소리 표현 = 문법 표현"이 된다. 원래 한국어가 중국이나 동남아처럼 음절 단위 문법이 아닌 서양 말처럼 음소 단위 문법이기 때문이다. 초딩들이 받아쓰기 하며 당황해 하는 것은 문법 표현이 소리와 다르다는 점 때문이다.

세종대왕이 한글을 한자처럼 음소를 모아 쓴 이유는 미학적 이유 때문이겠지만 한국어 문법과는 안 맞는다. 서양 알파벳처럼 음소 풀어 쓰기를 했다면 인쇄술, 타자기, 컴퓨터에 한글 적용이 유리했을 것이다. 세종대왕이 인쇄술까지 연결해서 생각했다면 모아 쓰기를 하지 않았을 것이다. 활자가 몇 천 개로 늘어나니까. 음소를 풀어 쓰면 활자 수십 개로 끝난다. 그랬다면 동양의 과학은 한국이 이끌었을 것이다.



2. 한국어 = 교착어(조립어)


먹+어라!
막+아라!
먹+었+다.
막+았+니?
먹+습니+다. 
막+습니+까?
먹+었+읍니+다. = 먹+어씁니+다. → 먹+었+습니+다. (왜 이렇게 고쳤지?)
막+았+읍니+까? = 막+아씁니+까? → 막+았+습니+다. (왜 이렇게 고쳤지?)
하+어라! = 해+라!
되+었+니? = 됐+니?
하+ㅂ니+다 = 합니+다
알+ㅂ니+까? = 압니+까?

※ 하다→합니다. 알다→압니다. 받침이 없을 때나 "ㄹ"일 때는 "ㅂ니" 등 복잡한 규칙
※ 받침이 있을 때는 "습니". 왜 과거형 뒤엔 "읍니"로 썼을까? 이것도 초딩들이 이해 못 함.

초딩들에겐 이렇게 조립이 되었다고 가르쳐야 이해가 빠르다. 국어 교육이 한국어 철자법/문법보단 국문학(시/소설) 위주라 어른들 중에도 이걸 모르는 친구들이 상당히 많다. 어떻게 고등학교를 졸업한 친구들이 이런 것도 모를까? 한국에 기본이 안 된 친구들이 어디 한 둘이냐? 그 기본이 도대체 뭐냐를 놓고도 사람에 따라 다르니... 보통 한국에선 기본을 상식이라고도 하는데 지식이 아닌 예의라고 하지. 그런데 예절 교육 집에서나 학교에서나 받기나 하냐?

학교에선 모두가 알아야 하는 기본(상식/지식/예절)보단 서열 결정을 위한 달리기 시합에만 관심이 있기 때문이지. 졸업 시험이란 걸 만들어야 해. 졸업 시험 합격자 수가 적으면 그 학교는 폐교해야 한다. SKY에 진학한 학생 수가 그 학교의 성과가 되면 나머지 학생은 버려도 된다는 식이 될 것이니... 비싼 돈 내고 내 자식을 버릴 학교에 왜 보내니? 기본을 통과한 학생들만 졸업 시켜라. 윤석열 보라고. 서울대 검찰 출신이 저렇게 무식해서야 되겠냐?


3. 한국어(언어) ≠ 한글(문자)



의외로 이 둘을 구분 못 하는 친구들도 많더라. 문자(알파벳)와 언어(랭귀지)를 같은 걸로 오해하던데 한글과 한국어를 같은 뜻으로 사용하는 경우가 많다. 한글은 훌륭한 문자지만 한국어가 훌륭한 언어일까? 유럽 여러 언어가 있지만 모두 로마에서 비롯한 알파벳(문자)을 쓰고 있다. 현재 문자가 없는 소수민족들도 알파벳으로 그들 언어를 표현하고 있다. 중국어 경우도 알파벳으로 한자 발음(병음)을 표시하고 있다. 문자와 언어는 다른 것이다.

  • 중국어 : 워아이니
  • 일본어 : 아이시떼루
  • 영미어 : 아일러뷰

위는 3개의 언어를 1개의 문자(한글)로 표현한 것이다.
한글은 음절 단위 문법을 가진 중국, 일본, 동남아에서 쓰면 딱 맞는 글자다. (엄청난 사용자)
음소 단위 문법인 나라에서 쓰려면 음소 단위로 풀어 쓰기를 해야 한다.
알파벳 소문자처럼 필기로 쓰기 편하게 변형(진화)도 해야 한다.



4. 한국인 ≠ 몽골인



부계 유전자 족보를 보면 한국/일본은 중국/동남아와 형제지간이다. 대부분 농경민 유전자라 우유의 유당을 소화시킬 수 있는 유전자가 없으니 기마 유목민은 아니다. 헌데 문법이나 인종적 특징은 중국과 달리 북쪽 몽고/만주 지방 인종, 문법 특징과 비슷하다. 이는 한국과 중국이 같은 부계 조상에서 갈라진 후에, 고대 이전 언어적 영향, 유전적 영향을 몽고/만주 쪽에서 받았다는 얘기다. 모계가 몽골/만주 쪽 유전자이다. 그러니까 중국에서 올라온 남자들이 몽골/만주 쪽 여자들과 결혼했단 얘기다. 그런데 언어는 부계가 아닌 모계(몽골만주) 쪽을 따랐다.

한국인 부계 유전자 검사를 하면 반은 일본인, 거의 반은 중국인, 일부(10%) 몽골인과 유사하다고 나온다. 당연한 것이 일본인의 조상 절반인 도래인渡來人이 한반도와 같은 유전자이고, 만주 고조선이 한반도에 내려와 섞였는데 한국인의 반이 이 혈통이다. 그 고조선 사람들은 만주인과 비슷한 혈통이고, 만주인들도 중국 북방에서 갈라진 것이고, 지금은 중국인이 되었다. 이들을 중국에선 동이東夷라 부른다. 위치로 보면 동이(중원) ~ 고조선(북경근처?) ~ 동호東胡(서만주/동몽골) 모두 근처에 있었다. 동호는 지금의 몽골족으로 이어진다.

※ 동호 = 오환 + 선비, 선비 = 실위, 몽골 = 몽골 실위

  • 굴절어 : 인도유럽 어족(인도/이란/유럽/서아시아) - 음소단위 문법, 단어 변형 한다.
  • 교착어 : 우랄알타이 어족(중아시아/몽골/만주) - 음소단위 문법, 접사/조사/어미 조립.
  • 고립어 : 시노티베트 어족(중국/티베트/동남아) - 음절단위 문법, 단어 변형 없다.

지금 중남미 원주민들은 스페인어와 포르투갈어를 사용하고 있지만 유전적으로는 유럽인(남자)과 원주민(여자) 혼혈이다. 여기선 지배자인 부계 언어를 따랐다. 몽골인들도 유럽 백인 혈통과 접촉하면서 혼혈이 된 것으로 보인다. 칭기즈칸의 엄마는 아빠 예수게이(동몽골)가 타타르족(서몽골)의 신부를 납치한 것인데 타타르족은 약간 백인 혈통이다. 한국에선 달달족/달달인으로 불리는 양수척(고려)/백정(조선)이 바로 그들이다. 이들은 아직도 러시아에 남아 있다. 흉노, 돌궐도 백인 혈통 혼혈이다. 최초 기마 유목은 백인들이 시작한 것이기 때문이다.

최근엔 신석기 시대 요하 문명이 청동기 시대 고조선으로 이어지고, 여기서 갈라진 언어가 우랄 알타이 어족, 한국語, 일본語라고 한다. 한국어는 오래 전(신석기 시대? 청동기 시대?)에 갈라져 한반도로 내려온 것이고, 여기서 아마도 고조선 말기, 철기 초기, 일본 야요이 시대쯤에 일본어가 또 갈라져 나간다. 아마도 청동기인들이 기존의 신석기인들을 밀어 낸 거 같다.

  • 우랄 알타이 어족 = 우랄 어족 + 알타이 어족
  • 알타이 어족 = 투르크語(중앙아시아) + 몽골語 + 퉁구스語(만주)
  • 우랄 어족 = 핀란드語 + 헝가리語 + 사모예드語(시베리아) + 에스토니아語(핀란드 바로 아래 반도) 따위 

요하 문명은 철기 기마 유목 문화가 들어온 이후 동서로 넓게 갈라지는데 동쪽으로 가면 퉁구스, 서쪽으로 가면 몽골, 더 서쪽으로 가면 중앙아시아 투르크(돌궐)이다. 더 서쪽으로 가면 동유럽의 우랄 어족이 된다. 이러다 보니 유전적으로는 잡종인데 언어 문법 특징은 함께 공유하게 된다. 즉, 지배자의 유전자는 사라졌지만 그 언어는 남아 있는 것이다.

  • 알타이 어족 : 두음법칙·모음조화·교착어적 구조
  • 우랄 어족 : 교착성(膠着性)과 모음조화

지리적 거리, 언어적 거리, 유전적 거리로 보면 한국어는 바로 북쪽의 퉁구스(만주)나 남쪽의 일본어와 가장 유사해야 말이 된다. 실제로 일본어는 한국어와 문법 어순 표현이 가장 비슷하다.