문자열 인코딩

[아스키 코드]

처음 정립한 표준
영어 특수문자 128가지

[유니코드]

ISO에서 정한 표준 언어 코드

UTF-8

8비트, 1바이트 로 인코딩 한다는 의미
아스키 코드와 완벽 호환
1~6 바이트 사이에서 표현 가능
- 웬만하면 4바이트 이하로 문자 하나 표현

Hello 
// 영어는 아스키 코드와 마찬가지로 5바이트 써서 글자대로 표현됨

안녕하세요
// 총 15바이트 사용된다
// 글자 개당 3바이트 이용

안
0xec 1110 1100
0x95 1001 0101
0x88 1000 1000

첫번째 바이트의 시작이 1110 이면 3 바이트 이용하는 글자 의미
두번째와 세번째 바이트 의 시작 10 도 UTF-8 구성하는 용도로만 사용된다

구성 용도 빼고 실제 전환된 유니코드는 1100 010101 001000
이를 16진수로 변환하면 0xC548 이는 유니코드 규칙에 따라 안 이라는 글자

오늘날 가장 많이 이용된다
JSON에서도 오직 UTF-8만을 지원한다

[UTF-16]

16비트 곧 2바이트로 인코딩
자바와 윈도우에 이런 문자집합을 이용 해왔다
아스키 코드와 호환되지 않는다
다른 외부 통신시 UTF-8 로 변환하는데 좋다