문자열 인코딩
[아스키 코드]
[유니코드]
UTF-8
- 8비트, 1바이트 로 인코딩 한다는 의미
- 아스키 코드와 완벽 호환
- 1~6 바이트 사이에서 표현 가능
Hello
// 영어는 아스키 코드와 마찬가지로 5바이트 써서 글자대로 표현됨
안녕하세요
// 총 15바이트 사용된다
// 글자 개당 3바이트 이용
안
0xec 1110 1100
0x95 1001 0101
0x88 1000 1000
첫번째 바이트의 시작이 1110 이면 3 바이트 이용하는 글자 의미
두번째와 세번째 바이트 의 시작 10 도 UTF-8 구성하는 용도로만 사용된다
구성 용도 빼고 실제 전환된 유니코드는 1100 010101 001000
이를 16진수로 변환하면 0xC548 이는 유니코드 규칙에 따라 안 이라는 글자
- 오늘날 가장 많이 이용된다
- JSON에서도 오직 UTF-8만을 지원한다
[UTF-16]
- 16비트 곧 2바이트로 인코딩
- 자바와 윈도우에 이런 문자집합을 이용 해왔다
- 아스키 코드와 호환되지 않는다
- 다른 외부 통신시 UTF-8 로 변환하는데 좋다