ここから本文です

ANSI、Unicode、Unicode big endian、UTF-8の違いは何ですか。

whi********さん

2010/2/400:19:32

ANSI、Unicode、Unicode big endian、UTF-8の違いは何ですか。

閲覧数:
70,965
回答数:
1
お礼:
25枚

違反報告

ベストアンサーに選ばれた回答

プロフィール画像

カテゴリマスター

sii********さん

2010/2/413:35:33

メモ帳で文書を保存する時のエンコードのお話ですね。

コンピュータの世界は0と1でできていて、文字をそのまま解釈することはできません。そこで文字を0と1の集合に置き換えるのですが、この置き換え方には色々な方法があります。同じ文字でも置き換え方によってどのように表されるかが違います。この「置き換え方」のことを「文字符号化方式(エンコード)」と言います。

■ANSI
一般に「Shift_JIS」と呼ばれているエンコードがこれにあたります。Web制作でもよく使われています。

Shift_JIS - Wikipedia
http://ja.wikipedia.org/wiki/Shift_JIS

■Unicode・Unicode big endian・UTF-8
Unicodeという、世界中のたくさんの文字が収められた巨大な文字集合があります。1つのエンコードでたくさんの言語で使われている文字を表すことができるのが特徴です。

Unicodeの中にはさらにいくつかのエンコードがあり、Unicodeに存在する同じ文字でも、符号化したときの表し方が違います。ご質問の「Unicode」と「Unicode big endian」はそれぞれUTF-16というエンコードで、よく似ています。UTF-8はUTF-16とは別のエンコードですが、Unicodeであることに変わりはありませんので、Unicodeのたくさんの文字を扱うことができます。

Unicode - Wikipedia
http://ja.wikipedia.org/wiki/Unicode

------------

具体例として、「あ」という文字を考えてみましょう。「あ」をそれぞれのエンコードで符号化してみると、

Shift_JIS → 82 A0
Unicode → 30 42
Unicode big endian → 42 30
UTF-8 → E3 81 82

となります。これは16進数で表していて、2桁で1バイトになります。「0と1だけじゃないじゃないか!」と思われるかもしれませんが、それぞれのバイトをさらに分解すると0と1の集まりにもなります。

------------

カテゴリがホームページ作成なのでWeb制作の場面を考えると、基本的には日本語のWebサイトはShift_JIS、EUC-JP、UTF-8のいずれかを用いて作られることが多いです。なので、これらのどれか、メモ帳で言うならANSIかUTF-8を選んでおけばよいでしょう。

ただし、メモ帳のUTF-8はBOMという記号が必ず入るようになっているため、特定のシステム等においては不具合が生じる可能性もあります。なので、UTF-8を使うのであれば他のHTMLエディタなどを使って、BOMが入らないようにするのが望ましいと思います。

あわせて知りたい

この質問につけられたタグ

みんなで作る知恵袋 悩みや疑問、なんでも気軽にきいちゃおう!

Q&Aをキーワードで検索:

Yahoo! JAPANは、回答に記載された内容の信ぴょう性、正確性を保証しておりません。
お客様自身の責任と判断で、ご利用ください。
本文はここまでです このページの先頭へ

「追加する」ボタンを押してください。

閉じる

※知恵コレクションに追加された質問は選択されたID/ニックネームのMy知恵袋で確認できます。

不適切な投稿でないことを報告しました。

閉じる