UTF-8就是Unicode Transformation Format-8是Unicode的一种变换编码格式。
UTF-8有以下特性:
UCS字符U+0000到U+007F(ASCII)被编码为字节0x00到0x7F(ASCII兼容).这意味着只包含7位ASCII字符的文件在ASCII和UTF-8两种编码方式下是一样的.
所有>U+007F的UCS字符被编码为一个多个字节的串,每个字节都有标记位集.因此,ASCII字节(0x00-0x7F)不可能作为任何其他字符的一部分.
表示非ASCII字符的多字节串的第一个字节总是在0xC0到0xFD的范围里,并指出这个字符包含多少个字节.多字节串的其余字节都在0x80到0 xBF范围里.这使得重新同步非常容易,并使编码无国界,且很少受丢失字节的影响.
可以编入所有可能的231个UC S代码
UTF-8编码字符理论上可以最多到6个字节长,然而16位B MP字符最多只用到3字节长.
Bigendian UCS-4字节串的排列顺序是预定的.
字节0xFE和0xFF在UTF-8编码中从未用到.
下列字节串用来表示一个字符.用到哪个串取决于该字符在Unicode中的序号.
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx10xxxxxx从上表还可以看出 UTF-8每个编码字符都不可能以“10”开头 “10”是以连接符的形式出现在后面的编码字节开头。因此UTF-8编码在存储和传输时是不容易出错的。
下面是UTF-8到Unicode的编码转换代码(J2 ME环境下的实现)UTFC2UniC方法包含了编码转换逻辑。/**
*将UTF-8字节数据转化为Unicode字符串
*@p aram ut f_data b yte[] -U TF-8编码字节数组
*@param len int -字节数组长度
*@return String-变换后的Unicode编码字符串
*/pub lic static String UTF2Uni(byte[]utf_data, int len){
StringBuffer unis=new StringBuffer();char unic=0;int ptr=0;int c ntB its=0;fo r(;p tr<len;)
{cntB its=getC ntB its(ut f_da ta[ptr]);if(c ntB its==-1)
{
++ptr;c o nt inue;
}elseif(c ntB its==0)
{unic=UTFC2UniC(utf_data,ptr,cntB its);
++ptr;
}else
{unic=UTFC2UniC(utf_data,ptr,cntB its);ptr+=cntBits;
}unis.appe nd(unic);
}return unis.to S tring();
}
/**
*将指定的UTF-8字节组合成一个Unicode编码字符
*@p aram ut f b yte[] -UTF-8字节数组
*@param sptr int -编码字节起始位置
*@param cntB its int -编码字节数
*@return char-变换后的Unicode字符
*/pub lic static char UTFC2UniC(byte[]utf, int sptr, int cntBits)
{
/*
Unicode<->UTF-8
U-00000000-U-0000007F: 0 xxxxxxx
U-00000080-U-000007FF: 110xxxxx 10 xxxxxx
U-00000800-U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000-U-001 FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000-U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000-U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
*/int uniC=0; // repre sent the unicode charbyte firstByte=utf[sptr];int ptr=0; // po inter 0~15
//resolve single byte UTF-8 encoding charif(c ntB its==0)return(c har)fir stByte;
//re so lve the first bytefirs tB yte&=(1<<(7-c nt B its)) - 1;
//resolve multiple bytes UTF-8 encoding char(except the first byte)fo r(int i=sptr+c ntB its - 1; i>sp tr; --i)
{byte utfb=utf[i];uniC|=(utfb&0x3 f)<<ptr;ptr+=6;
}uniC|=fir stB yte<<p tr;return(c har)uniC;
}
//根据给定字节计算UTF-8编码的一个字符所占字节数
//UTF-8规则定义字节标记只能为0或2~6
private static int getCntBits(byte b)
{int cnt=0;i f(b==0)re t ur n-1;for(int i=7; i>=0; --i)
{if(((b>>i)&0x1)==1)
++cnt;elseb re ak;
}return(cnt>6| |cnt==1)?-1 :cnt;
}
参考资料
《UTF-8 and Unicode FAQ》——http://www.linuxforum.net/books/UTF-8-Unicode.html
HostKvm商家我们也不用多介绍,这个服务商来自国内某商家,旗下也有多个品牌的,每次看到推送信息都是几个服务商品牌一起推送的。当然商家还是比较稳定的,商家品牌比较多,这也是国内商家一贯的做法,这样广撒网。这次看到黑五优惠活动发布了,针对其主打的香港云服务器提供终身6折的优惠,其余机房服务器依然是8折,另还有充值50美元赠送5美元的优惠活动,有需要的可以看看。HostKvm是一个创建于2013年的...
今天遇到一个网友,他之前一直在用阿里云虚拟主机,我们知道虚拟主机绑定域名是直接在面板上绑定的。这里由于他的网站项目流量比较大,虚拟主机是不够的,而且我看他虚拟主机已经有升级过。这里要说的是,用过阿里云虚拟主机的朋友可能会比较一下价格,实际上虚拟主机价格比云服务器还贵。所以,基于成本和性能的考虑,建议他选择云服务器。毕竟他的备案都接入在阿里云。这里在选择阿里云服务器后,他就蒙圈不知道如何绑定域名。这...
HaBangNet支持支付宝和微信支付,只是价格偏贵,之前国内用户并不多。这次HaBangNet推出三个特价套餐,其中美国机房和德国机房价格也还可以,但是香港机房虽然是双向CN2 GIA线路,但是还是贵的惊人,需要美国和德国机房的可以参考下。HaBangNet是一家成立于2014年的香港IDC商家,中文译名:哈邦网络公司,主营中国香港、新加坡、澳大利亚、荷兰、美国、德国机房的虚拟主机、vps、专用...