unicode字符集unicode字符集是几个字节表示一个字符?为什么需要utf-8?

unicode字符集  时间:2021-07-13  阅读:()

unicode、nls、 utf-8,这三种字符集有什么关系?

Unicode是一种字符集,和ascii是同一个概念,而UTF是一种存储方式(格式) Unicode只是一个字符集,它只规定了符号的二进制代码,每个字符都使用2个字节来存储,没有实现存储方法。

UTF-8是将字符对应的unicode十六进制进行存储,存储的字节可能是1、2、3、4个字节。

它是Unicode的实现方式之一,其它还有UTF-16、UTF-32 UTF-8最大的一个特点,就是它是一种变长的编码方式。

它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8的编码规则很简单,只有二条: 对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。

因此对于英语字母,UTF-8编码和ASCII码是相同的。

对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。

剩下的没有提及的二进制位,全部为这个符号的unicode码。

下表总结了编码规则,字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式 (十六进制) | (二进制) —————————————————————— 0000 0000 - 0000 007F | 0xxxxxxx 0000 0080 - 0000 07FF | 110xxxxx 10xxxxxx 0000 0800 - 0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx 0001 0000 - 0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx NLS:National Language Support ,顾名思义,是本地语言支持,其本身不是一种编码或字符集

unicode字符和非unicode字符区别在哪里?

Unicode给每个字符提供了一个唯一的数字, 不论是什么平台, 不论是什么程序, 不论是什么语言。

基本上,计算机只是处理数字。

它们指定一个数字,来储存字母或其他字符。

在创造Unicode之前,有数百种指定这些数字的编码系统。

没有一个编码可以包含足够的字符:例如,单单欧州共同体就需要好几种不同的编码来包括所有的语言。

即使是单一种语言,例如英语,也没有哪一个编码可以适用于所有的字母,标点符号,和常用的技术符号。

这些编码系统也会互相冲突。

也就是说,两种编码可能使用相同的数字代表两个不同的字符,或使用不同的数字代表相同的字符。

任何一台特定的计算机(特别是服务器)都需要支持许多不同的编码,但是,不论什么时候数据通过不同的编码或平台之间,那些数据总会有损坏的危险。

Unicode正在改变所有这一切! Unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论什么语言。

Unicode标准已经被这些工业界的领导们所采用,例如:Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys和其它许多公司。

最新的标准都需要Unicode,例如XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML等等,并且,Unicode是实现ISO/IEC 10646的正规方式。

许多操作系统,所有最新的浏览器和许多其他产品都支持它。

Unicode标准的出现和支持它工具的存在,是近来全球软件技术最重要的发展趋势。

将Unicode与客户服务器或多层应用程序和网站结合,比使用传统字符集节省费用。

Unicode使单一软件产品或单一网站能够贯穿多个平台,语言和国家,而不需要重建。

它可将数据传输到许多不同的系统,而无损坏。

关于Unicode学术学会 Unicode学术学会是一个非盈利的组织,是为发展,扩展和推广使用Unicode标准而建立的,Unicode学术学会设立了现代软件产品和标准文本的表示法。

学术学会的会员代表了广泛领域的计算机和资讯工业的公司和组织。

学术学会只由会员提供资金。

Unicode学术学会的会员资格开放给世界上任何支持Unicode标准和希望协助其扩展和执行的组织及个人。

unicode码可以表示多少字符

最初的unicode编码是固定长度的,16位,也就是2两个字节代表一个字符,这样一共可以表示65536个字符。

显然,这样要表示各种语言中所有的字符是远远不够的。

Unicode4.0规范考虑到了这种情况,定义了一组附加字符编码,附加字符编码采用2个16位来表示,这样最多可以定义1048576个附加字符,目前unicode4.0只定义了45960个附加字符。

Unicode只是一个编码规范,目前实际实现的unicode编码只要有三种:UTF-8,UCS-2和UTF-16,三种unicode字符集之间可以按照规范进行转换。

unicode字符集是多少位的字符编码

Unicode用4个字节,数字0-0x10FFFF来映射字符,有1114112个码位。

码位就是可以分配给字符的数字。

全世界的字符加起来也用不了所有的码位。

unicode字符集是几个字节表示一个字符?为什么需要utf-8?

UTF-8, 都是由 1~4 字节组成的, 至于是多少字节, 是根据第一个字节的内容判断的。

UNICODE 是一个超集, 内包含 UTF-8, UTF-16, UTF-32, UTF-8 最少 1 字节, UTF-16最少 2 字节, 如此类推。

全英文环境上,UTF-8 的优势是字节少, 相对传送效率高。

至于 VC++ UNICODE 编程, 类如 CString 等规定是 2 字节 16-bit 组成, 个人认为是一种误导与错误概念。

只不过微软公司 WINDOWS 独大, 可以自己歪曲标准, 这也是没有办法, 真有委屈承受, 或是改用 LINUX。

织梦DEDECMS即将授权收费和维权模式 站长应对的几个方法

这两天在站长群里看到不少有使用DEDECMS织梦程序的朋友比较着急,因为前两天有看到来自DEDECMS,我们熟悉的织梦程序官方发布的公告,将会在10月25日开始全面商业用途的使用DEDECMS内容管理程序的会采用授权收费模式,如果我们有在个人或者企业商业用途的,需要联系且得到授权才可以使用,否则后面会通过维权的方式。对于这个事情,我们可能有些站长经历过,比如字体、图片的版权。以及有一些国内的CMS...

Virtono:€23.7/年,KVM-2GB/25GB/2TB/洛杉矶&达拉斯&纽约&罗马尼亚等

Virtono最近推出了夏季促销活动,为月付、季付、半年付等提供9折优惠码,年付已直接5折,而且下单后在LET回复订单号还能获得双倍内存,不限制付款周期。这是一家成立于2014年的国外VPS主机商,提供VPS和服务器租用等产品,商家支持PayPal、信用卡、支付宝等国内外付款方式,可选数据中心包括罗马尼亚、美国洛杉矶、达拉斯、迈阿密、英国和德国等。下面列出几款VPS主机配置信息,请留意,下列配置中...

IntoVPS:按小时计费KVM月费5美元起($0.0075/小时),6个机房可选

IntoVPS是成立于2004年的Hosterion SRL旗下于2009年推出的无管理型VPS主机品牌,商家提供基于OpenStack构建的VPS产品,支持小时计费是他的一大特色,VPS可选数据中心包括美国弗里蒙特、达拉斯、英国伦敦、荷兰和罗马尼亚等6个地区机房。商家VPS主机基于KVM架构,最低每小时0.0075美元起($5/月)。下面列出几款VPS主机配置信息。CPU:1core内存:2GB...

unicode字符集为你推荐
gravatar游戏王mycrad怎样换头像?策略组简述组策略的概念 急急急bindservice如何启动和停止用service备忘录模式为什么我的华为手机界面总是有个框框在备忘录上面调度系统生产调度系统网页微信客户端手机微信客户端怎么打开网页smartupload为什么使用smartupload执行上传保存操作时用这句smart.save("upload")失败用smart.save("/upload")成功色库赤峰中色库博红烨锌业有限公司就是冶炼厂在 赤峰的 什么地方,一 人知道吗???cf加速器玩CF需要用加速器吗?图片存储怎么设置图片的保存类型
域名管理 希网动态域名 ixwebhosting 青果网 国外在线代理 华为网络硬盘 52测评网 日本bb瘦 asp免费空间申请 稳定免费空间 服务器合租 metalink 国外视频网站有哪些 香港亚马逊 免费asp空间 阿里云免费邮箱 华为k3 lamp什么意思 乐视会员免费领取 广东服务器托管 更多