字符串MBCS编码和UNICODE编码的相互转换

unicode转换  时间:2021-04-12  阅读:()

MBCS编码和UNICODE编码的相互转换今天写的一段代码涉及到MBCS编码和UNICODE编码的相互转换查了一下M SDN的相关资料整理如下

在VC6中默认使用MBCS编码即多字节字符实际就是支持大于0x80的AS CII码。这样一个中文字可以表示为2个字节 GB2312就是这样表示的。

VC6的默认安装是不带UNICODE库的要在VC6中写UNI CODE程序必须安装CRT和MFC的Uni c ode库。

要使你的程序支持Unicode要在你的项目属性中去掉"_MBCS"宏定义增加"UNICO DE"和"_UNICODE"两个宏定义。 注意这两个都应该加上 因为CRT和MFC使用UNICODE定义而STL则使用_UNICODE

如果你的程序是MF C的则Unic ode版MF C库的入口点是wWinMai nCRT Startup。

为了方便开发者VC6中提供了Tchar.h里面定义了一些宏用来帮助写两种编码都兼容的代码。

类型

一般文本

数据类型名称已定义_TCHAR char char wchar_t

_TINT int int wint_t

_TSCHAR signedchar signedchar wchar_t

_TUCHAR unsigned char unsigned char wchar_t

_TXCHAR char unsigned char wchar_t

CRT中的相关函数在Tchar.h中都定义了相应的替代基本是将str换成了_tc s 比如CRT中的unsigned int strle n(const char *)现在是unsigned int _tcslen(const TCHAR*)在Unio cde时将被替换为unsigned int_wcslen(const wchar_t)*而在MBC S时会被替换为unsigned int_mc slen(const char*)。

看写Unic ode和MBCS兼容的代码挺容易的吧我总结了一些替换规则

1将char换成TCHAR(unsigned char必须去掉unsigne d)

2将str函数换成_tcs函数

3将字符串常量定义加要_T("")宏

4 printf函数族必须修改为wprint f不过要注意千万不要使用wprintf函数来解析char型

很多时候程序中既需要Unicode又需要使用ASCII这时需要用到操作系统的2个API

WideCharToMulti Byte用来将Uni c ode字符串转化为MBCS的

Multi ByteToWide Char用来将MBC S字符串转化为Uni c ode的

一些注意事项

在Unic ode编码下 sizeof没那么可靠了memset( ,0, sizeof())的习惯用法可能会出大错改成memset(,0,sizeof()/szieof(TCHAR))就没事了呵呵

在Unic ode下一个中文字符就是一个字符 len=strlen()/2;这样可不行了

用VC6进行UNICODE编程

最近试图将自己的程序编译成Unicode版本费了不少力气相关内容整理如下适用于VC6但VC7、 VC8应该也差不多的后者新建项目缺省即按Unicode编译。

1.添加UNICODE和_UNICODE预处理定义

位置 Project Settings ->C/C++->Preprocessor definition s

添加了这两个定义后MFC的一些内置类型如TCHAR、 CString都将转为支持宽字符类型

wchar_t

2.使用宽字符相关类型如char->TCHAR、 char *->LPTSTR、 const char *->LPCTSTR

3.对字符串常量使用_T()宏

4.替换C库中的中字符串操作函数如strlen->_tc s len、 strc mp->_tc s cmp等

类似的还有C库中字符串与数字的转换函数如atoi ->_ttoi、 itoa->_itot等

5.将Projec t S ettings ->Link->Output->Entry P oint设为w WinMainCR T S T artup

否则会有如下错误msvcrtd.lib(crtexew.obj) :error LNK2001 :unres olved external symbol_WinMain@16

6.C++标准库中的string有对应的宽字符版本wstring两者均为basic_string的特化版本可在StdAfx.h中

#ifdef_UNICODE

#define tstring wstring

#els e

#define tstring string

#endif

然后在代码中使用tstring即可类似的还有fstream/wfstream、 ofstream/wofstream等

7.宽字符版本的英文字符仍可直接与整型值进行比较如

CString s=_T("ABC");

ASSERT(s[0]=='A');

8.对于仍需使用ANSI字符串的地方如第三方类库的接口仍可继续使用如需进行Unicode 字符串和ANSI 字符串的互转换 可使用 MultiByteT oWide Char 和WideCharToMulti Byte

来源 http://blog.163.c om/s sb_it/blog/s tatic/4487616520083910857238/

Unic o de 宽字节字符集

1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数

可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节既包括单字节也包括双字节字符串。

调用s trlen函数无法真正了解字符串中究竟有多少字符它只能告诉你到达结尾的0之前有多少个字节。

2. 如何对DBCS 双字节字符集字符串进行操作

函数 描述

PTSTR CharNext  LPCTSTR  ; 返回字符串中下一个字符的地址

PTSTR CharPrev  LPCTSTR, LPCTSTR  返回字符串中上一个字符的地址

BOOL IsDBCSLeadByte( BYTE ) 如果该字节是DBCS字符的第一个字节则返回非0值

3. 为什么要使用Unic ode

1 可以很容易地在不同语言之间进行数据交换。

2 使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。

3 提高应用程序的运行效率。

Windows 2000是使用Unicode从头进行开发的如果调用任何一个Windows函数并给它传递一个ANSI字符串那么系统首先要将字符串转换成Unicode然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串系统就会首先将Unicode字符串转换成ANSI字符串然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序就能够使你的应用程序更加有效地运行。

Windows CE 本身就是使用Unic ode的一种操作系统完全不支持ANSI Windows函数

Windows 98 只支持ANSI只能为ANSI开发应用程序。

Microsoft公司将COM从16位Window s转换成Win32时公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。

4. 如何编写Unicode源代码

Microsoft公司为Uni c ode设计了Window sAPI这样可以尽量减少代码的影响。实际上可以编写单个源代码文件以便使用或者不使用Unicod e来对它进行编译。只需要定义两个宏UNICODE和_UNICODE就可以修改然后重新编译该源文件。

_UNICODE宏用于C运行期头文件而UNIC ODE宏则用于Windows头文件。当编译源代码模块时通常必须同时定义这两个宏。

5.Windows定义的Unic o de数据类型有哪些

数据类型 说明

WCHAR Unicode字符

PWSTR 指向Unicode字符串的指针

PCWSTR 指向一个恒定的Uni c ode字符串的指针

对应的ANSI数据类型为CHAR LPSTR和LPCSTR。

ANSI/Unico de通用数据类型为TCHAR PTSTR,LPCTSTR。

6. 如何对Unicode进行操作

字符集 特性 实例

ANSI 操作函数以str开头 strcpy

Unicode 操作函数以wcs开头wcscpy

MBC S 操作函数以_mb s开头_mb s cpy

ANSI/Unicode 操作函数以_tcs开头_tcscpy C运行期库

ANSI/Unic o de 操作函数以lstr开头lstrcpy Windo ws函数

所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示 Unic o de版本函数结尾以W表示。Windows会如下定义#ifdef UNICODE

#define CreateWindowEx CreateWindowExW

#els e

#define CreateWindowEx CreateWindowExA

#endif // !UNICO DE

7. 如何表示Unicode字符串常量

字符集 实例

ANSI “string”

Unicode L“string”

ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0]==_TEXT(„J‟) ){ }

8. 为什么应当尽量使用操作系统函数

这将有助于稍稍提高应用程序的运行性能因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。 由于这些函数使用得很多 因此在应用程序运行时它们可能已经被装入RAM。

如 S tr Cat S tr Chr S tr Cmp和S tr Cpy等。

9. 如何编写符合ANSI和Unic ode的应用程序

 1 将文本串视为字符数组而不是chars数组或字节数组。

2 将通用数据类型如TCHA R和PT STR用于文本字符和字符串。

3 将显式数据类型如BYTE和PBYTE用于字节、字节指针和数据缓存。

4 将TEXT宏用于原义字符和字符串。

5 执行全局性替换例如用PTSTR替换PSTR。

6 修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递sizeof(szBuffer)/sizeof(TCHAR)。另外如果需要为字符串分配一个内存块并且拥有该字符串中的字符数目那么请记住要按字节来分配内存。这就是说应该调用malloc(nCharacters *sizeof(TCHAR)),而不是调用mallo c(nCharacters)。

10. 如何对字符串进行有选择的比较

通过调用CompareString来实现。

标志 含义

NORM_IGNORECASE 忽略字母的大小写

NORM_IGNOREKANA TYPE 不区分平假名与片假名字符

NORM_IGNORENONS PACE 忽略无间隔字符

NORM_IGNORESYMB OLS 忽略符号

NORM_IGNOREWIDTH 不区分单字节字符与作为双字节字符的同一个字符

SORT_STRINGSORT 将标点符号作为普通符号来处理

11. 如何判断一个文本文件是ANSI还是Unicode

判断如果文本文件的开头两个字节是0xFF和0xFE那么就是Unicode否则是ANSI。

12. 如何判断一段字符串是ANSI还是Unic ode

用IsTextUni c ode进行判断。IsTextUnic ode使用一系列统计方法和定性方法以便猜测缓存的内容。由于这不是一种确切的科学方法因此IsTextUnic ode有可能返回不正确的结果。

13. 如何在Unicode与ANSI之间转换字符串

Window s 函数MultiByteTo WideC har用于将多字节字符串转换成宽字符串 函数WideChar ToMultiByt e将宽字符串转换成等价的多字节字符串。

Hostodo:$19.99/年KVM-1GB/12GB/4TB/拉斯维加斯

Hostodo发布了几款采用NVMe磁盘的促销套餐,从512MB内存起,最低年付14.99美元,基于KVM架构,开设在拉斯维加斯机房。这是一家成立于2014年的国外VPS主机商,主打低价VPS套餐且年付为主,基于OpenVZ和KVM架构,产品性能一般,数据中心目前在拉斯维加斯和迈阿密,支持使用PayPal或者支付宝等付款方式。下面列出几款NVMe硬盘套餐配置信息。CPU:1core内存:512MB...

香港ceranetworks(69元/月) 2核2G 50G硬盘 20M 50M 100M 不限流量

香港ceranetworks提速啦是成立于2012年的十分老牌的一个商家这次给大家评测的是 香港ceranetworks 8核16G 100M 这款产品 提速啦老板真的是豪气每次都给高配我测试 不像别的商家每次就给1核1G,废话不多说开始跑脚本。香港ceranetworks 2核2G 50G硬盘20M 69元/月30M 99元/月50M 219元/月100M 519元/月香港ceranetwork...

RangCloud19.8元/月,香港cn2云主机,美国西雅图高防云主机28元/月起

rangcloud怎么样?rangcloud是去年年初开办的国人商家,RangCloud是一家以销售NAT起步,后续逐渐开始拓展到VPS及云主机业务,目前有中国香港、美国西雅图、韩国NAT、广州移动、江门移动、镇江BGP、山东联通、山东BGP等机房。目前,RangCloud提供香港CN2线路云服务器,电信走CN2、联通移动直连,云主机采用PCle固态硬盘,19.8元/月起,支持建站使用;美国高防云...

unicode转换为你推荐
上海市浦东新区人民法院民事判决书(2009)浦民三(知)初字第206号购物车什么叫淘宝购物车管理员密码进入192.168.1.1要管理员密码是什么密码网店系统哪个公司开发商城系统比较好?论坛勋章论坛勋章设置多用户商城系统多商户商城系统有哪些好处搜索引擎教程搜索引擎的信息检索方法漏洞需要修复吗漏洞要修复吗什么是网站优化什么是网站优化?优化对于网站又什么好处?我是4号在最后还款日后的第三天还了最低还款,会影响征信吗,比如说我最后还款日是1号我4号完成最低还款?
qq空间域名 host1plus adman windows主机 128m内存 域名优惠码 表格样式 directadmin parseerror 服务器cpu性能排行 windows2003iso 免费全能空间 免费网站申请 个人域名 有益网络 刀片服务器的优势 网站cdn加速 北京双线 国外ip加速器 吉林铁通 更多