MBCS编码和UNICODE编码的相互转换今天写的一段代码涉及到MBCS编码和UNICODE编码的相互转换查了一下M SDN的相关资料整理如下
在VC6中默认使用MBCS编码即多字节字符实际就是支持大于0x80的AS CII码。这样一个中文字可以表示为2个字节 GB2312就是这样表示的。
VC6的默认安装是不带UNICODE库的要在VC6中写UNI CODE程序必须安装CRT和MFC的Uni c ode库。
要使你的程序支持Unicode要在你的项目属性中去掉"_MBCS"宏定义增加"UNICO DE"和"_UNICODE"两个宏定义。 注意这两个都应该加上 因为CRT和MFC使用UNICODE定义而STL则使用_UNICODE
如果你的程序是MF C的则Unic ode版MF C库的入口点是wWinMai nCRT Startup。
为了方便开发者VC6中提供了Tchar.h里面定义了一些宏用来帮助写两种编码都兼容的代码。
类型
一般文本
数据类型名称已定义_TCHAR char char wchar_t
_TINT int int wint_t
_TSCHAR signedchar signedchar wchar_t
_TUCHAR unsigned char unsigned char wchar_t
_TXCHAR char unsigned char wchar_t
CRT中的相关函数在Tchar.h中都定义了相应的替代基本是将str换成了_tc s 比如CRT中的unsigned int strle n(const char *)现在是unsigned int _tcslen(const TCHAR*)在Unio cde时将被替换为unsigned int_wcslen(const wchar_t)*而在MBC S时会被替换为unsigned int_mc slen(const char*)。
看写Unic ode和MBCS兼容的代码挺容易的吧我总结了一些替换规则
1将char换成TCHAR(unsigned char必须去掉unsigne d)
2将str函数换成_tcs函数
3将字符串常量定义加要_T("")宏
4 printf函数族必须修改为wprint f不过要注意千万不要使用wprintf函数来解析char型
很多时候程序中既需要Unicode又需要使用ASCII这时需要用到操作系统的2个API
WideCharToMulti Byte用来将Uni c ode字符串转化为MBCS的
Multi ByteToWide Char用来将MBC S字符串转化为Uni c ode的
一些注意事项
在Unic ode编码下 sizeof没那么可靠了memset( ,0, sizeof())的习惯用法可能会出大错改成memset(,0,sizeof()/szieof(TCHAR))就没事了呵呵
在Unic ode下一个中文字符就是一个字符 len=strlen()/2;这样可不行了
用VC6进行UNICODE编程
最近试图将自己的程序编译成Unicode版本费了不少力气相关内容整理如下适用于VC6但VC7、 VC8应该也差不多的后者新建项目缺省即按Unicode编译。
1.添加UNICODE和_UNICODE预处理定义
位置 Project Settings ->C/C++->Preprocessor definition s
添加了这两个定义后MFC的一些内置类型如TCHAR、 CString都将转为支持宽字符类型
wchar_t
2.使用宽字符相关类型如char->TCHAR、 char *->LPTSTR、 const char *->LPCTSTR
3.对字符串常量使用_T()宏
4.替换C库中的中字符串操作函数如strlen->_tc s len、 strc mp->_tc s cmp等
类似的还有C库中字符串与数字的转换函数如atoi ->_ttoi、 itoa->_itot等
5.将Projec t S ettings ->Link->Output->Entry P oint设为w WinMainCR T S T artup
否则会有如下错误msvcrtd.lib(crtexew.obj) :error LNK2001 :unres olved external symbol_WinMain@16
6.C++标准库中的string有对应的宽字符版本wstring两者均为basic_string的特化版本可在StdAfx.h中
#ifdef_UNICODE
#define tstring wstring
#els e
#define tstring string
#endif
然后在代码中使用tstring即可类似的还有fstream/wfstream、 ofstream/wofstream等
7.宽字符版本的英文字符仍可直接与整型值进行比较如
CString s=_T("ABC");
ASSERT(s[0]=='A');
8.对于仍需使用ANSI字符串的地方如第三方类库的接口仍可继续使用如需进行Unicode 字符串和ANSI 字符串的互转换 可使用 MultiByteT oWide Char 和WideCharToMulti Byte
来源 http://blog.163.c om/s sb_it/blog/s tatic/4487616520083910857238/
Unic o de 宽字节字符集
1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数
可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节既包括单字节也包括双字节字符串。
调用s trlen函数无法真正了解字符串中究竟有多少字符它只能告诉你到达结尾的0之前有多少个字节。
2. 如何对DBCS 双字节字符集字符串进行操作
函数 描述
PTSTR CharNext LPCTSTR ; 返回字符串中下一个字符的地址
PTSTR CharPrev LPCTSTR, LPCTSTR 返回字符串中上一个字符的地址
BOOL IsDBCSLeadByte( BYTE ) 如果该字节是DBCS字符的第一个字节则返回非0值
3. 为什么要使用Unic ode
1 可以很容易地在不同语言之间进行数据交换。
2 使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。
3 提高应用程序的运行效率。
Windows 2000是使用Unicode从头进行开发的如果调用任何一个Windows函数并给它传递一个ANSI字符串那么系统首先要将字符串转换成Unicode然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串系统就会首先将Unicode字符串转换成ANSI字符串然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序就能够使你的应用程序更加有效地运行。
Windows CE 本身就是使用Unic ode的一种操作系统完全不支持ANSI Windows函数
Windows 98 只支持ANSI只能为ANSI开发应用程序。
Microsoft公司将COM从16位Window s转换成Win32时公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。
4. 如何编写Unicode源代码
Microsoft公司为Uni c ode设计了Window sAPI这样可以尽量减少代码的影响。实际上可以编写单个源代码文件以便使用或者不使用Unicod e来对它进行编译。只需要定义两个宏UNICODE和_UNICODE就可以修改然后重新编译该源文件。
_UNICODE宏用于C运行期头文件而UNIC ODE宏则用于Windows头文件。当编译源代码模块时通常必须同时定义这两个宏。
5.Windows定义的Unic o de数据类型有哪些
数据类型 说明
WCHAR Unicode字符
PWSTR 指向Unicode字符串的指针
PCWSTR 指向一个恒定的Uni c ode字符串的指针
对应的ANSI数据类型为CHAR LPSTR和LPCSTR。
ANSI/Unico de通用数据类型为TCHAR PTSTR,LPCTSTR。
6. 如何对Unicode进行操作
字符集 特性 实例
ANSI 操作函数以str开头 strcpy
Unicode 操作函数以wcs开头wcscpy
MBC S 操作函数以_mb s开头_mb s cpy
ANSI/Unicode 操作函数以_tcs开头_tcscpy C运行期库
ANSI/Unic o de 操作函数以lstr开头lstrcpy Windo ws函数
所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示 Unic o de版本函数结尾以W表示。Windows会如下定义#ifdef UNICODE
#define CreateWindowEx CreateWindowExW
#els e
#define CreateWindowEx CreateWindowExA
#endif // !UNICO DE
7. 如何表示Unicode字符串常量
字符集 实例
ANSI “string”
Unicode L“string”
ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0]==_TEXT(„J‟) ){ }
8. 为什么应当尽量使用操作系统函数
这将有助于稍稍提高应用程序的运行性能因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。 由于这些函数使用得很多 因此在应用程序运行时它们可能已经被装入RAM。
如 S tr Cat S tr Chr S tr Cmp和S tr Cpy等。
9. 如何编写符合ANSI和Unic ode的应用程序
1 将文本串视为字符数组而不是chars数组或字节数组。
2 将通用数据类型如TCHA R和PT STR用于文本字符和字符串。
3 将显式数据类型如BYTE和PBYTE用于字节、字节指针和数据缓存。
4 将TEXT宏用于原义字符和字符串。
5 执行全局性替换例如用PTSTR替换PSTR。
6 修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递sizeof(szBuffer)/sizeof(TCHAR)。另外如果需要为字符串分配一个内存块并且拥有该字符串中的字符数目那么请记住要按字节来分配内存。这就是说应该调用malloc(nCharacters *sizeof(TCHAR)),而不是调用mallo c(nCharacters)。
10. 如何对字符串进行有选择的比较
通过调用CompareString来实现。
标志 含义
NORM_IGNORECASE 忽略字母的大小写
NORM_IGNOREKANA TYPE 不区分平假名与片假名字符
NORM_IGNORENONS PACE 忽略无间隔字符
NORM_IGNORESYMB OLS 忽略符号
NORM_IGNOREWIDTH 不区分单字节字符与作为双字节字符的同一个字符
SORT_STRINGSORT 将标点符号作为普通符号来处理
11. 如何判断一个文本文件是ANSI还是Unicode
判断如果文本文件的开头两个字节是0xFF和0xFE那么就是Unicode否则是ANSI。
12. 如何判断一段字符串是ANSI还是Unic ode
用IsTextUni c ode进行判断。IsTextUnic ode使用一系列统计方法和定性方法以便猜测缓存的内容。由于这不是一种确切的科学方法因此IsTextUnic ode有可能返回不正确的结果。
13. 如何在Unicode与ANSI之间转换字符串
Window s 函数MultiByteTo WideC har用于将多字节字符串转换成宽字符串 函数WideChar ToMultiByt e将宽字符串转换成等价的多字节字符串。
近日CloudCone发布了七月的特价便宜优惠VPS云服务器产品,KVM虚拟架构,性价比最高的为2核心1.5G内存1Gbps带宽5TB月流量,2.89美元/月,稳定性还是非常不错的,有需要国外便宜VPS云服务器的朋友可以关注一下。CloudCone怎么样?CloudCone服务器好不好?CloudCone值不值得购买?CloudCone是一家成立于2017年的美国服务器提供商,国外实力大厂,自己开...
LOCVPS(全球云)发布了新上韩国机房KVM架构主机信息,提供流量和带宽方式,适用全场8折优惠码,优惠码最低2G内存套餐月付仅44元起。这是一家成立较早的国人VPS服务商,目前提供洛杉矶MC、洛杉矶C3、和香港邦联、香港沙田电信、香港大埔、日本东京、日本大阪、新加坡、德国和荷兰等机房VPS主机,基于KVM或者XEN架构。下面分别列出几款韩国机房KVM主机配置信息。韩国KVM流量型套餐:KR-Pl...
提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑 由赣州王成璟网络科技有限公司旗下赣州提速啦网络科技有限公司运营 投资1000万人民币 在美国Cera 香港CTG 香港Cera 国内 杭州 宿迁 浙江 赣州 南昌 大连 辽宁 扬州 等地区建立数据中心 正规持有IDC ISP CDN 云牌照 公司。公司购买产品支持3天内退款 超过3天步退款政策。提速啦的市场定位提速啦主...