unicode中文范围 - summerbell - ITeye博客

`

summerbell

浏览: 799638 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

107x：不错，谢谢！
log4j.properties配置详解
gzklyzf：为啥我解析的PDF文档没有作者、文章题目等信息啊，下面是我的代 ...
Apache Lucene Tika 文件内容提取工具
mervyn1024：解压密码是啥
ictclas4j调整
百卉含英：如果我的文件输出路径是这个log4j.appender.Fil ...
log4j.properties配置详解
lxhxklyy： mark……
log4j.properties配置详解

unicode中文范围

博客分类：

研发技术综合

阅读更多

unicode中文范围

在网上搜索了一下汉字的Unicode范围，普遍给出了“U+4E00..U+9FA5”。但事实上这个范围是不完整的，甚至连基本的全角（中文）标点也未包含在内。根据最新的Unicode 5.0版整理如下：

注：在绝大多数应用场合中，我们可以仅用（1）、（2）、（3）、（4）、（5）的集合作为CJK判断的依据。

1）标准CJK文字

http://www.unicode.org/Public/UNIDATA/Unihan.html

Code point range	Block name	Release
U+3400..U+4DB5	CJK Unified Ideographs Extension A	3.0
U+4E00..U+9FA5	CJK Unified Ideographs	1.1
U+9FA6..U+9FBB	CJK Unified Ideographs	4.1
U+F900..U+FA2D	CJK Compatibility Ideographs	1.1
U+FA30..U+FA6A	CJK Compatibility Ideographs	3.2
U+FA70..U+FAD9	CJK Compatibility Ideographs	4.1
U+20000..U+2A6D6	CJK Unified Ideographs Extension B	3.1
U+2F800..U+2FA1D	CJK Compatibility Supplement	3.1

2）全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母：FF00-FFEF

http://www.unicode.org/charts/PDF/UFF00.pdf

3）CJK部首补充：2E80-2EFF

http://www.unicode.org/charts/PDF/U2E80.pdf

4）CJK标点符号：3000-303F

http://www.unicode.org/charts/PDF/U3000.pdf

5）CJK笔划：31C0-31EF

http://www.unicode.org/charts/PDF/U31C0.pdf

6）康熙部首：2F00-2FDF

http://www.unicode.org/charts/PDF/U2F00.pdf

7）汉字结构描述字符：2FF0-2FFF

http://www.unicode.org/charts/PDF/U2FF0.pdf

8）注音符号：3100-312F

http://www.unicode.org/charts/PDF/U3100.pdf

9）注音符号（闽南语、客家语扩展）：31A0-31BF

http://www.unicode.org/charts/PDF/U31A0.pdf

10）日文平假名：3040-309F

http://www.unicode.org/charts/PDF/U3040.pdf

11）日文片假名：30A0-30FF

http://www.unicode.org/charts/PDF/U30A0.pdf

12）日文片假名拼音扩展：31F0-31FF

http://www.unicode.org/charts/PDF/U31F0.pdf

13）韩文拼音：AC00-D7AF

http://www.unicode.org/charts/PDF/UAC00.pdf

14）韩文字母：1100-11FF

http://www.unicode.org/charts/PDF/U1100.pdf

15）韩文兼容字母：3130-318F

http://www.unicode.org/charts/PDF/U3130.pdf

16）太玄经符号：1D300-1D35F

http://www.unicode.org/charts/PDF/U1D300.pdf

17）易经六十四卦象：4DC0-4DFF

http://www.unicode.org/charts/PDF/U4DC0.pdf

18）彝文音节：A000-A48F

http://www.unicode.org/charts/PDF/UA000.pdf

19）彝文部首：A490-A4CF

http://www.unicode.org/charts/PDF/UA490.pdf

20）盲文符号：2800-28FF

http://www.unicode.org/charts/PDF/U2800.pdf

21）CJK字母及月份：3200-32FF

http://www.unicode.org/charts/PDF/U3200.pdf

22）CJK特殊符号（日期合并）：3300-33FF

http://www.unicode.org/charts/PDF/U3300.pdf

23）装饰符号（非CJK专用）：2700-27BF

http://www.unicode.org/charts/PDF/U2700.pdf

24）杂项符号（非CJK专用）：2600-26FF

http://www.unicode.org/charts/PDF/U2600.pdf

25）中文竖排标点：FE10-FE1F

http://www.unicode.org/charts/PDF/UFE10.pdf

26）CJK兼容符号（竖排变体、下划线、顿号）：FE30-FE4F

http://www.unicode.org/charts/PDF/UFE30.pdf

分享到：

史上最全最强的正则表达式 | IEEE Intelligent Systems, ISSI\-2009\-09 ...

2010-01-05 16:27
浏览 2099
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

所有中文字Unicode编码区间及常用中文字Unicode编码: 所有中文字Unicode编码区间及常用中文字Unicode编码，在生成随机验证码时可能使用到

常用的java汉字unicode编码: 该文档有常用的java汉字unicode编码

unicode汉字编码拼音对照表: unicode汉字和拼音对照表，按照：汉字编码拼音声标拼音声调（声调在字母后）声调在拼音后纯拼音的格式排列。一共是20902个汉字编码范围是 U4e00 ~ U9fa5.

最全的unicode 汉字编码表: 最全的unicode 汉字编码，范围为4e00-9fa5，格式为txt

unicode-GBK编码对照表: unicode-GBK编码对照表，支持24068个字转换，这个表格适合运用各个平台，小程序，c语言等。

unicode编码汉字库（16*16点阵）: Unicode编码下的16*16点阵汉字库（先左后右先上后下），宋体12号或小4字体大小（简体）。取码范围0X4E00-0X9FFF

GB18030汉字的GB18030 Unicode URL编码对照表.xlsx: 目前大部分的网站，都是使用的UTF-8编码。例如发送一段二进制到服务器时，服务器规定该二进制内容的编码...附件是GB18030包含的21004个汉字的GB18030编码、Unicode编码、URL编码对照表，可用于解决中文乱码转换恢复。

汉字字符编码区位码 GB2312 GB18030-2005及Unicode 8.0字符集: 汉字字符编码区位码 GB2312 GB18030-2005及Unicode 8.0字符集

完整的CJK Unicode范围.txt: 因为FontRouter新版本开发的需要，在网上搜索了一下汉字的Unicode范围，普遍给出了“U+4E00..U+9FA5”。但事实上这个范围是不完整的，甚至连基本的全角（中文）标点也未包含在内。为此，我特地查询了Unicode官方的...

Unicode字符编码表: Unicode字符编码表涵盖了所有字符码的范围和Unicode起始位。包含中文字符。

Unicode对应GBK编码范围详细整理: 这是我整理了一星期，记过了好多测试、修改得出的结果，相信可以帮助在编写Unicode对应GBK编码的正则表达式的程序员一些帮助！

UNICODE 基础知识.pdf: UNICODE 基础知识 Unicode.org 是一个国际性的组织，致力于使全球各种语言...16 位的整数的范围是0~65535，所以早期版本的UNICODE 最多只能支持65535个字符。但是世界上的文字何其多？单单是汉字就不止6 万个啦。.....

unicode 中文编码对照表: 非常清晰完整的，格式很好的，范围从 \u4e00-\u9fa5

完整的CJK Unicode范围（5_0版）: 25）中文竖排标点：FE10-FE1F UFE10.pdf 26）CJK兼容符号（竖排变体、下划线、顿号）：FE30-FE4F UFE30.pdf 2）全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母：FF00-FFEF UFF00.pdf 3.5）CJK...

c#通过unicode编码判断字符是否为中文示例分享: 本文介绍了c#通过unicode编码判断字符是否为中文的示例,在unicode字符串中，中文的范围是在4E00..9FFF:CJK Unified Ideographs。通过对字符的unicode编码进行判断来确定字符是否为中

微信-汉字拼音首字母排序选择.rar: 微信小程序-汉字拼音首字母排序选择，包括了一个微信小程序富文本解析函数库，收录字符的Unicode编码范围为19968至40869，汉字拼音首字母列表本列表包含了20902个汉字,用于配合 ToChineseSpell，改动为判定输入数组...

利用python3随机生成中文字符的实现方法: 在unicode码中,汉字的范围是(0x4E00, 9FBF) import random def Unicode(): val = random.randint(0x4e00, 0x9fbf) return chr(val) 这个方法比较简单,但是有个小问题,unicode码中收录了2万多个汉字,包含很多生僻...

glyphNameFormatter:从Unicode名称生成字形名称列表: GlyphNameFormatter 从官方Unicode数据生成... 版本0.3从Unicode 11.0.0提供了更多范围。版本0.4修复了冲突分析中的错误。所有人的更好名字。版本0.5改进了对格鲁吉亚名称的支持。版本0.6添加了数学字母数字符

C++基础考试.doc: C++基础考试.doc C++/C编程质量试题 (考试时间：90分钟) 本试题仅用于考查C++/C程序员的基本编程技能。内容限于C++/C常用语法，不涉及数据结构、算法以及深奥的语法。考试成绩能反映出考生的编程质量以及对C++/C...

Global site tag (gtag.js) - Google Analytics