人民币有哪些冠号?
2015年11月,国家公布了对14个汉字简化的方案,其中“制”、“币”二字被简化成“制”和“币”。同时公布的还有《通用规范汉字表》(修订稿),该文件列出了8105个字形,其中包括了所有汉字手写体和电子符号的格式。 在这8105个字形中,共有769个笔画,而每个汉字最多只有769个笔画。一个完整的字符串,最长不过769字节。
现在我们知道,一个UTF-8格式的编码,最多可以表示4个字节;而一个汉字则占用3个字节(繁体字会多一些)。那么就可以通过把每个字切割成若干部分,然后用不同的编码来表示这些部分的方式,来解决货币号码长度的问题——也就是把每个文字分割成几个部分并用不同的编码来标识这样的做法。当然,一些特殊的情况需要特殊处理:
(二)阿拉伯数字
(三)英文字母
(四)中文简体及繁体字(共1328个字形)
(五)日本文字
(六)俄文字母
(七)德语字母
(八)日语假名
根据这个规则,我们可以把每笔交易分解为若干部分并分别进行编码,再把这些编码组成一个数组,就得到了这次交易的编码。
如果一次交易不包含中文或日文,那么这顿操作简直简便至极,每个字切6刀,再组合一下,完活!
但如果有中文或者日文,事情就变得有点麻烦,因为中文和日文的字体实在太丰富,而每一个字体又可能有很多的字形,一刀砍下去可是要出大事的!必须采用分词方法,从字形上把文字分成若干部分,每一部分都切6刀然后编码,最后把各部分的编码组成一个字符串,这才靠谱。