第七百零三章 字库(1 / 2)

“我们所有人里,还真就只有你能干,”周至说道“你知道现在已经可以用电脑打印书籍了吧”

“嗯,知道,局里现在都有电脑打字员了,听说那机器很贵,领导都不让一般人碰。”

“那你知道你们局里那机器,现在一共能够打印多少个字吗”

“不是所有汉字都能打吗”

“当然不是,现在大家使用的,还是由中国国家标准总局八零年发布,八一年实施的一套国家标准,标准号是gb 23121980。基本集一共收入汉字六千七百六十三个。”

“那我们国家一共有多少汉字啊”

“不算简化后的简体汉字,康熙字典里边收录的汉字,一共是四万七千零三十五个。”

“差这么多”冯雪珊感到十分震惊“连零头都不到”

“是啊。”周至说道“当然这和现在存储单元昂贵,简化字推行方便都有关系,但是将来图书实现电脑排版,要用电脑整理古籍的话,目前所用的字库是绝对不行的。”

“所以”

“所以我有一个想法,设计一套康熙字库出来,用于将来的古籍电脑排版工作。”

“不行不行,我不认识那么多的字”冯雪珊一听就觉得头大。

“不用你认识它们,会照着描写就行了。”周至笑了“字库设计的一个重要工作,首先就是单字和笔画、部首设计;”

“之后通过扫描设备将设计图稿转化为数字化图像,存储于计算机中;再通过数字化拟合,得到字形的矢量轮廓。”

“接下来就是扩展设计,以拼合的方式设计其他单字。”

“最后再将所有得到的字赋予编码,将其转换成特定数学函数描述字形轮廓的文件格式,再加以指令,控制其字形的显示效果和排版效果,就形成字库了。”

“我越听越听不懂了”

“听不懂也没关系,单字和笔画、部首我会找齐,然后就要拜托你用仿宋体、宋体、楷体和黑体,在我给你给你的栅格纸上,将它们描绘出来。”

“鉴于我们现在还没有相关的电脑设备和字体设计软件,因此之后的扩展设计工作,我们也只能先通过手工来完成。”

“也就要是将所有的字一一地写出来。”

“你要做的,就是这些,剩下的校对、检测,我会来完成。”

“最后我会将所有的字稿带去蜀都,带去首都,通过最原始的扫描匹配方式,生成我们需要的字库。”

“咱们这么做的目的,是设计出一个能够涵盖所有已知的繁体汉字和简化汉字的大字库出来,从而一劳永逸。”

“而今后的事情就简单了,我们可以做做减法,搞出一些删减版来,供人自由选择,以解决字库过于庞大和电脑存储资源不足的矛盾。”

“雪珊你说,将电脑字库从六千多字扩充到四万七千多字,这是不是关系我们国家国计民生的大事儿”

“只是写字那我还行。”冯雪珊知道自己要干什么之后,倒是放松了下来“就算五万个字,我一天写一百个,用不了两年也能够完成。”

“嗯,现在睡觉,等回去我们就开始这项工作。”

“好。”

这项工作是周至答应过辜老的,当时周至曾经跟辜老说过,如果等到他进入大学,国家依旧没有推出相应的字库的话,那这项工作便由他来完成。

当然在没有设计软件的情况下,前期的准备工作只能用手工,那注定将是繁琐的。

仅仅是将近五万个汉字复刻到十六乘十六的三十二比特信息量的栅格当中去,在没有软件辅助的情况下,会是非常耗时且枯燥的工程。

这项工作还相对简单,且只是基础。

有了基准字模之后,才谈得到利用软件和基础字型设计,通过数字化拟合,自动生成不同的字体。

但是只要将基础工作做好,剩下的就可以通过计算机软件来完成了。

周至在前期已经做了一些工作,主要就是将gb 23121980的简化字和康熙字典繁体字结合到一起,构成这个字库所需的全部汉字。

至于附加的英文字母和常用字符,已经不属于他的专业了,将来让别人补充就好。

两相结合再去除重复,冯雪珊信口说的五万字,其实和事实非常接近。

周至之所以想要插手这件事儿,是因为现在的国人对这个事情没有什么经验,因此走入了一个误区。

汉字是象形文字,和拉丁字母的区别就在于字码太多。

如今主流的做法,就是简化,只将常用字列入输入法中,以应对绝大多数时候的需要。

但是周至认为,这样的做法并不太好,因为占用存储空间的其实是五万个字的字模,而并非代表它们的编码。

因此大可以一步到位,将大中华区包括港岛、宝岛、新马、岛国、朝国等依旧在使用汉字的地方,以及使用大量汉字符号的地方,将所有字型都收集起来,先