小辉搞科技|建立我们的数据思维( 二 )


客观地评估 , 中国古籍的数字化应该说已经取得长足的发展 。 其中国家图书馆的“中华古籍资源库”是“中华古籍保护计划”的重要成果 , 目前在线发布的古籍影像资源包括国家图书馆藏善本和普通古籍、法国国家图书馆藏敦煌遗书、天津图书馆藏普通古籍等 , 资源总量超过3.2万部 , 可在国图官网上直接浏览 。 另外 , 中华再造善本工程一期、二期都已完成 , 且制作了数据库 , 提供全文浏览 。 唐宋编和金元编共影印善本古籍758种 。 清人陆心源“皕宋楼”以藏200种宋刻本引以为傲 , 今天我们足不出户便可阅览几百种宋本 。 不过 , 如果对标谷歌公司 , 我们有待完成的工作量还很大 。 中国古籍整理与研究的当务之急 , 是整合海内外各种古籍数据库 , 建立一个由国家和民间、高校和企业共同参与管理的包含全部20万种古籍的“古籍数字图书馆” , 以实现古籍整理与研究资源的全面共享 。
大数据时代正在重构新的文献统计学或计量文献学 。 如果能正确把握当下古籍量化的尺度 , 就不会产生古人经常发出的“望洋兴叹”的感慨 , 就能完成过去在人工统计时代不可能完成的各种古籍量化工作 。
数据思维的前提是数据 。 也就是说 , 古籍整理与研究的基础不再仅仅是传统意义上的资料或文献 , 而是数据 , 各种大数据 。 所谓“大数据” , 首先是一个“量级”的概念 , 大数据不是以个、十、百、千为量级 , 而是以百万、千万、上亿为量级 , 单个研究者依靠手工是无法完成这些大数据的收集与处理的 , 必须依靠机器 , 依靠人工智能 。 不少信息的统计手段发生前所未有的变化 , 必须依靠高科技的技术手段来分析海量的信息 。 数据思维的数据规模特点 , 除了量级的变化 , 还意味着某种庞大数据集 。 正如《可视化未来——数据透视下的人文大趋势》一书中指出的 , 我们面临的第一个主要的挑战是 , “大数据和数据科学家们之前运用的数据在结构上差异很大” , “大数据是杂乱的数据集” 。 当我们收集并处理的古典文献从具体的、单个的文本转化为庞大而杂乱的数据集时 , 就必须运用寻求万物相关性的人工智能的数据思维方式 , 而不是简单地寻求线性的因果关系的逻辑思维方式 。 这一点将赋能包括古籍整理在内的国学研究以新的时代特征 。
问题三:大数据时代 , 如何构建古籍数据和古籍数据库的目录学?
古典文献学是一套包含有目录学、版本学和校勘学等主干性知识的知识谱系 , 它们在大数据时代都面临着知识结构和研究方式的转型 。 其中 , 目录学具有优先性地位 。
在大数据时代 , 我们需要构建新的古籍数据和古籍数据库的目录学 。 这种目录学 , 首先要对古籍数据进行重新分类 , 我们依照的既不是《汉书·艺文志》那样的七分法、《隋书·经籍志》那样的四分法 , 也不是按照针对纸质文献所流行的杜威分类法或中图法分类体系 , 甚至也不是按照传统的科学数据分类 , 如实验数据与观察数据之类的数据分类 。
如何进行古籍数据分类?分类方法可以有多种 , 从层次上可分为表层数据与深层数据;从价值上可分为有用数据与垃圾数据;从可靠性上可分为真实数据与虚假数据;从时间上可分为长期数据和短期数据 , 等等 。
上海宝藤生物医药公司董事长楼敬伟曾表示 , 在生物医学数据方面 , 不关注浅层数据 , 如身高、体重、呼吸、心跳等 , 而关注基因组数据、蛋白质组数据、代谢组数据等深层数据 , 关注这些深层数据所反映的人体表征之间的数据关系 , 关注人体生物学的这些表征 , 和影像学存在什么关系 。 我们在意的是人体的肠道微生态 , 人体与社会环境的互动 , 掌握多纬度的数据 。 我们不能收集一堆垃圾数据 , 而要开辟智能医疗的试验场 。 楼敬伟的说法 , 对于我们重新认识古籍数据的分类是有启发性的 。 哪些东西是古籍数据中的表层数据 , 哪些是古籍数据中的深层数据;哪些是古籍数据中的长期数据 , 哪些是古籍数据中的短期数据 , 这些都是需要进一步思考的问题 。


推荐阅读