中国青年网|简论大数据时代古籍数字化的若干问题( 三 )
至于古籍数据库的分类 , 我们曾做过尝试性工作 。 我和毛建军博士主编的《汉语古籍电子文献知见录》(世界图书出版公司2015年版) , 就是“从古典文献学教学资源利用视野对这些电子文献进行了科学分类与导航设计” 。 我们改变传统书目以“经、史、子、集”及其下设各小类进行分类提要的标准 , 而以古籍电子文献开发所在区域和机构个人设置一、二级目录进行解题 。 一级目录的安排次序为:中国大陆、中国台湾、中国香港、中国澳门、国外(日本、韩国、美国、欧美、澳洲);二级目录的安排次序为:图书馆、档案馆等古籍典藏机构、高校等研究机构、古籍数字化企业公司、个人等 。 其中 , 中国大陆有古籍电子文献数据库166种;中国台湾有古籍电子文献数据库70种;中国香港有古籍电子文献数据库9种;中国澳门有古籍电子文献数据库两种;国外地区有古籍电子文献数据库22种;合作开发的古籍电子文献数据库有6种 。 二级目录里所列古籍电子文献数据库共计275种 , 每种都有展现其研究特色的数据库名称 。
另外 , 我们也试图改变传统书目对古典文献的版本分类 , 将古籍电子文献分为古籍书目数据库、古汉语电子语料库、古籍全文数据库、数字图书馆、古籍电子出版平台 , 等等 。 我们的尝试一定还存在不少值得改进的地方 , 所收的古籍电子文献数据库远没有做到“大而全” , 还有很大的增补空间 。 古籍数据库的分类 , 自然还可以按现代学科体制来分 , 分为文、史、哲、政、经、法等 , 数据库所收古籍文献最好有标点 。 对于专业研究人员来说 , 好的古籍数据库应具备两大特点 , 一是全(搜集的数据越多越好) , 二是专(就是说 , 可按学科分类 , 也可按文体分类 , 还可按文献主题分类 , 按文献载体分类) , 且不需要标点(如果有标点 , 自然更好) 。 我本人也一直在准备《汉语古籍电子文献知见录》的修订工作 。
在古籍整理与研究领域 , 除了基于大数据技术的目录学外 , 还有基于大数据技术的版本学、校勘学、辨伪学、辑佚学、索引学等 , 它们都会包括许多与古典文献学完全不同的知识结构 , 需要我们重新加以建构 。
问题四:大数据时代 , 我们应该培养什么样的古籍整理与研究人才?
大数据时代 , 我们迫切需要培养同时具有古典文献学基础、古籍数据库开发和利用能力的高级人才或复合型人才 。 最近 , 清华大学人文学院刘石教授“基于大数据技术的古代文学经典文本分析与研究”课题组因研究需要 , 面向国内外招收博士生(直博生)或招聘博士后若干名 。 申请者的要求条件之一就是“应具有一定的计算机技术基础 , 或者具有一定的数字人文研究经验 。 入学或进站后 , 从事中国古代文学经典文本的数据分析与研究” 。 这种人才培养意识在国内学术界和高教界开了一个好头 。 “基于大数据技术的古代文学经典文本分析与研究”以及“数字人文”均属于人文社会科学研究的新兴领域 , 它要求学生在古典文献学、数据分析和认知哲学上都有一定基础 , 而目前能将这几方面专长结合起来的人才并不多 。 大数据时代会催生许多新的跨学科分支 。
事实上 , 在古籍整理与研究的数字化推广领域 , 已经产生一些新型专家 , 比如“数字文献学家”兼“数字文献企业家” 。 现在清华大学人文学院已经在培养自己的“数字人文学家” , 未来中国可能还会出现“古籍数据目录学家”“古籍数据平台设计师”“古籍数据统计师”“古籍数据分析师”“古汉语语料库语言学家”“古籍数字出版家” , 等等 。 对此 , 我们没有理由不伸开双臂欢迎他们 。 我们的高等教育机构与研究机构必须立即行动起来推进有关的跨学科人才的培养 。 作为学者个人 , 我们也必须对此进行充分的思想准备、知识储备与技能训练 。
《光明日报》(2020年06月13日11版)
来源:光明网-《光明日报》
推荐阅读
- Python之王|Pandas数据合并与拼接的5种方法
- 「杨辉」中科院学者涉嫌剽窃科研想法、数据造假,听一场报告就能发Cell?
- 科技小数据|产业观察:如何通俗地理解5G及其应用
- 雷科技|为解决App连接问题,特斯拉迁移数据至中国,开车不再“卡顿”
- 大数据系统|倾力分享!,2020小红书kol推广8种玩法
- 小熊带你玩科技|全新等离子体光子芯片:利用光进行超高速数据传输
- 蓝色星晨|以对比1977年的气候变化数据,科学家在南极最大冰架上钻取样品
- 灵锦文化|网络安全需求有望进一步加速释放,《数据安全法》出台
- 鲍跃忠新零售工作室|数据的价值在于链接
- 金十数据|向芯片业注入2614亿!或担忧“中国芯”崛起,美国提出2项新法案