从浩如烟海的中国古今文献中收集整理而成的文人墨客行迹、“丝绸之路”交通路线或是青藏高原的耕地变迁,生动详尽地呈现在了电子屏幕上。
在11月中旬举行的“大数据与人文地理信息数据库建设”国际会议上,多个团队展示了中国古典文献数据化、可视化的成果。这是中国学术地图发布平台上线以来,哈佛、北大、浙大等海内外高校和研究机构的五十余位学者首次聚集一堂,为中国的文史地理信息数据库建设和发展提出各自的经验。
新技术为古典文化的研究带来了新视角,但也有学者反思,绝不能是仅仅停留在技术层面的“花架子”研究,也不能忘掉传统文学的考据与严谨,要更好地将大数据与文学研究结合起来。
改变“数据在中国,数据库在国外”的境况
伴随着移动通信技术的快速发展以及定位应用程序的普及,“数字人文”(Digital Humanities)作为新型的文理学科交叉领域风靡学术界。
“中国历史悠久,历史地理信息丰富,建设多要素、多专题历史地理信息系统也尤为重要。”中国社会科学院学部委员刘跃进在上述国际会议上表示。
2018年3月,由浙江大学与美国哈佛大学共建的、中国第一个开放的综合性学术数据平台——学术地图发布平台(amap.zju.edu.cn)正式上线。该平台由浙江大学“大数据+学术地图创新团队”具体执行。
11月20日,该创新团队的负责人徐永明教授告诉澎湃新闻(www.thepaper.cn),上线半年多来已经发布了300余幅数据地图、600余个图层、40余万条数据,可为用户提供发布、编辑、搜索、查看、定位查询及分享等多种功能。
他介绍,目前平台的内容主要包括群体性数据和个体性数据两大类。比如,既可查阅《全宋文》《全元文》《全元诗》的诗文作者分布、《四库全书总目提要》、清代女性作者等数据库信息和地理分布图,又可查阅苏东坡、汤显祖等文人墨客的行迹图与社会关系图。“平台正不断补充拓展中,所形成的大数据,能够为未来科学研究、政府决策及社会服务提供重要参考。”
越来越多学者加入中国古典文献数据可视化潮流中。例如,中南民族大学教授王兆鹏主持的国家社科重大项目《唐宋文学编年系地信息平台建设》,尝试通过对唐宋文学编年系地信息平台建设的数据分析,考证唐五代诗歌版图的静态分布与动态变化,全景呈现唐宋作家的活动行迹与创作情况。
“从统计数据中我们可以发现若干问题。”他举例,“从诗人籍贯的静态分布看,唐代著名诗人的占籍分布严重失衡,有一大半的省份,没有产出过著名诗人;诗坛的中心,中唐以前是在北方的黄河流域,到晚唐五代则移至南方,南方著名诗人的数量大大超过北方;而从诗人活动空间的动态分布看,诗人的活动空间分布远大于诗人的占籍空间分布,诗人的流动性弥补了占籍诗人分布的不平衡性。不过,作为政治文化中心的京城,对诗人有着强大的吸附力,都城长安和洛阳是诗歌创作的绝对中心。”
不过,徐永明表示,我国目前的文史关联性数据库建设与国外仍存有较大的差距,多学科的跨界融合还不够深入,必须加快国内的人文数据库建设,力图改变“数据在中国,数据库在国外”的境况,“我们身上仍然肩负着这样任重道远的使命”。
反思:不能是仅仅停留在技术层面的“花架子”研究
在充分肯定这一研究的正面价值的同时,也有传统的文学研究学者对数字技术的介入始终抱着审慎的态度。原因大致有二:一,文学是求真求美的学科,文学研究有一套成熟的经典研究模式,新的研究方法介入还需要时日和实践检验;二,数字技术与文学研究的结合若停留在表面,技术导向而非学科问题导向,不能解决文学研究本身的问题,也会导致数字人文在文学研究领域推进缓慢。
对于这一点,华东师范大学李舜华教授叮咛年轻学子,绝不能是仅仅停留在技术层面的“花架子”研究,也不能忘掉传统文学的考据与严谨,要更好地将大数据与文学研究结合起来。
此外,也有部分相关领域的学者对数据库平台建设中可能存在的问题作出了相应的反思。
浙江省社会科学院文化所所长吴蓓提到,大数据还具有拟态性的可疑信度问题,也即是说数据表层所反映的可能并不是真实的映像,数据库平台上所使用的史料和数据以及可视化行迹图是否能够真实地还原到当时的历史场景,是否丢失了深层的精神实质等等都值得进一步思考。
王兆鹏也特别强调了在开发唐宋文学编年系地信息平台中遇到的数据安全的问题,“涉及到对上传数据者拥有的知识产权的法律保护也是需要考虑在前面的议题。”
新闻推荐
20省份出现非洲猪瘟疫情 专家回应热点问题 不会感染人或除猪之外的其他动物
自今年非洲猪瘟首次在我国发生以来,已有20个省份相继出现疫情。23日,在农业农村部举行的新闻发布会上,中国动物卫生与流行病...