中国农业大学理学院概率论与数理统计学术报告
84 2024-04-02
专家简介
王军,北京大学信息管理系教授,北京市优秀教师。 主要从事数据分析、知识图谱、信息产品设计等领域的研究和教学。承担多项国家自然科学基金和国家社科基金研究项目。 学术成果发表在JASIST、JCDL、CIKM、情报科学学报、图书馆学报、中文信息科技学报等期刊和会议上。 入选教育部“新世纪优秀人才支持计划”、“人文社会科学优秀成果奖”等多项荣誉。
会议介绍
2019年6月14日至17日,首届“数据智能与知识服务”学术研讨会暨“知识服务智能平台建设”研讨会在北京理工大学召开。 本次会议由中国科学院文献情报中心主办,数据智能(DI)编辑部主办,北京理工大学计算机学院协办。 邀请国内外从事相关研究的知名学者、具有前瞻性见解的行业领袖、精通实践经验的技术专家。 嘎,讲授前沿的“数据智能与知识服务”以及“知识服务智能平台建设”的构建。
中国儒家学术传承知识图谱的构建与可视化
01
中国历代人物可视化平台
02
中国传统学术传承
03
中国儒家学术传承知识图谱构建
04
《宋元学术案例》
05
结论
报告内容
01
中国历代人物可视化平台
1.1 背景
首先,这个项目来自Maximilian Schich 2014年在Science上发表的一篇文章,这个项目的内容是通过他们的可视化结果来呈现的。 下图中,你可以看到整个欧洲大陆,有几个明显的中心,比如罗马、巴黎、伦敦。 他们的项目是提取过去 2000 年来欧洲历史、文化和社会名人的出生和死亡日期。 例如,如果一个人出生在某个地方,那么这个地方就会是蓝色的。 后来,他移居巴黎,便有一行迁徙。 按照这个规律,整个可视化结果发布出来,放在2000年的纬度上,我们就可以看到文明的传播。 这就是欧洲大陆的情况。 例如,在下图中,我们很容易看出罗马是整个欧洲大陆文明的聚集点。
我们来看看美国的情况。 16世纪左右,英国人登陆东海岸,如纽约港、佛罗里达州等,人口主要集中在东海岸。 但到了18世纪和19世纪末,大量人口从东海岸迁移到了西海岸。 特别是铁路建成后,从东海岸向西海岸的流动明显加速。 当然,随着汽车的出现,从纽约搬到加州的速度也明显加快了。
这个项目启发了我们思考是否可以做一个反映中国地域文明演变的项目。 中国有着悠久的历史和文化传统。 既然历史如此悠久,我们也应该能够获得一些数据来反映中国人的历史。 这个项目国外只有2000年,而我们有5000年。 在过去的五千年里,史书上写了很多关于我们中国人从哪里迁来、出生在哪里、死在哪里、以及我们在历史上是哪里的重要城市和文化发祥地的内容,但我们仍然需要数据。 支持。 所以我们有了这个想法之后,就去找这样的资料,找到了《中国历史人物传记数据库》。
1.2 数据基础——CBDB源自哈佛燕京学社
迄今为止,该数据库已收录了42万人的传记信息。 这些人主要出生于7世纪。 唐朝始于公元680年,所以大概是从唐初到清朝。 该数据库源自美国郝若贝教授的工作。 他首先在芝加哥上大学,他一生的兴趣是研究中国历史和古代中国的社会经济变迁。 他的研究始于 20 世纪 70 年代。 在研究过程中,他系统地收集了中国历史人物的资料。 比如,他在史书中看到王安石时,记载了王安石的出生、死亡、籍贯、娶了多少个妻子等。 ,记下了他生了多少个孩子,这个数据库的初步积累,都是他自己一一记下来的。 经过30年的积累,他收集了约25000人、4500余种书目资料。 这个数据量在今天看来并不多,但是要知道这些都是一笔写下来的。 而且他背的时候,并没有使用爬虫,也没有使用深度学习。 当他读到一页书或看到一个人时,他必须将其整理出来。 这就是他过去做研究的方式。 请注意,我们今天之所以能够一次性收集到这么多数据,是因为我们必须要思考这个问题,以及这些数据是如何积累的。
1995年郝若北教授去世后,将其交给哈佛燕京学社。 哈佛燕京学社的鲍必德教授组织了一个团队,开始用计算机方法对其进行处理。 后来,他聘请了一些程序员,利用正则表达式从中国地方志、墓志铭、史书中提取字符信息。 现在他已经逐渐积累了四十二万人。 在此过程中,台湾中央研究院、日本京都大学、北京大学历史系都参与其中。 所以我们看到这样一个项目建设,实际上是跨国、多文化合作的结果。
1.3 中国历代人物可视化平台——以唐代为例
我们从CBDB中提取了唐朝的数据,使用了类似的算法,进行了类似的迁移,如下图所示。 这个数据量并不大。 CBDB里,唐朝人不到2000人,有出生地、逝世地、生年、卒年。 960年前,能够在1000多年前的史书中留下自己的名字、自己的籍贯、出生地,是一件了不起的事情。
从上图中可以看到一些明显的地点,比如长安、洛阳。 从死亡地点来看,洛阳比长安更重要。 唐中期以后,安史之乱后,北方族人多次劫掠长安,人口迁徙到洛阳。 这与当代人的认知不同,认为唐朝时期长安是最繁华的。 事实上,洛阳是中唐之后唐朝最重要的城市。 这是我们做的第一个项目。
02
中国传统学术传承
通过以上研究,我们可以看到这些文字在古代的迁徙轨迹。 但他们之间是什么关系呢? 从古至今,古人留下的最宝贵的遗产就是学问,它滋养了后世的学者。 所以我们想看看这个继承。 宋人说,中国儒学的传承是从孔子开始的。 孔子之后是孟子。 孟子之后就是汉朝的董仲舒。 董仲舒之后,直接跳到了唐朝的韩愈身上。 我们想要直观地了解这条继承线索。
要理清学术传承的关系,首先要解决的问题是从哪里获取这些数据。 在寻找中国传统学术传承资料的过程中,我们发现了这样一本书,名叫《论语·殷德》。 这本书对于研究中国传统哲学的人来说其实并不陌生,但我却是第一次读。 是的,我很好奇这是一本什么样的书。 打开之后我发现它是这样的。 例如,孔子在《论语》中说过:“十五立志学,三十立志,四十无疑,五十知天命,六十好耳,七十有耳。”人应该随心所欲,不逾矩。” 这句话在《论语》中多次出现。 本书标出了这些句子的出处,例如:“七十当随心所欲”。 位于第 2 页第 2 条第 4 句。
Index就是Index,这个翻译是音译和意译的完美结合。 《论语·殷德》是洪野于1931年完成的。洪野毕业于哈佛大学,他写这本书的经费来自哈佛燕京学社。 哈佛燕京学社于 1928 年在铝业企业家查尔斯·马丁·霍尔 (Charles Martin Hall) 的慷慨捐赠下于马萨诸塞州成立。 美国铝业企业家为何要这么做? 这个问题就留给历史学家去深究了。 正是在这些“外国人”的资助下,哈佛燕京学社把保护和研究中国文化遗产作为自己的宗旨和使命。 我们看到,正是因为这群不分国籍、不分种族的人的愿望和努力,才使得我们今天能够利用CBDB这样的数据库进行这样的视觉展示。
红叶,这位先锋为何要带头? 他说,在美国读书时,他很羡慕美国公众可以随意浏览的各种参考工具、百科全书、索引图、统计表、年表等。 他想知道未来的历史学家如何能够轻松检索在中国积累的资料,因此他自己发起了这样一个项目。
哈佛燕京学社成立初期有两个办事处,一个在美国哈佛大学,另一个在北京燕京大学。 哈佛大学利用这笔资金建立了哈佛燕京图书馆和东亚系,并创办了《哈佛亚洲研究》、《燕京学报》等期刊。 有了这笔钱的支持,洪爷在燕京大学组织了一批人,开始编写《英气》。 从1930年到1950年的20年间,共编撰了各类引文64种。 墨子的引文、孟子的逐字索引、荀子的逐字索引、庄子的逐字索引等都是人工一一编制的。 的。 这样的工作在今天是不可想象的。 回顾这段历史,我想说,我们今天之所以能取得如此迅速、巨大的进步,是因为我们的前辈一点一滴为今天奠定了基础。
查尔斯·马丁·霍尔先生
红叶
2.2 中国历代人物学术传承可视化
回到CBDB,我们在CBDB的基础上直观地呈现了中国古代的学术传承,如下图所示。 以周敦颐为例。 周敦颐培养的两个学生叫程颐和程浩。 程浩有一个学生,名叫杨时。 杨时将四传传给朱熹。 朱熹是宋代著名理学家,中国儒学的重量级人物。 他有多少弟子? CBDB 包括他的弟子 400 多名。 这样我们就能直观地呈现出整个宋朝的传承。 我们花了两三个月的时间来实现可视化。 然而,如果我们想从最原始的数据入手,我们还得回到20世纪30年代的哈佛燕京学社。 通过这些绚丽的视觉展示,我们应该回溯前几代学者最初积累这些资料时的初衷和目标。
03
中国儒家学术传承知识图谱构建
在此基础上,我们想是否可以更进一步,利用已有的继承关系,找出任意两个人之间所有可能的人际关系。 要实现这样的目标,需要用知识图谱来表达中国传统学者之间的关系。 这是我今天要介绍的第三个项目。 目标是基于CBDB数据库构建知识图谱,使得宋代学术师生关系的知识发现和可视化成为可能,提供更加直观、高效、简洁、易用的知识图谱。宋代学术师生关系历史研究的工具。 我不会详细介绍这个项目。 下图展示了该项目的整体结构,即数据存储层、抽象建模层、关联层和应用层。 各层主工作室之间的逻辑关联及数据传输如图所示。
基于知识图谱数据和上述功能设计,我们使用RelFinder工具开发了“宋代学术遗产语义网络”。 该平台呈现实体之间的直接或间接关系,并提供类/关系过滤、节点定位、路径突出显示等功能,以优化查询体验。
比如说我想看一下朱熹和陆九龄,他们之间可能是什么样的关系。 下图中,左边是朱熹,右边是陆九龄。 它遍历知识图并找到它们之间所有可能的关系。 比如这条路上有朱熹的学生刘耀甫。 刘耀甫的家乡是锦溪,陆九龄的家乡也是锦溪。 显然刘耀福和陆九龄是同乡。 那么刘耀甫就是朱熹的学生。 所以如果陆九龄想要认识朱熹的话,他可以先去找刘耀福,告诉他我们是老乡。 图中还可以看到,刘耀甫其实是陆氏的学生,同时也跟着朱熹学习。 从图中就可以清楚地看出三人的关系。
根据六度理论,你和地球上的任何人都可以通过6个中介相互认识。 地图可以帮助我们发现我们通过谁认识这个人。 同样,我们也可以发现任意两个传统儒家学者之间的关系。
04
《宋元学术案例》
利用知识图谱探索传统学术领域才刚刚开始。 我们最近对《宋元学》这本书很感兴趣。 此书始为黄宗羲所著,直至其第七代孙才得以印行,历时200年。 本书整理了宋代两千多位学者及其思想。 我们尝试将其转化为知识图谱供大家使用。
下图展示了两宋三百年的学术发展历程:《宋元学术案例》中的近百个学术案例通过下面的河流图展现出来。 在这张河图中,你可以点击选择一条支流,比如安定薛安,就可以看到北宋初期胡瑗及其弟子的学术传承。 图中的长度代表时间轴,指的是一个学生从活跃到家庭兴盛,再到消失的时间跨度。 Y轴表示某个学术案例在一定时间内有多少弟子。 弟子越多,在河图中的地位就越高。
其实,从这张图中我们还可以发现一些历史现象。 例如,在下图中您可以看到两个明显的波谷。 这个槽中较浓的蓝色是景公的新学术方略,景公就是王安石。 王安石实行改革。 为了推行新法,他在法庭上排除异见人士。 那些不同意他观点的人被排除在法庭之外。 有历史学家认为,他造成宋朝学术衰落的原因是王安石推行新法,造成了宋朝文人群体的分裂,影响了整个社会的经济、军事等方面,最终导致了灭亡。北宋时期。 在图中我们看到第二个槽。 第二个低谷是宋朝南下造成的。
图中的最高峰大概是1190年。 1175年,正值朱子盛年,他与陆象山发生了一场著名的学术之争——鹅湖之会。 新儒学在这一时期达到了发展的顶峰。 因此,学术辩论和讨论有利于思想的繁荣、学术的发展和文化的发展。 我们知道,陆象山与朱熹之间是有争议的,也正是因为争议,整个南宋学术才达到了巅峰。
05
结论
最后,我们要回答这个问题:为什么我们需要利用可视化技术和知识图谱技术来展示历史文献和资料? 最后,我们引用黑格尔的一段话来揭示我们做这些研究的初衷。 黑格尔说:“人类从历史中得到的教训是,人类从来没有吸取历史的教训。” 新技术能否帮助今天的人们吸取历史教训? 谢谢你们。
本文经举报专家本人确认并授权发表