封面题字: 杨 辛
主办单位:北京大学
顾 问:王义遒 林钧敬 张 彦
编委会主任:陈宝剑
副主任:陈占安 徐善东 王逸鸣
户国栋
委 员(以姓氏笔画为序):
王天兵 王艳超 冯支越 匡国鑫
孙 华 关海庭 陈建龙 刘 卉
刘海骅 宇文利 吴艳红 李 杨
陈征微 金顶兵 查 晶 祖嘉合
夏学銮 蒋广学 霍晓丹 魏中鹏
刘书林(《思想理论教育导刊》常务副主编)
杨守建(《中国青年研究》副主编)
彭庆红(《思想教育研究》常务副主编)
谢成宇(《学校党建与思想教育》社长)
屈晓婷(《北京教育(德育)》副主编)
夏晓虹(《高校辅导员》常务副主编)
周文辉(《学位与研究生教育》社长)
李艺英(《北京教育(高教)》社长)
郑 端(《思想理论教育导刊》编辑部主任)
陈九如(《高校辅导员学刊》副主编)
毛殊凡(《中国高校社会科学》总编室主任)
主 编:王艳超
编 辑:许 凝 马丽晨 朱俊炜
王 剑 吕 媛 李婷婷
李 涛 侯欣迪 杨晓征
宋 鑫 张会峰 陈秋媛
马 博 陈珺茗 陈 卓
审 校:青年理论办公室
摘要:数字人文关注将计算机应用于传统的人文学科,如历史、文学和艺术等。统计词的出现频次可以追踪类文化演进的过程。文章尝试通过谷歌电子图书数据库查看北京大学中英文词频记录,探索北京大学发展的轨迹,并将其与其他大学的影响力变迁过程进行比较。
关键词:数字人文;北京大学;高校影响力
基于不规则动词展开的研究使学者们相信,统计词的出现频次可以追踪某类文化演进的过程。基于大量电子化图书的数据库使我们可以观察机构或个人的历史变迁过程[①]。文章尝试通过谷歌电子图书数据库查看北京大学,探索北京大学的发展轨迹和国际影响力,并将其与其他大学的发展进行比较。
一、文献综述
( 一 ) 数字人文研究
“数字人文”最早可追溯到1949年的“人文计算(Humanities Computing)”。意大利耶稣会神父罗伯托•布萨(Roberto Busa)在IBM公司的帮助下,用计算机为托马斯•阿奎那和相关作者的拉丁文作品(约1100多万字)开发索引程序。促进计算机在语言学领域的运用,并在此后逐步向文学、历史学、考古学等领域扩展[②]。
20世纪90年代早期至今,随着互联网的出现和计算机技术的发展,“人文计算”的对象从电子文本逐步扩展到超文本、图像、视频、音频、数字地图、网页、虚拟现实等多媒体。2001年,布莱克维尔出版社首次出版了一部以“数字人文”为书名的图书《数字人文指南》(Companion to Digital Humanities)。“数字人文”迅速取代“人文计算”,成为一个在西方广泛传播的新兴跨学科研究领域的代名词。
约翰•昂斯沃斯[③]认为,数字人文的主要范畴是改变人文知识的探索、标注、比较、引用、取样、阐释与呈现,实现人文研究与教学的升级和创新发展。梳理全球“数字人文”项目实践,朱本军和聂华[④]总结,数字人文的内容主要集中在四个层次:人文数据库或数据集的建设;人文数字工具的开发使用;创新人文研究方法和研究范式,促使人文学者采用定性研究与定量研究相辅助的形式;人文领域的创造性破坏与建设。
( 二 ) 谷歌n元词组及相关研究
谷歌公司从2004年开始尝试对世界上的书籍进行数字化,创建“谷歌图书馆项目”。通过计算机程序将图像中包含的字母识别出来,将扫描到的数字图像转化成文本。到2013年,谷歌完成了3000多万本书的数字化工作,约占人类历史上出版过书籍的4%。为了不侵犯作者版权,又同时能够使数据转变成公共资源,特别是让研究成果为公众共享,谷歌又开发了数据投影集的应用。即为书中出现的每个单词和每条短语单独建立一条记录,这些单词和短语被称为“n元词组(n-gram)”。每个单词和每条短语所对应的记录是一个长长的数字列表,列表中的数字表示该n元词组在书中出现的次数,逐年排列,一直可以追溯到5个世纪前。Google Ngram Viewer就是基于谷歌图书数据投影集开发的搜索引擎,可以呈现1500至2008年间,英语、法语、德语、西班牙语、俄语、希伯来语和中文数字化图书的投影内容。
Aiden和Michel[⑤]发现,n元词组不是测量声誉本身,而是它的一种简化形式,即对名望进行一种临摹,即“临摹名望”。尽管这样的做法可能存在随机误差、系统误差和抽样偏差,但每种测量工具都可能有缺点,我们只能尽可能接近真实情况。简而言之,人们思考、谈论、书写某事物的频繁程度,即该事物在书中的出现频次,可以反映该事物的声誉和影响力。此外,通过对个体名人的名望研究发现,名望变化的模式是:崭露头角、指数级上升、到达名望巅峰、缓慢衰减。我们可以推论,对声誉和影响力的测量也可以同样用这样的方法进行。
( 三 ) 北京大学校史简述
根据文献整理,北大自建校以来,可分为三个阶段。[⑥]
第一阶段为1898—1949年,中华民族遭遇民族危机,北大在时局动荡中诞生和逐渐成长。1898年,京师大学堂成立,在1900—1912年间经历了破坏、停办、恢复和装改的艰难过程。1912年5月3日,京师大学堂改称北京大学校,严复为首任校长。1916年蔡元培出任校长,聘请了一批有社会理想的教师,主张“循思想自由原则、取兼容并包之义”,奠定了北京大学的精神和传统。1917年,北京大学师生积极参与宣传新思想、新文化,使北京大学成为新文化运动中心。抗战期间,北大师生活跃在民族危难之时,成为抗争权益和思想启蒙的领袖:传播马克思主义,“九一八”示威,“一二•九”游行,在艰难之时于国立西南联合大学培养了大批人才。
第二阶段,1949—1978年,从新中国成立初期到改革开放,是北大在社会主义改造和建设曲折发展的阶段。新中国成立后,国家对高等院校进行调整,北大得到党和政府的大力支持。1952年院系调整,北京大学迁入燕京大学校址。文化大革命开始后,北京大学连续四年停止招生,多数研究中断。1970年,中央发文,废除高等学校招生考试制度,通过“群众推荐、领导批准、学校复审”,主要从工人、农民、解放军中招收“工农兵学员”。1970年后,一些应用性的研究得到恢复[⑦]。
第三阶段,1978—2008年,改革开放至今共30年,是北京大学在社会主义改革和建设中顺利发展的阶段。1978年春,恢复高考后录取的首批学生入读北京大学。近年来,在“211工程”和“985工程”的支持下,北京大学进入了一个新的历史发展阶段。北京大学自新中国成立以来发表了29万篇科研成果[⑧],为国家科学发展奠定了坚实的基础。
二、研究问题及发现
在整理文献的基础上,本研究探索以下三个问题:第一,北京大学的影响力整体变化如何?第二,北京大学从创立开始,其n元词组所呈现出来的以下特征:崭露头角,即北京大学开始在英文文献中开始有记录的时间;到达影响力巅峰的时间,即北京大学从有英文记录到影响力最高峰的时间;影响力半衰期,即北京大学达到其最大影响力的1/2的时间是什么?第三,与国内其他高校比较,北大的发展有哪些特征?
( 一 ) 北京大学历史
本研究数据搜集于2016年12月,根据Google Ngram Viewer搜索结果,大多数资料截至2008年。基于目前的资料,北京大学在英文和中文的关注中有着较大的差异。
1949年以前,谷歌中文图书搜索中,北大的词频出现概率在历史维度上的波动和断裂较大,其中词频出现最多的时期为:1903—1907年,1924—1929年,1930—1936年,1936—1940年,1944—1949年。据历史记载,这些时期里北大师生积极投入抗战救亡的行动中。如1903年拒俄运动中的伏阙上书[⑨];1919年五四运动抗议《巴黎和约》的签订;1921年国立八校开展索薪斗争;1926年与师大、燕大等校学生在天安门示威,抗议日本帝国主义炮击大沽口和“八国通牒”;1935年一二•九运动爆发,北大学生进行游行示威;1946年12月“抗议驻华美军暴行运动”;1947年5月北京大学学生喊出“反饥饿反内战”口号,“华北学生北平区反饥饿反内战大游行”爆发等等[⑩]。1949—1976年北京大学在曲折中发展。1949—1967词频的增长率为74%;1973降至谷底,从1967至1973,下降率为76%;1973—1976年,增长率为106%。1976—2008年,北京大学以343%的增长率发展,在1998年达到高峰,2000年在词频概率为0.0016639857%后,发展趋于稳定。
在英文文献中,20世纪50年到80年代的词频出现波峰。新中国成立后,在相对稳定的环境和政策支持下,北京大学在国际上的声誉不断提高。1957年,反右运动拉开序幕,北大有715名师生被错划为“右派”[11],在该时间段表现出下降。1961年,政府提出“调整、巩固、充实、提高”方针,开始纠正各种问题。在20世纪60年代初,北大的科研成果受到世界瞩目,如首次合成蛋白质、原子弹和氢弹爆炸试验成功。
比较中文词频和英文词频图,后者更加符合学者们所归纳的北京大学校史三阶段说。因此,下文主要基于谷歌英文图书资料库进行分析。
( 二 ) 中国高校的国际影响力比较
本文综合《挑大学选专业》[12]、武汉大学中国科学评价研究中心[13]、上海软科教育信息咨询有限公司[14]三个机构整理的中国大学排行榜,整理出12所知名高校:北京大学、清华大学、浙江大学、上海交通大学、复旦大学、南京大学、武汉大学、四川大学、中山大学、华中科技大学、吉林大学、西安交通大学。本文进一步整理12所高校在Google Ngram Viewer的英文词频,发现各高校在国际影响力上呈现如下情况(表1):
表1:各学校n元数据对比
序号 | 学校 | 正式建校 | 首次记载 | 高峰1 | 高峰2 | ||||||
顶峰 | 半衰期 | 顶峰 | 半衰期 | ||||||||
年份 | 时长 | 年份 | 时长 | 年份 | 时长 | 年份 | 时长 | ||||
1 | 北京大学 | 1912 | 1912 | 1969 | 57 | 1982 | 70 | 2008 | 96 | - | - |
2 | 清华大学 | 1912 | 1927 | 1974 | 62 | 1980 | 68 | 2006 | 94 | - | - |
3 | 浙江大学 | 1950 | 1968 | 2006 | 76 | - | - | 无 | - | - | - |
4 | 上海交通大学 | 1957 | 1970 | 2006 | 48 | - | - | 无 | - | - | - |
5 | 复旦大学 | 1917 | 1957 | 1989 | 72 | - | - | 2007 | 90 | - | |
6 | 南京大学 | 1949 | 1970 | 1989 | 38 | - | - | 2006 | 57 | - | |
7 | 武汉大学 | 1928 | 1928 | 1937 | 9 | 1939 | 11 | 1966 | 38 | 1969 | 41 |
1989 | 61 | 1995 | 67 | 2006 | 78 | - | - | ||||
8 | 四川大学 | 1950 | 1967 | 1987 | 37 | 1997 | 47 | 2006 | 56 | - | - |
9 | 中山大学 | 1926 | 1926 | 1971 | 45 | 1972 | 46 | 无 | - | - | - |
10 | 华中科技大学 | 1953 | 1976 | 1988 | 36 | 1991 | 39 | 2006 | 80 | - | - |
11 | 吉林大学 | 1958 | 1960 | 1988 | 30 | 1992 | 34 | 2005 | 47 | - | - |
12 | 西安交通大学 | 1959 | 1973 | 1990 | 31 | - | - | 2006 | 47 | - | - |
在表1整理资料中可以看出,5所高校从诞生之日起出现两次影响力峰值:北京大学、清华大学、四川大学、华中科技大学、吉林大学;浙江大学、上海交通大学、复旦大学、南京大学、西安交通大学这5所高校则从首次英文记载起,一直到研究资料截止时间(2008年左右),影响力持续增加。进一步分析这12所高校的国际影响力,发现北京大学与其他大学比较,整体呈现以下三个特征:崭露头角快、影响力峰值高、半衰期较长。
1. 崭露头角快
北京大学在1912年正式更名时已经得到国际关注,与此相似的还有武汉大学和中山大学。建校后首次英文记载超过10年的学校有清华大学、浙江大学、上海交通大学等八所高校。
2. 影响力峰值高
北京大学于1969年第一次达到影响力高峰,在对比高校中,较1969年更早的只有武汉大学。而武汉大学此次高峰仅维持1年,同时武汉大学的影响力波动较大,在整个历史发展中,共出现了4次词频波峰。20世纪70年代,达到影响力高峰的有清华大学、中山大学;20世纪80年代达到影响力高峰的有复旦大学、南京大学、四川大学、华中科技大学和吉林大学;一直处于上升期,以研究数据截止点(2008年左右)为最高点的有浙江大学、上海交通大学。
在12所高校中,北京大学的词频高峰值最高,比较各学校的第一次峰值,与北京大学接近的依次是清华大学、中山大学、复旦大学,北京大学词频最高值分别是这三所高校词频峰值的2.87、2.69、4.71倍。各大高校第二次达到高峰时,词频搜索率均得到提升,尤其是第一次排名靠后的华中科技大学、西安交通大学、四川大学迅速发展。
3. 半衰期较长
北京大学在建校70年时达到第一次半衰期,从高峰到半衰期共经历了13年,在所列高校中高峰期持续最久。浙江大学、上海交通大学、复旦大学、南京大学和西安交通大学5所学校仍未出现半衰期,其历史波动幅度较小,整体呈平稳变化的趋势。
三、结论与讨论
科学的目标是利用实证观察揭示宇宙的奥秘,人文则通过细致而批判性的分析来研究人类本性。在之前很长的时间里,两者泾渭分明。到了信息社会的今天,有越来越多的学者试图跨越自然科学与人文社科的边界,用计算机辅助研究,衍生出“数字人文学家”(Digital Humanist)、“计算社会科学家”(Computational Social Scientist)等。关于数字人文,目前大多数研究处于探索阶段,体现在“无假设”(Hypothesis Free)研究,暂时悬置因果关系的解释。此外,谷歌n元词组数据没有足够的上下文,缺乏出现在每个词之前或之后能帮助辨明意思的语句。虽然认识到目前研究的局限性,我们仍然可以通过书籍的词频看出机构和个人发展的基本状态。基于谷歌电子图书数据库,在某种意义上,我们可以对中国知名高校的国际影响力进行相对客观的比较——这种比较不是基于绝对数字,而是处理其时间尺度,比如“影响力半衰期”,而这种半衰期是客观的、可比较的。
本文通过谷歌n元词组搜索,发现英文图书资料库的结果可以呼应学者们梳理的北京大学三阶段之归纳。在这个数据库中发现,北京大学成立当年即有首次英文记载,其国际影响力是其他学校的数倍甚至数十倍之大,其影响力衰落的时间也较其他学校更长——这背后无不是北京大学的精神和传统、师生的科学求索和爱国行为所铸就的。
① Aiden, E., & Michel, J. B. (2013), Uncharted big data as a lens on human culture, Riverhead.
② Hockey, S. (2004), The history of humanities computing, In A Companion to Digital Humanities, ed. S. Schreibman, R. Siemens, and J. Unsworth, Oxford: Blackwell, 2004, http://www.digitalhumanities. org/companion.
③ Unsworth, J. (2000), Scholarly Primitives: What Methods Do Humanities Researchers Have in Common, and How Might Our Tools Reflect This, Symposium on Humanities Computing: Formal Methods.
④ 朱本军、聂华:“跨界与融合:全球视野下的数字人文——首届北京大学‘数字人文论坛’会议综述”[J],《大学图书馆学报》,2016年第5期,第16~21页。
⑤ Aiden, E, & Michel, J. B. (2014), Uncharted big data as a lens on human culture, Riverhead.
⑥ 赵为民 :《北大之精神》[M],北京 :世界图书出版公司,2008 年版。
⑦ 北京大学档案馆校史馆:《北京大学图史:1898~2008》[M],北京:北京大学出版社,2010年版。
⑧ 北京大学机构知识库 :http://ir.pku.edu.cn/。
⑨陈平原、夏晓虹:《北大旧事》[M],北京:生活 • 新知•读书三联书店,1998年版。
⑩ 北京大学档案馆校史馆:《北京大学图史: 1898~2008》[M],北京:北京大学出版社,2010 年版。
⑪ 北京大学档案馆校史馆:《北京大学图史: 1898~2008》[M],北京:北京大学出版社,2010 年版。
⑫ 《挑大学选专业——2016 高考志愿填报指南》,作者武书连自1991年开始“中国大学评价”课题研究,至今已经25年。
⑬中国科学评价研究中心 :一个文理交叉的跨学科的学术机构,主要由武汉大学信息管理学院、学校图书馆、计算机中心与图书情报研究所等单位联合组建。
⑭上海软科教育信息咨询公司:2003年,上海交通大学首度发布世界大学学术排名,为第一个世界大学排名;2009年,为了更独立于政府和大学,特成立上海软科教育信息咨询有限公司。