首页 > IT业界 > 正文

谷歌推出庞大图书数据库 涵盖古今5000亿单词

2010-12-17 19:35 来源:腾讯科技

北京时间12月17日消息,据国外媒体报道,谷歌推出了一个庞大的图书数据库,包括了可供互联网免费下载和搜索的近520万部数字图书。此举有望开启人文教育和研究的新篇章。

谷歌图书数据库汇集了大量的单词和短语,及其每年使用频率的变化情况。这是如此规模的数据库和搜索工具首次面向所有电脑用户开放。这个数据库包括了从1500年到2008年间出版的各类图书的5000亿个单词,涉及语种包括英语、法语、西班牙语、德语、汉语和俄语。

这个数据库的目标用户是学者,但它也提供了一个简单的在线工具,允许任何用户在电脑上输入最多五个单词,然后查看这些单词或短语历年来的使用频率情况。或许,这将成为像《愤怒的小鸟》游戏一样令人上瘾的消遣方式。

例如,用户可以查看“women”(女性)和“men”(男性)的使用频率变化情况。在上世纪70年代初之前,“women”在当年出版的图书当中很少被提及,而在女权主义站稳脚跟之后,“women”的使用频率逐年提升,直到1986年,“women”和“men”的使用频率曲线出现了交点。

同时,用户还能发现,“Mickey Mouse”(米老鼠)和“Marilyn Monroe”(玛丽莲·梦露)在平面书籍中出现的频繁也不及美国前总统“Jimmy Carter”(吉米·卡特)。

推动人文学科研究变革

美国哈佛大学研究员埃雷兹·利伯曼·艾丁(Erez Lieberman Aiden)表示:“这个数据库的目标是使8岁的孩子也能浏览图书所记载的历史文化趋势。”利伯曼·艾丁与另外一名哈佛大学研究员让·巴普蒂斯特·米歇尔(Jean-Baptiste Michel)与谷歌一起建立了这个庞大的图书数据库,并启动了一个研究项目,研究庞大的数字数据库将如何转变我们的语言、文化和观念。

他们的研究成果将发表在本周五出版的《科学》杂志上。此次研究为那些拒绝量化分析的文学、历史和其他人文学科的人提供了一种全新的研究方法。《科学》杂志也破例将这份研究报告向非注册用户开放。

利伯曼·艾丁表示:“我们要说明,将高质量的数据分析应用于人文学科也是可行的。”艾丁是一名应用数学和组学的专家,他将这种研究方法称作“文化组学”(culturomics)。

用户可以下载该数据库的数据,并建立自己的搜索工具。#p#副标题#e#

研究人员还以1800年以起点,对“名气”的持续时间进行了研究。研究发现,在20世纪中页,书籍中对名人的记录的消失速度相当于19世纪初的两倍。报告称:“未来,每个人的名气只能持续7.5分钟。”

关于发明创造,研究人员发现,在19世纪初,科技进步平均需要66年时间才能被主流文化接受,而1880年至1920年只需要27年。他们还对一些比较特殊的英语动词进行了研究,看其如何从最初的过去时词尾不加“ed”(如learnt)演变为如今的格式(如learned)。

研究人员发现,在过去50年里,英语词汇里增加了100多万个单词,增幅达到70%。他们还表明,增加新兴流行词汇和删除过时词汇能够大大加快辞典的更新速度。

哈佛大学语言学家史蒂芬·平克(Steven Pinker)过去20年一直在研究英语语法和过去时。他说:“当我看到这个数据库的时候,我感到非常兴奋。这不禁使我们怀疑,如果它早点出现,将会对语言的发展产生何种影响。”

平克表示,关于动词演变的信息“使得结果更为可信和全面”,“这篇论文中的报告仅仅是一个开始。”尽管曾多次反对在人文学科的部分领域进行量化分析,但平克表示,他相信这个数据库以及类似工具将普及开来。

人文学者的质疑

不过迅速浏览了该论文的人文学者的态度则比较模棱两可。哈佛大学英语教授路易斯·梅南德(Louis Menand)表示,这是个不错的工具,尤其是对语言学家而言。但他警告说,在文化历史领域,“很明显有些说法过于夸张”。他还指出,在这篇论文的13名作者当中,没有一名人文学者。他说:“这个研究项目甚至没有一名历史学家参与其中。”

哥伦比亚大学美国历史教授阿伦·布里克利(Alan Brinkley)表示,现在就评判单词和短语搜索对世界的影响还为时过早。他说:“我可以想象到很多有趣的用途,但我不知道这些数据能说明什么。”

米歇尔和艾丁都认识到了人文学者的担忧,并强调说,“文化组学”只是提供信息,对信息的解释仍然是必不可少的。艾丁说:“我并不是要向人文学者说明什么,我们只是抛出一些有趣的信息。问题在于,你是否愿意研究这些数据。”
研究项目进展

艾丁和米歇尔于2004年开始了他们对不规则动词的研究项目。当时谷歌图书尚未面世,他们不得不一页一页地翻阅大量的图书,这个过程耗时18个月。艾丁说:“当时我们精疲力竭。”

后来,他们了解到了谷歌计划建立一个数字图书馆,存储有史以来出版过的所有图书。两人认识到,这有可能使他们的研究发生革命性变化。因此,他们找到了谷歌该研究项目的负责人彼得·诺维格(Peter Norvig),表示希望利用谷歌图书进行数据采集和统计分析。

米歇尔表示,“他认识到,对于科学和谷歌而言,这都是一个重要机遇。在接下来四年时间里,我们处理了很多复杂问题”,其中包括法律问题和数字化问题。美国出版商协会和作家协会与谷歌达成的数字图书版权协议目前仍有待法院批准。谷歌表示,“文化组学”研究项目不涉及任何篡权问题,因为这些图书本身或者部分内容是无法阅读的。

到目前为止,谷歌已经扫描了已出版图书的11%,涵盖约2万亿个单词。即将发表在《科学》杂志上的论文使用了4%的数据。如此庞大的数据使得以前所未有的方式进行文化影响的量化分析变得可能。应用数学和系统生物学家米歇尔表示,具有文化意义的单词在书籍中出现的频繁远远低于日常用语,要想获得精确的结果,就必须有规模庞大的样本。他表示,要想知道“Sasquatch”是否渗透进了文化领域,需要分析至少10亿个单词。#p#副标题#e#

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:9145908@qq.com)