多媒体文汇报     PDF图文仿真版        

 首页    |   要闻    |    综合新闻    |    科教卫新闻    |    文化新闻    |    体育新闻    |    国际新闻    |    环球视窗    |    财经新闻    |    国内视窗

首页 >> 科技文摘
机器学习重现古城历史
日期:2017-09-02 作者:郁风 来源:文汇报

  • 图片说明: 威尼斯国家档案馆保存着这座城市上千年的历史文件


  • 默默矗立在意大利威尼斯的圣方济会荣耀圣母教堂有着“威尼斯万神殿”之称。这座14世纪的古老教堂于1815年被改为威尼斯国家档案馆,里面存放着这座城市几千年厚重的历史。

      海量的地图、手稿和专著,以及威尼斯一代又一代的官方文件,都堆放在总长超过80千米的书架上。但可惜的是,其中大部分都没有被现代历史学家阅读过。由于年代久远,很多文档 (如一些遗嘱和手写稿) 已经无法阅读,因为一经打开就会被损毁。

      如今,一项雄心勃勃的新计划正致力于发掘这座巨大档案库的秘密,并用数字化手段重建它所描述的那个威尼斯。

      水城的黄金年代

      威尼斯值得科学家们投入大量时间和精力,因为它拥有大量极具历史价值、保存有序的文件。公元5世纪,罗马帝国公民为逃避入侵,南下建立了威尼斯。具有战略优势的地理位置,使它成为西欧与东方的重要贸易枢纽,积累了大量财富和力量。

      威尼斯在逐渐壮大的同时,也建立起多套行政系统,记录了大量信息:谁在哪里居住,每一艘进出港湾的船只的信息,还有每一次对建筑或运河的改造。现代银行业起始于里亚尔托 (威尼斯最古老的地区之一),那里的公证人记录了所有的贸易交流和金融交易。

      重要的是,这些记录历经动荡的几个世纪仍被保留了下来。在圣方济会荣耀圣母教堂被改为威尼斯国家档案馆之后的几十年里,所有的国家行政文件都被转移至此,包括死亡登记簿、医疗记录、公证记录、地图和建筑平面图、专利登记簿及其他各式各样的文档,有些甚至来自意大利其他地方。其中意义重大的是来自欧洲和奥斯曼帝国的大使报告,这些独一无二的资料为后人提供了当时日常生活的详细信息。大多数档案都由拉丁文或威尼斯方言写成,现代历史学家从未读过它们。

      打造“威尼斯时光机”

      瑞士洛桑联邦理工学院 (EPFL) 数字人文科学实验室主管、计算机科学家弗雷德里克?卡普兰致力于将人工智能 (AI) 应用于人文科学,尤其是语言学。他用AI搜索几个世纪的新闻报道,寻找词汇和词组的使用规律,并借此建立了语言演化模型。他一直都渴望在某个拥有数百年档案的欧洲城市,应用这些技术来建造一台时光机。

      卡普兰清楚地记得在2012年第一次走进档案馆的场景。时间在这个拥有300多个房间的建筑中凝固了,里面既没有空调也没有暖气;易碎的文件从地面一直堆到天花板,泛黄的纸张碎片时不时地从边缘飘落。“我被眼前的场景震惊了。”他说,“见到上千年的档案却无法阅读它们,我当时就下定决心要做这个项目。”

      威尼斯国家档案保管员习惯于传统的保护办法,一开始并没有接受这个想法。但是不到一年,他们就决定与卡普兰以及一些历史学家和档案保管员开展跨学科全力合作。

      “威尼斯时光机”项目致力于帮助研究者获取存储在威尼斯国家档案馆的大量数据,每一页文档都要经过扫描和数字化。通过这架虚拟的时光机,现代历史学家和公众便能探索古代威尼斯书面文档提供的数据集,内容将涵盖从贸易和金融市场,到公共卫生和疾病传播的方方面面。为“威尼斯时光机”项目研发出的技术,也可应用于其他古老的档案库,为观察过去打开一扇扇细致入微而又富于启迪的窗户。

      自动读取古老手稿

      在“威尼斯时光机”到来之前,威尼斯国家档案馆已经开始了一项由意大利文化遗产部支持的数字化项目——自2006年起,一架特制的大型扫描仪开始对档案馆中超过3000幅的意大利城镇地图进行数字化,其中许多是由拿破仑下令绘制的,可谓是镇馆之宝。

      但对档案中大量的手写稿来说,普通的文字识别扫描软件根本无法胜任精确的识别工作。“威尼斯时光机”项目能脱颖而出,依托的是新颖的技术:既有能够将手写文件转变为数字化文本的适应算法,还有顶级的高速扫描仪。

      其中一台扫描仪有一条机械臂,能够翻开书页;还有一台是壮观的旋转式扫描仪,它有一个两米宽的转台,技术人员能够面对面站在两边,同时向其中添加多本A3大小的文档。这些扫描仪组成一道流水线,每小时生成几千张高清图片,这些以兆兆字节计的信息被传送到威尼斯的服务器进行长期存储,同时也被传送到洛桑,那里的高性能计算机将图片转为可以加注释的数字文本。

      自动读取古老的手写稿是一个巨大的挑战。标准的字符识别软件能一个字母一个字母 (无论字体是什么) 地读取印刷本,使它们变成可搜索的文本。但是这并不适用于手写稿,因为抄写员书写的单个字母形状差异巨大,并且随着时间推移而发生变化。

      在“威尼斯时光机”项目中,卡普兰运用了一种叫“机器学习”的方法来识别整个词的形状。机器学习依赖于能在搜集数据样本的过程中修改自身规则和行为的算法,每一次的新体验会提升算法的能力。时光机的算法能够分析书面文字的结构,并找出看起来相似的图形,在两者之间建立关联。所以,用户可以从某个文档中挑选一个名字,然后要求系统找出同样的名字在数据库所有其它手稿中出现的位置。

      在不同文件之间进行匹配、交叉引用人名,意味着研究者能建立起威尼斯的社会关系网络,而地图中包含的数据则能帮助他们重建威尼斯建筑建造 (有时还有倒塌) 的过程。接下来,研究者可以将地图中的信息与历史上的绘画和现代的照片进行交叉比对,将这些画面和那些看似平凡无奇的商业文书结合起来,这意味着历史学家们可以重建出威尼斯在历史上几乎任何时间点的城市细节。

      研究人员目前正在开发一种可扫描未打开书本的顶级扫描仪。这个概念基于医学中的CT扫描技术———从不同角度拍摄X光照片,然后一层一层叠加,构建身体内部的3D图像。目前,EPFL的科学家正在对该概念进行完善,他们希望通过分析古代墨水的成分,找出能够用来当作X光造影剂的分子。卡普兰说:“这种断层扫描仪投入实际运用或许还需要五年以上的时间,它将能实现无损扫描,且扫描速度更快。”

      (郁风编译)



    上海报业集团 版权所有 未经授权 不得转载    沪ICP备13038980号