半岛全站入口

MING YANG NEWS

AI破译2000年前「上古卷轴」登Nature头版!21岁计算机天才谷歌华人工程师共获大奖

发布时间:2024-02-11 18:57:03 作者: 半岛全站入口

  2000年前碳化的古卷轴,如今成功被AI破译!背后三人团队还拿下70万美元大奖!

  要说这件事的起源,还得追溯到公元79年一次火山爆发, 直接将一座珍藏古老的纸莎草卷轴——Herculaneum Papyri的图书馆埋葬。

  而这些卷轴,直到18世纪才被挖出,却早已成为炭焦的木块。由于太过脆弱,根本没办法轻易展开。

  今天,正式获奖的作品,展示了超过15栏的数百个单词,相当于整个卷轴的5%的内容。

  值得一提的是,三人拔得头筹的团队中,有一位年仅21岁计算机天才少年Luke Farritor,成功用AI从图像裂缝中破译内容。

  另外,这场AI破译卷轴的大赛还有3个团队获得亚军,包括一位谷歌华人工程师单独获5万美元大奖。

  从破译文字转录后可以读出,古代哲学家对「如何享受生活」「快乐」的探讨与争辩,还揭示了人们对音乐和冒险的沉思。

  这一壮举为AI完整破译其余古卷铺平了道路,研究人员表示,这可能会对我们对古代世界的理解产生革命性的影响。

  谷歌DeepMind的首席执行官:我迫不及待地想阅读这些被认为已经失传的古籍!

  十个月前,我们发起了Vesuvius Challenge,旨在解决赫库兰尼姆莎草纸书卷这一古老问题。这是一批在公元79年维苏威火山爆发时被高温烤焦的莎草纸卷轴图书馆。

  今天,我们欣喜若狂地宣布,我们疯狂的项目成功了。2000年后,我们终于能阅读卷轴了!

  来自法国科学院的卷轴在牛津附近的Diamond Light Source粒子加速器进行了成像,然后公布了这些卷轴的高分辨率CT扫描图像。

  这些卷轴是在位于英格兰牛津附近的Diamond Light Source(一种粒子加速器)扫描的。

  该机器可以产生的高强度平行X射线束,使得成像快速、准确且分辨率比较高。通过断层重建算法,X射线D体素体积,形成一系列的切片图像。

  接下来,需要在3D空间中识别出单独的纸莎草纸张,这一步骤主要依赖于一个名为Volume Cartographer的工具。

  如下动画向我们展示了在Volume Cartographer中怎么样做手动和自动分割操作。

  对于完整卷轴的大规模扫描,墨迹检测一直是个挑战,直到最近挑战赛发起团队在两个方向上取得了突破:

  去年夏天,Casey Handmer在检查平铺后的表面体积时,发现了一种奇特的裂纹模式,这些裂纹似乎组成了文字。

  Casey因这一发现赢得了首个墨迹奖,并与社区共享了他的发现,随后引发了一系列的研究活动。

  与此同时,数百支团队在Kaggle竞赛中努力构建出最佳的机器学习模型,目标是检测那些在几百年前卷轴物理解卷过程中脱落的碎片上的墨迹。

  与之前不同的是,他们利用了这些碎片照片上的真实数据来进行训练,而不是标记尚未发现的裂纹。

  虽然这些努力产生了一些优秀的模型,但它们在分割团队处理的平铺图像上似乎并不奏效。

  直到谷歌华人工程师Youssef Nader应用了领域适应技术,这一技术最终帮他赢得了第一字母奖的亚军。

  在得到训练数据后,全球众多参与者通过计算机视觉、机器学习不懈努力,不到一年时间,立刻攻克破解古卷阅读这一难题。

  下图是PHerc.Paris. 4(法国科学院)的部分文本,2000年来首次被人阅读。大约95%的卷轴内容仍待揭晓。

  卷轴字体被揭晓那刻,就会发现,被两千年的泥土和灰烬封存的祖先思维再次展现在世人面前!

  值得一提是,21岁的Luke Farritor是一名计算机学生,曾在SpaceX实习,是史上第一位从赫库兰尼姆卷轴读出整个单词ΠΟΡΦΥΡΑϹ(意为紫色)的人,并赢得了首字母奖的第一名。

  柏林自由大学的博士生Youssef Nader在去年10月就读出了几列文本,并赢得了第二名的首字母奖。他的成果特别清晰易读,自然成为了团队的lead。

  还有Julian Schilliger,是来自苏黎世联邦理工学院(ETH Zürich)机器人学学生,因其在Volume Cartographer上的卓越工作而赢得了三个分割工具奖,让我们也可以看到如今的纸莎草区域3D映射。

  为了拿下最终的大奖,三人组建了一个强大的团队,并向评审提交了一份,如今被评为最易读的作品。

  提交的文件中,包含了三种不同的模型架构的结果,互相印证。其中基于TimeSformer的模型输出了最佳图像。

  为了防止过拟合和数据幻读,他们采取了多种措施,包括采用多架构结果、研究不同的输入/输出窗口大小、应用标签平滑和多样化的验证方法。

  除了卓越的墨迹检验测试能力,这份作品还展示了迄今为止,我们见过的最强大的自动分割技术。

  便是由Julian开发的ThaumatoAnakalyptor(大致意为「奇迹揭示者」)能够从多个卷轴中生成大量纸莎草片段。

  对已知区域的重新分割验证了之前的墨迹发现,全新的分割则揭示了如卷轴最外层包裹等另外的地方的文字。

  此外,除了第一名拿下大奖,Vesuvius Challenge还评出了三个并列的亚军,将各自获得50,000美元奖金。

  技术细节是对UNETR++模型进行了定制调整。这是一种基于变压器的 UNET 衍生工具,在医学成像中用作3D特征提取器,对深度层进行最大池化处理,然后使用基于Segformer B-5的最终特征提取器。

  到目前为止,研究团队已经成功展开,并阅读了第一卷卷轴的约5%,并对露出的文字进行了初步转录。

  这篇文本主要探讨的是快乐,正确地理解快乐,在伊壁鸠鲁哲学中是最高的善。在卷轴的两段连续的文字中,作者探讨了食物等商品的可用性是否,以及怎么样影响它们提供的愉悦。

  那些稀缺的东西是否比大量存在的东西带来更多的快乐?作者觉得不是:「就像食物一样,我们不会马上相信稀缺的东西绝对比丰富的东西更令人愉快。但是,我们是不是更容易放弃那些大量存在的东西呢?这样的问题经常会被频繁地提出讨论。

  由于这是卷轴的结尾,这种表述可能意味着在同一系列作品的后续书籍中还有更多详细的内容。在文本的开头,提到了一位名叫Xenophantos的人,可能是同一位人物——假设是一位音乐家——也在Philodemus的《关于音乐》一作中被提及。

  Philodemus,作为伊壁鸠鲁学派的一员,被认为是别墅中的常驻哲学家,在那里发现卷轴的小图书馆里工作。

  在文本的结尾部分,作者对他的对手进行了尖锐的批评,他们「在定义快乐的问题上,无论是从总体上还是具体上,都无话可说」。

  ……我们不是不对某些事情提出质疑,而是对其他事情有所理解/记忆。并且,当这些事情经常显露出来那样,我们明白说出真相是很重要的!

  但对我们而言,是如此地熟悉,古轴的第一篇竟是讲述「如何享受生活」的两千年前的文章。

  在结尾段落里,Philodemus是否在批评斯多葛学派,声称斯多葛主义是一个不完整的哲学。因为它「对于快乐一无所知」?

  他似乎在讨论的问题——生活的快乐以及什么让生活变得有价值——仍然是我们今天思考的话题。

  人人皆知,机器学习模型通常会产生「幻觉」,即输出与其训练数据相似、但其实就是虚构的文本或图片。

  Vesuvius Challenge技术审查团队亲手复现了获奖作品,确保完全理解了代码的每一个细节,并独立运行代码时,得到了与原作品相似的图像。

  你可能注意到,所有提交的图片都展示了卷轴的同一区域。Vesuvius Challenge向所有参赛者提供了分割团队用CT扫描创建的3D映射的纸莎草片段。

  墨迹检测模型并不是基于希腊字母、光学字符识别(OCR)或语言模型。它们是独立地识别CT扫描中的微小墨点,这些墨点聚集起来后才形成了文字。因此,图片中显示的文本并非机器学习模型虚构出来的,而是直接基于CT扫描中的实际数据。

  模型采用了较小的数据处理窗口:在一些情况下,它的输出结果甚至仅限于两种状态:「有墨迹」和「无墨迹」,这极大地降低了模型错误地生成类似字母形状的可能性

  与此同时,他表示,仅仅是走到这一步就「感觉像是一个奇迹,我不敢相信它竟成功了」。