被称死亡文字的天书 全球能读的人不超过10人

2022-09-15 21:44:55 作者:暖阳°
导读:被称“死亡文字”的天书西夏文 全球能读懂的不超10人,被称“死亡文字”的天书 全球能读的人不超过10人 我记得有一次聊天,一个朋友描述了他对人工智能的印象,总结成三个...
从儒家的一次重大危机处理,看中国人传统的 真假 观念

被称“死亡文字”的天书 全球能读的人不超过10人

我记得有一次聊天,一个朋友描述了他对人工智能的印象,总结成三个词:西方、商业和未来。

5月18日探寻逝去的天书 西夏文字图片展将在泉州华侨历史博物馆开展 带您走进神秘的西夏文字世界

我马上说你说得很好。唯一的问题是没有说对……

我们怎么打架就不提了。我希望打破的是人工智能的固有印象。事实上,人工智能作为一种早期发展起来的通用技术,绝不是西方专利,也不仅能创造商业价值。

即使在某些巧合下,人工智能也可以成为我们了解历史、自己的国家、祖先和过去的武器。

梁启超说“学术是世界上的公器”,这不仅意味着学术世界是共同的,也意味着学术世界是共同的。人工智能作为一种基本工具,通常可以在意想不到的地方工作。例如,在今天介绍的人工智能技术的帮助下,自动识别西夏文——纯中国人文社科领域。

(西夏文美感奇特)

虽然大多数人永远不会参与这项技术,但这种情况的价值在于它可以打破我们对它的看法AI一些偏见。AI它不仅集中在这些领域,也不是欧美寡头的玩具。它甚至可能无处不在。

为什么要识别西夏文?隐含哪些困难?

众所周知,西夏是一个对抗北宋、辽、金的党项族国家,统治河西200多年。

与公众的认知不同,西夏并不是一个野蛮的文明。他们创造了惊人的文化、艺术和宗教文明,但随着1227年蒙古摧毁了西夏,蒙古没有为西夏建立历史,政权记录迅速消亡,李元浩创立的西夏文也被摧毁。

西夏文,又称河西文、番文、唐古特文,曾在宁夏、甘肃、陕西北部、内蒙古南部盛行约两个世纪。然而,西夏灭国后,这种参考汉字创作的奇特文字逐渐消失,最终成为一种死文字。

直到1804年,武威大云寺发现了著名的重建凉州护国寺感通塔碑,西夏文才在埋藏了几百年后重现。从那时起,阅读西夏文已经成为学术界的一项重要工作。

(凉州护国寺感通塔碑重建局部)

200年来,出土的西夏文献数量不断增加,其中大部分是由英国和俄罗斯探险家带到国外的。然而,在各国学者的努力下,西夏文的基本文本识别已经完成。现阶段的重点是阅读大量西夏文献的具体内容,并根据文本列表揭开当时中原和西部地区的历史雾。

然而,在这个过程中,研究人员必须手过手工阅读来阅读西夏文,这需要极大的时间。由于西夏文是一个高度相似的词,人工识别也可能有很大的错误率。

因此,一些学者建议使用计算机自动识别西夏文本。这个想法很好,但在具体操作中仍然存在巨大的问题。例如,西夏文本结构复杂,字符组成部分元素高度相似,平均笔画达到25幅,计算机识别难以启动。

此外,虽然西夏时期有印刷技术,但出土文献主要是手写和雕刻文本。不同文献中同一词的位置不固定,整体布局会偏移,给机器识别带来巨大困难。

因此,有趣的事情出现了。以宁夏大学相关研究机构为代表的学术力量选择用人工智能技术解决西夏文的自动识别问题。

而且这项工作早就开始了,成果不断涌现。从时间上看,绝不是赶上这波浪潮。AI热的产物。

人工智能完成西夏文自动识别

事实上,西夏文用计算机技术处理已经很久了。

早在1996年,日本国家亚非语言文化研究所就制作了西夏文字库和排版系统。1997年 年中国学者李范文和日本学者中岛干起利用该排版系统合作出版了《电脑处理西夏文〈杂字〉研究。俄罗斯还应该有西夏文数据化和计算机处理的项目和研究成果。

使用弹性网络、神经网络,AI为了识别西夏文,算法和深度学习是中国领先的创举。

(纪录片《神秘的西夏》创作文字片段)

用AI识别西夏文主要依靠计算机字符识别( optical character recognition,OCR) 20世纪60年代,该技术已成为人工智能研究的主要领域之一。

其核心技术主张是基于人工智能操作识别文本符号的数字图像,并将其转换为相应的数字文本,以实现识别、编辑和转换的目的。

OCR目前,该技术在许多领域已经相当成熟,如我们经常使用的印刷文件文本提取。OCR在识别领域,更多的应用是准确识别手写内容,并使用OCR文字在识别考古文献中的非广泛使用基本上是空白的。

这里可以简单介绍两种论文AI识别西夏文案例。

例如,在《基于弹性网络的西夏文本识别》中,研究人员利用弹性网络技术提取西夏文本中的笔画特征。然后统计每个网格中像素点的概率分布,形成一个可读的特征模型。最后,利用文档主题模型法对提取的特征进行降维处理,并结合数据库识别文献。

该方法的平均识别率可达87.99 %。

再比如基于Mean Shift西夏文字笔形识别算法,Mean Shift算法,即偏移平均向量,是机器学习领域的基本算法。基本理论是利用信息密度完成聚类、图像分割和跟踪任务,可以处理类似但边界模糊的图像处理应用。利用这种算法,研究人员通过相似性对原始数据生成概率统计直方图进行分类。

(西夏文智能识别算法流程)

这里只有两个具体的应用案例,利用深度学习等前沿人工智能技术识别西夏文的应用还在不断发展。

人工智能应用于文献和考古领域

西夏文可能离我们的日常生活还很远,但作为整个人文社会科学领域的推广,AI应用程序可能会从另一个角度无限接近我们的生活。

从近处看,AI从远处看,提高学术效率可能会影响我们的学科配置、学术培训甚至高等教育体系,AI进一步识别历史和文献的能力是我们窥探自己的过去,理解自己“中国”为何是“中国”全新工具。

当我们沉浸在未来的乐趣中时,人工智能可以在历史领域迅速发挥其价值。通过西夏文学识别的例子,不难发现,人工智能至少可以在文学和考古学等社会科学领域发挥以下作用:

1.基于算法的文物识别、文物数据化、考古现场数据化等考古图像的识别和归档。

2.文献文本的识别和转码,如原始文献的文本识别读取、文献聚类和文献数据化。

3.文献数据库的知识图谱化和机器学习应用。如学科文献图谱化、时代文献图谱化、科研项目数据图谱化、基于知识图谱训练的人文社会科学领域智能体。

这一点尤为重要,想象力也是最丰富的。就像金融、翻译等领域一样,很可能会被使用AI替代一样,文献学与历史研究领域大部分依赖考证、校勘、资料爬梳的工作,也完全可以被AI取代。

类似的人文领域和AI还有很多跨界,有的甚至涉及到哲学伦理层面的技术和人文互搏,以后我们会陆续介绍。

也许AI就像风一样,当它是一场风暴时,每个家庭都会锁上门窗,小心保护。但当它是微风穿过房子时,在我们不知不觉中,AI已经无处不在了。

古老又神秘的文字 西夏文 是天书还是汉字 看历史学家如何说
精彩图集