识典古籍
识典古籍是北京大学-字节跳动数字人文开放实验室开发运营个中国古籍数字化平台,2022年10月11号上线[1]。平台目前收录超两千部中国古籍,按内容主题分成经部、史部、子部、集部、道教部、佛教部六只类别,提供免费阅读、注解查询、全文检索等功能。
背景
[编辑]对古籍进行数字化是一项邪气常见个行动。针对中国古籍,有国学大师网、中國哲學書電子化計劃等平台,一些图书馆、研究部门亦对部分中国古籍数字化,弗过没完全对公众免费开放。有些公司也有进行中国古籍数字化个计划,弗过因为技术、版权等原因搁置或终止。据统计,中国现存约20万种中国古籍,一拢总约5000万册,当中有图片扫描个约8万种,有文本数字化个只有约4万种,还有约1000万册古籍亟需修复。拿古籍扫描看起来好保存古籍,必过图片版本扫描并弗好进行全文检索,弗方便研究、阅读、传播,故咾拿图片转成文本,以文本个形式实现完全数字化纔好起到顶大个作用。中国一向勒陆续进行中国古籍个修复、整理、保存、出版工作,包括对中国古籍数字化,让古籍文本弗需要纸质介质就好更好个保存下来,必过因为参与人数少,古籍数量众多,进展慢唻,有交关古籍没实现完全数字化。[1]
作为识典古籍个开发部门之一个北京大学数字人文研究中心认为,虽然中国内外已经有一些古籍阅读平台,但是来勒方便大众阅读、整理质量、阅读体验等方面还是有弗小个提升空间,拿古籍数字化好更好保护利用古籍,向大众传播古籍知识,故咾帮字节跳动公益部门联合成立北京大学-字节跳动开放实验室,目标是打造内容丰富、使用便当、免费开放个高质量古籍数字化阅读平台。[2]
开发过程
[编辑]2022年3月17号,北京大学数字人文研究中心帮字节跳动公益部门联合成立北京大学-字节跳动开放实验室,开发识典古籍,数字化中国古籍。[3]
古籍个数字化分三步,第一步是用电子扫描仪拿古籍扫描成电子图片;第二步是利用光学字符识别技术拿字转化成文本,再进行校对;第三步是拿文本进行整理,方便阅读。[1]第二步光学字符识别里向,因为古籍原本用字弗少异体字、生僻字,导致一個字来勒一本书里向可能有十几种写法,还没标点符号,降低识别准确性。对此,开发团队训练人工智能进行自动断句分词,光学字符识别准确率达到96%到97%。[3]第三步文本整理里向,要加上标点符号方便现代人阅读。箇项生活老早是古文专家学者做个,人力生活进展缓慢。乃朝用人工智能进行断句、添加标点符号,操作速度更快,效率更高,必过需要人工校对。[3]
完成基本开发以后,识典古籍邀请古籍研究学者、古籍爱好者、老百姓进行多轮内测,进行改进。[3]
2022年10月11号,识典古籍测试版上线,有390部经典中国古籍,主要来自《四部丛刊》,一拢总3000多万字,后期陆续进行其他古籍个收录。[2]
功能
[编辑]平台书库里向个古籍沿袭传统个四部分类法,拿古籍分成功经部、史部、子部、集部,另外设立道教部、佛教部两只分类,一拢总六只分类。箇六只分类下头有二级分类,部分还有三级分类。书籍信息里向注明书名、卷数、作者、作者年代、版本等基本信息。书库中古籍个排列顺序大致按照编撰年代由古到今升序排列。[2]
平台个古籍文本阅读界面是当代流行个横排排版,用字有底本原字、中国大陆标准繁体字、简化字三种,当中标准繁体字、简化字是机器翻译出来个。文本里向个专有名词用仔专名号。对一眼生僻词汇,鼠标停勒高头会得弹出标识有具体释义个悬浮窗口,来源是《汉语大词典》搭头条百科。平台还提供原本影像个开关按钮,好看或隐藏古籍个原本图片扫描版。对有注疏搭译文个版本,也好选择显示或隐藏注疏译文。[4]
平台个检索功能好搜索书籍标题,也好全文搜索,还好筛选作者、书籍、分类、朝代。平台提供收藏夹功能,注册登录帐号以后好使用。平台个阅读界面也针对移动设备做仔适配[2]。
评价
[编辑]辽宁广播电视集团个王梓认为,识典古籍打破普通老百姓传统认知里向古籍典藏个概念,打破传统文化帮现代科技个次元壁,利用人工智能数字化翻译古籍,通过旗下抖音短视频等新媒体平台进行宣传,降低观众阅读古籍个难度,有利于传承中华传统文化。[5]
参考资料
[编辑]- ↑ 1.0 1.1 1.2 古籍数字化平台“识典古籍”推出:三年将上线万种儒释道经典. 澎湃新闻 (2022-10-12).
- ↑ 2.0 2.1 2.2 2.3 识典古籍阅读与整理平台. 北京大学数字人文研究中心.
- ↑ 3.0 3.1 3.2 3.3 天将降大任于是人还是斯人?“识典古籍”里有参考答案. 中国网 (2022-11-02). 原始文档勒2023-12-10存档. 访问日脚2025-01-11.
- ↑ 数字化,激活古籍生命力. 人民日报 (2023-10-03).
- ↑ 王梓. 构建全媒体时代中国叙事体系的文化新表达——以“古籍破圈”现象为例. 记者摇篮. 2023, (03): 54-56. ISSN 2096-3858.
外部链接
[编辑]
|