跳转到内容

识典古籍

出自维基百科,自由个百科全书

识典古籍北京大学-字节跳动数字人文开放实验室开发运营个中国古籍数字化平台,2022年10月11号上线[1]。平台目前收录超两千部中国古籍,按内容主题分成经部、史部、子部、集部道教部、佛教部六只类别,提供免费阅读、注解查询、全文检索等功能。

背景

[编辑]

对古籍进行数字化是一项邪气常见个行动。针对中国古籍,有国学大师网中國哲學書電子化計劃等平台,一些图书馆、研究部门亦对部分中国古籍数字化,弗过没完全对公众免费开放。有些公司也有进行中国古籍数字化个计划,弗过因为技术、版权等原因搁置或终止。据统计,中国现存约20万种中国古籍,一拢总约5000万册,当中有图片扫描个约8万种,有文本数字化个只有约4万种,还有约1000万册古籍亟需修复。拿古籍扫描看起来好保存古籍,必过图片版本扫描并弗好进行全文检索,弗方便研究、阅读、传播,故咾拿图片转成文本,以文本个形式实现完全数字化纔好起到顶大个作用。中国一向勒陆续进行中国古籍个修复、整理、保存、出版工作,包括对中国古籍数字化,让古籍文本弗需要纸质介质就好更好个保存下来,必过因为参与人数少,古籍数量众多,进展慢唻,有交关古籍没实现完全数字化。[1]

作为识典古籍个开发部门之一个北京大学数字人文研究中心认为,虽然中国内外已经有一些古籍阅读平台,但是来勒方便大众阅读、整理质量、阅读体验等方面还是有弗小个提升空间,拿古籍数字化好更好保护利用古籍,向大众传播古籍知识,故咾帮字节跳动公益部门联合成立北京大学-字节跳动开放实验室,目标是打造内容丰富、使用便当、免费开放个高质量古籍数字化阅读平台。[2]

开发过程

[编辑]

2022年3月17号,北京大学数字人文研究中心帮字节跳动公益部门联合成立北京大学-字节跳动开放实验室,开发识典古籍,数字化中国古籍。[3]

古籍个数字化分三步,第一步是用电子扫描仪拿古籍扫描成电子图片;第二步是利用光学字符识别技术拿字转化成文本,再进行校对;第三步是拿文本进行整理,方便阅读。[1]第二步光学字符识别里向,因为古籍原本用字弗少异体字生僻字,导致一個字来勒一本书里向可能有十几种写法,还没标点符号,降低识别准确性。对此,开发团队训练人工智能进行自动断句分词,光学字符识别准确率达到96%到97%。[3]第三步文本整理里向,要加上标点符号方便现代人阅读。箇项生活老早是古文专家学者做个,人力生活进展缓慢。乃朝用人工智能进行断句、添加标点符号,操作速度更快,效率更高,必过需要人工校对。[3]

完成基本开发以后,识典古籍邀请古籍研究学者、古籍爱好者、老百姓进行多轮内测,进行改进。[3]

2022年10月11号,识典古籍测试版上线,有390部经典中国古籍,主要来自《四部丛刊》,一拢总3000多万字,后期陆续进行其他古籍个收录。[2]

功能

[编辑]

平台书库里向个古籍沿袭传统个四部分类法,拿古籍分成功经部、史部、子部、集部,另外设立道教部、佛教部两只分类,一拢总六只分类。箇六只分类下头有二级分类,部分还有三级分类。书籍信息里向注明书名、卷数、作者、作者年代、版本等基本信息。书库中古籍个排列顺序大致按照编撰年代由古到今升序排列。[2]

平台个古籍文本阅读界面是当代流行个横排排版,用字有底本原字、中国大陆标准繁体字简化字三种,当中标准繁体字、简化字是机器翻译出来个。文本里向个专有名词用仔专名号。对一眼生僻词汇,鼠标停勒高头会得弹出标识有具体释义个悬浮窗口,来源是《汉语大词典》搭头条百科。平台还提供原本影像个开关按钮,好看或隐藏古籍个原本图片扫描版。对有注疏搭译文个版本,也好选择显示或隐藏注疏译文。[4]

平台个检索功能好搜索书籍标题,也好全文搜索,还好筛选作者、书籍、分类、朝代。平台提供收藏夹功能,注册登录帐号以后好使用。平台个阅读界面也针对移动设备做仔适配[2]

评价

[编辑]

辽宁广播电视集团个王梓认为,识典古籍打破普通老百姓传统认知里向古籍典藏个概念,打破传统文化帮现代科技个次元壁,利用人工智能数字化翻译古籍,通过旗下抖音短视频等新媒体平台进行宣传,降低观众阅读古籍个难度,有利于传承中华传统文化[5]

参考资料

[编辑]

外部链接

[编辑]