加微信,请扫二维码
 您现在的位置: 北京冰河图书工作室 >> 联系我们 >> 【出版资源】 >> 【综合资讯】 >> 正文

数字化时代下中华书局如何造就“线上中华”?

[ 来源:佚名    点击数:958    时间:2018/4/6    编辑:冰河 ]
冰河文化图书策划业务介绍 冰河文化编辑组稿业务介绍 冰河文化加工修订业务介绍 冰河文化图书插画业务介绍 冰河文化个人出书业务介绍

 

 

图书工作室 讯:
,

数字化时代下中华书局如何  造就“线上中华”?

编者按:3月14日-16日,由中国新闻出版研究院主 办,中国新闻出版研究院产业发展咨询中心协办的2018 全国新闻出版单位数字出版工作交流会在京召开。本届 大会以“深化转型,创新引领”为主题,围绕新闻出版 业转型升级的新机遇和新挑战,数字出版如何实现跨越 式发展等多个议题展开探讨。作为一家拥有百年历史的 书局,中华书局这些年做了什么?它又正在做什么?中 华书局总编辑、古联数字传媒科技有限公司董事长顾青 告诉了我们答案。

古籍焕新生,联手创未来。数字化时代下中华书局积 极探索转型之道,开发了中华经典古籍库,力求实现再 造“线上中华书局”的梦想。

探索古籍数字化,再造线上中华

中华书局的特色是传统文化的出版,核心竞争力是处 理传统文化典籍。所以,中华书局数字化的战略是古籍 整理的研究和出版。我们依托中华书局的品牌资源优 势,开展广泛的数据合作,根据国家的规划打造中华传 统文化大数据中心,建立国家级的古籍整理出版资源平 台,让中华书局成为一个国内领先的优质传统文化、数 字资源的内容提供商和知识服务商,再造一个线上中 华。线下中华的主要盈利收入是靠纸书,线上中华建立 起来以后,基本目标是线上收入或者是媒体融合的收入 能够超过线下或者与之持平。

自2003年起,中华书局开始探索古籍数字化,当时新 闻出版署科技司提供了一系列的项目支持,鼓励中华书 局的工作。虽然业界已经有很多民营公司探索过古籍数 字化,但是,就目前已经投入使用的产品来看,情况并 不理想。所以,我们选择自己做。古籍数字化的复杂程 度是极高的。比如,一般处理数字化的时候,汉字可以 直接使用,不需要再开发。因为现在大字符集可以一直 扩下去,能够处理七万多个汉字。这对于一般的数字化 的汉字使用是足够的。而处理古籍时,要应对的是五千 年来积累下来的各种形体和字,甚至有很多已经死掉的 汉字。如果要确保这些字准确并且能够被检索,对于我 们来说,要处理的就是十几万的汉字,甚至还不够。为 了解决网上很多字没办法被检索和显示的问题,十几年 来我们处理了一系列古籍数字化的基础数据、古籍数字 化标准和一些具体的方法路径,在这个过程中也积累了 一批人才。尽管没有产业化,但也可谓是卓有成效。

2014年6月真正开始产业化之前,中华书局的很多产 品被盗版,可仍有许多用户使用。我们自认为不足,后 来制成了中华经典古籍库(镜像版),这款数据库用户 评价极好,我们也在一直增添数据。2015年10月,中华 书局专门成立了一家以古籍数据化为主要业务的公司, 与传统出版完全不同,其运作模式完全按照科技公司运 行。

2015年11月,经典古籍库线上版发布,中华古籍整理 出版资源平台项目正式启动。2016年4月,基于移动终端 的微信版上线。2017年12月,经典古籍库第五期发布。4 月23日古籍整理出版资源平台籍合网准备上线,目前还 在筹备阶段。

这是中华书局古籍数字化的基本历程。中华经典古籍 库是中华书局的主打产品,前三年公司的主要盈利都来 自于这个产品,许多基本说法都基于古籍整理成果和规 范的、海量的合法数据。由此可见中华经典古籍库的标 准和工作难度。

保证内容质量,提供优质资源

目前,网络上的绝大多数古籍数据都是不够准确的。 为何不够准确?我认为,如果用中华书局的图书引用古 籍,那么可以说饮用的是纯净水或者是矿泉水。但如果 是直接从网络上下载数据,那么饮用的就是自来水,甚 至是别的水。这说明网络上存在许多不准确的文字,直 接引用无法得到正确的结果。

所以,要想做到最好的质量,必须基于古籍整理的一 系列规范和成果。从建国以来,中国的古籍整理事业取 得了十分优异的成绩,其中最重要的成就是有一批优秀 的人才在做古籍整理的基本工作,出版最好的书。一般 来说,目前网络上的很多古籍和高校老师使用的古籍大 型数据库,基本上不能直接使用。有一句话叫做“可供 征引”,如果这些不规范的数据被引用进去,后果可能 是博士论文通不过,中华书局不能出版这本书。然而当 这些数据库都获得了合法的信息网络传播权时,海量的 合法数据却是给我们自己无端套了一个枷锁。

中华经典古籍库是最高质量,可供征引的。中华书局 曾和总局古籍办承诺,十三五的目标是达到三十亿字, 五千种古籍。目前第五期是十亿字,一千五百种整理古 籍,汇集中华书局等10家古籍出版社的优质资源。接下 来,建国以来整理好的优秀、够质量的古籍将会被全部 汇总进去。

中华古籍库这款产品中的功能是比较常规的,比如浏 览、阅读等。其中有一个检索功能为:同名异称。比 如,用一般的检索功能搜索“曹操”,可以搜索到与之 相关的各类信息。但是许多用户并不知道曹操还有许多 别名,其仅在《三国志》中就有38种别称。一般的检索 功能无法实现搜索出38种有关“曹操”的资源。同样, 历史上的各种人名、地名、官名、朝代名都有很多别 称。如何一键就能把这些资源全部搜索出来?中华经典 古籍库做到了。所以这款产品目前的销售量在持续增 长,定价较高,公共图书馆,国内的主要大学馆和党政 机关、新闻出版单位的使用度比较高。它可以服务大 局,当中央的文件、领导人的讲话要进行准确的检索、 引文时,都是使用中华书局的数据库。比如,中华书局 的数据库在编辑《习近平治国理政》这本书时起到了不 可替代的作用,因为其第一卷和第二卷都是用此数据库 对所有的引文进行重新核正。此外,数据库在海外推出 之后也得到了很高的评价。常青藤联校联合购买,德 国、日本也都落地购买。牛津大学、剑桥大学里重要的 汉学图书馆也在洽谈中。

然而,产品的最大痛点在于数据量增长太慢,要经过 几年的时间才能增加到十亿次。一些竞争产品可以达到 三十亿次、甚至五十亿次,但这些产品很多是直接通过 互联网使用的。我们这款产品既要解决版权,同时也要 保证质量,所以导致数量不大。有一句话我经常用来鼓 励员工,“我们在上升,他们在下降,当数据量达到一 定程度的时候,质量优势就充分体现了。”这就是目前 经典古籍库的情况。

建立资源平台,开启古籍整理出版新时代

目前中华书局正在打造国家级的古籍整理出版资源平 台——籍合网。一个是古籍整理工作平台,一个是古籍 整理成果的发布平台。关于古籍整理这个行业和工作, 可以这样说,目前市面上售卖的《论语》《孟子》《唐 诗三百首》《史记》《汉书》等书,里面的文字、标 点、分段、注释等相关内容都是经过整理的。如果是原 生态的元素会很艰涩难懂,因为这中间存在的不仅是繁 体字和简体字的问题,还有很多文本在几千年流传过程 中出现的有关差错、丢失等问题,留下来的往往是面目 全非,所以要恢复全貌就要进行古籍整理。

因为校刊、标点、注释,包括汇编等工作都是辑出来 的,所以要进行古籍整理就必须具备一系列的技术。目 前,中华书局正在准备将线下进行的古籍整理工作搬到 线上,利用线上的优势提高效率和质量,这就是平台。 我们会提供一系列的工具,包括自动引文的核对、自动 校对系统、标点系统、繁简转化系统、跨库检索系统。 目前网络上普遍使用的繁简转换系统存在许多错误,所 以我们正在开发一道更加准确的繁简转换系统。然而要 解决繁体字和简体字的标准版本也十分麻烦。因为目前 繁体字还没有国家标准,只有简体字有。简体字中也大 约只有一万字具有国家标准委员会发布的国家标准。而 日本、韩国、港澳用的汉字,以及台湾用的正体字,和 我们古籍用的完全不一样。此外,方正系统的字形也有 很多不足,所以我们呼吁解决这个问题,国家也已经着 手制作,只是目前还没有成型。现在,中华书局古联公 司正在解决这个问题,我们新编了几个自定义,已经增 加至三万多字,几年之后还会增加三万多字。

一方面,在平台上可以进行众包众筹,利用社会的力 量进行项目发包,接受投稿。另一方面,可以在发布系 统里审稿、加工、入库、发表、网络出版,然后自己进 行纸质出版,这个系统本身很简单,但是用于古籍就会 相对麻烦。

目前,我们在用国家出版基金的项目——中华大藏经 续编做实验,规定2019年必须完成,可目前稿子的收集 工作还没有完成。如果按照中华书局正常的工作流程, 要60个编辑日夜加班操作3年才能完成。而用这个平台来 做整理工作,充分发挥网络的技术、自动比对以及标点 的功能,2019年国家出版基金就能保证完成。根据目前 已有的样稿来看,质量也是有保障的,说明了这个平台 确实有效率。

中华书局这种做法是产业升级,不是网络融合。但我 更愿意称作是开创了古籍整理出版的3.0时代。1.0时代 是从纸到纸,古代出版是在纸上进行加工,再出版纸 书。此前的上千年一直到20世纪90年代都是如此。古籍 整理2.0时代是电子到纸,出现了方正系统、电脑和微 软,可以在word上进行相关整理,激光排版,最后制成 纸书,也经过了十几年的时间。如今迎来了古籍整理的 3.0时代,实现了线上整理和全媒体出版。这样就能够大 幅度加快古籍整理的效率,提升文本的质量,古籍生产 能力成倍的增加,同时也可以处理现当代文献。

重建产业链,构建传统文化大数据中心

古籍整理的3.0时代是一个重建产业链的过程,以前 是作者整理完后交给出版社,出版社排版印制获利。而 现在是作者到平台,平台发布直接获利,这就是重建产 业链,它彻底改变了古籍整理出版的生态。

目前我们准备构建传统文化大数据中心,中华书局坚 持以资源质量求胜,那么如何才能用资源质量向社会提 供服务和帮助,解决痛点,获取自己的发展机会呢?我 认为我们能做的最大的基础就是构建传统文化大数据中 心,要求涵盖中国传世古籍的主要品种,基本满足学术 界和全社会对优质传统古籍的需要,计划用三年时间完 成150亿字,2万种古籍。这其中包括古籍、图像、普及 读物以及用户资源、行为资源、行业资源等。其中重要 的是必须引用的标准文献。输入各类数据,机器标引后 自动入库,这对我们来说帮助特别大,可以形成可关 联、可检索的一套数据库。具体实现时还有一些资源需 要购买,可以自产、合作。

大数据可以很快形成各种专题的数据库集群。所以除 了已有的古籍书目数据库、善本古籍数据库、文史工具 书数据库以外,我们又开发了海外中医典籍数据库,目 前在售。这其中包括近一百年来最准确的工具书内容解 释,与古代文史相关的资料、人名库、事件库、地名 库,以及大藏经数据库,续编等各类资源都汇集其中。

而且,我们有五百种书和一千篇文章,还可以根据数 据库进行定制,比如石刻文献、西南联大数据库。西南 联大的各种资料都会包括在内,最珍贵的有几百位西南 联大老校友的口述采访。

同时,还可以进行知识服务,进行标引之后,数据就 可以进行知识化、结构化。目前我们准备开发三种服务 模式,这些服务模式的用户需求很大,比如对传统文化 有需求的研究院所、各级党政机关、文化企业、社会团 体等。去年我去保定大学讲课,旅游学院的老师问 我,“雄安新区要建文化雄安,那从事旅游行业的怎么 建设文化雄安?雄安新区这个区域里面有多少历史名人 和文献古籍?中华书局能不能提供一个可能性?”结 果,在我们的数据库里一搜索,雄安新区地域方志和传 统文化典籍里记载的有关雄安新区的资料,几十分钟就 可以提供几十万字的资源,再进行加工就是一套数据报 告。

[1] [2]  下一页

  • 上一篇文章: 中读APP:让“失联”读者再次回归

  • 下一篇文章: 三种纪念马克思诞辰200周年重点图书首发
  • 策划组稿业务介绍】【设计制作业务介绍
     最新5篇热点文章
  • 2019年“扫黄打非”十大案件…[3536]
  • 2019阅文女频年度好书榜日前…[13505]
  • 北京阅读季:北京阅读空间漫…[2599]
  • 国家新闻出版署发布《2018年…[3881]
  • “中华先锋人物故事汇”作者…[3474]
  •  
     最新5篇推荐文章
  • 企业出书案例展示:《员工培…[6093]
  • 企业出书案例展示:《华夏银…[5562]
  • 本公司企业出书业务介绍[59965]
  • 科普类读物插画选登(单色灰度…[7557]
  • 健康科普类读物内文插画2[7351]
  •  
     相 关 文 章
  • 中青布鲁姆斯伯里公司成立 首…[123]
  • 3小时订单破千万!2020浙江省…[105]
  • 培养阅读力是塑造孩子学习力…[142]
  • 中少总社“父母学习计划”燕…[114]
  • 2020年10月中国青年阅读指数…[123]

  •   网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)          
        没有任何评论
    设为首页 | 加入收藏 | 联系站长 | 友情链接 | 版权申明 | 管理登录 | 
    版权所有 Copyright@ 2005-2020 北京汉图图书公司        站长:冰河        页面执行时间:62.01毫秒