每日經濟新聞 2018-03-28 17:28:16
湯幟對《每日經濟新聞》(以下簡稱NBD)記者表示,經過將近20年的探索,整個數字出版行業在技術上已經趨于成熟,而近兩年發力的點則是文檔處理和知識服務技術的升級。
每經編輯 每經記者 張虹蕾
北京大學計算機科學技術研究所副所長湯幟
每經記者 張虹蕾 北京攝影報道 每經編輯 任芷霓
作為當代中國印刷業革命的先行者,計算機漢字激光照排技術創始人王選的“得意門生”,北京大學計算機科學技術研究所(以下簡稱北大計算機研究所)副所長湯幟已經在新聞出版應用技術領域征戰已近30年。
從跨進北大校門算起,今年已經是湯幟在北大學習和工作的第35個年頭。自1987年師從王選教授攻讀碩士研究生開始,湯幟就把全部的精力投入到軟件的研究與開發。湯幟對于我國自有知識產權軟件領域有兩大貢獻,分別為方正飛騰排版與方正阿帕比數字版權保護系統。
業界對于湯幟的美譽頗多,有人說湯幟率領的團隊的努力帶活了一個產業,把Adobe等強敵擋在國外。而在北京大學計算機科學技術研究所35周年之際,《每日經濟新聞》記者專訪湯幟,和他一起探討中國數字出版產業近年來的變革之路。
湯幟對《每日經濟新聞》(以下簡稱NBD)記者表示,經過將近20年的探索,整個數字出版行業在技術上已經趨于成熟,而近兩年發力的點則是文檔處理和知識服務技術的升級。
NBD:行業起步的十多年來,我國數字出版產業產生了哪些變化?
湯幟:2000年初,國內互聯網環境不夠成熟,未形成個人支付習慣,數字出版基本沒有2C市場,主要面向2B領域的機構服務。上述模式持續將近十幾年,產業具備一定規模時,互聯網風暴被掀起,網絡文學也開始獲取流量,近幾年2C網絡文學市場的用戶量超過2B市場。
NBD:網絡文學也催生內容付費潮流的發展,這對數字出版行業帶來哪些變化?
湯幟:從技術角度看,網絡文學以文字為主,一般基于網頁瀏覽,對于文檔處理技術要求較低。值得注意的是,雖然B2C市場看起來規模很大,但一些低俗獵奇文章充斥市場;相較于網絡文學,內容有深度的專業電子書,特別是科技類電子書的B2C規模較小,這一市場銷量大幅度提升還需時間。
NBD:對于上述市場現象,有解決途徑嗎?
湯幟:文檔處理技術的升級或許是一個打開專業類市場的“突破口”。不同于網絡文學的純文字,專業類書籍則涵蓋圖表、公式,在處理復雜版式的過程中,需要用到“門檻高”技術。此外,要想解決上述市場現象,還需要產業界各方共同努力。
NBD:數字版權保護技術目前是否已經很成熟,還需要攻克哪些難題?
湯幟:經歷將近20年的探索應用,數字版權保護技術已進入成熟期。但不可忽視的是,隨著技術更新迭代,也要求研究機構作出相應思考,為現有的數字版權保護錦上添花。
比如,北大計算機研究所也會探索區塊鏈在版權保護中應用,但目前究竟新技術能夠產生怎樣的化學反應尚不可預知。此外,作為研究機構,也不會關注熱點概念“炒作”,而是去挖掘真正能夠結合應用具體落地點。
從研究層面和技術層面來看,我希望能夠用先進的技術帶來更好的閱讀體驗;但從市場角度來講,出版方也需要有動力驅動,技術推廣程度和也和受眾素質及整體行業環境相關。希望阿帕比這類公司能根據此前技術積累不斷革新,引領行業發展。
NBD:您目前是研究者,此前也在企業作出相應指導,您認為一些數字出版的研究怎樣才能更好落地?
湯幟:從2000年開始帶領團隊研究技術,就一直沿著研究、開發、應用一條龍的模式去思考,研究成果和企業應用基本能夠達到無縫銜接。而現在出現的變化則是,市場上數字出版的公司越來越多,我們也用開放的心態面對市場,不會拘泥于方正或者阿帕比某幾家公司,而是把合適的技術提供給更需要的企業。
例如,眼下化學公式的檢索技術,在藥物成分分析領域對于這一技術的需求十分迫切,就可以和相關單位達成合作和研究,在藥物分子庫的構建領域,提供分子式自動識別、檢索等技術。
NBD:阿帕比系統技術特點是什么?
湯幟:阿帕比技術是從2000年開始做的,彼時,中國的數字版權剛剛起步,模式也僅是網絡電子圖書的在線購買。阿帕比技術主要的技術特點包括兩個,一個是數字版權保護技術實現了產業鏈各環節的保護;另一個是實現了版式和流式融合的CEBX文檔技術,使一個文檔既支持原版原式的閱讀或打印,也支持在移動終端高質量地實時排版閱讀。
阿帕比技術支持出版社、圖書館、電子運營商、讀者等各個環節的版權保護技術,使得整個產業鏈條形成透明的交易環境,有利于出版社看到交易情況,定制相應機制,形成良性循環。
NBD:技術革新是否也會降低人工成本?
湯幟:是的,目前大家都在做移動數字閱讀,移動閱讀需要把PDF文件轉換為其他流式閱讀的格式,需要很多人工校對的工作。因此,我們研究版面分析與理解技術,使PDF轉化為移動閱讀格式時自動化程度更高,目前版面復雜的文檔轉化能夠達到80%~90%準確度,未來希望結合人工智能等技術將轉化準確率提升到99%以上。版面分析與理解技術還可以把表格、數學公式等復雜版面轉換為結構化、語義化的信息。例如,針對上市公司年報的PDF文檔,可以把其中的表格轉換為Excel數據。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP