正文

达而观陈运文:启航文本智能时代

2020年10月22日 10:51:32 来源: 新华网

    新华网上海10月22日电(沈梅)2020年上海智慧城市建设“智慧工匠”选树、“领军先锋”评选活动正在举行。曾于2019年获得上海智慧城市建设“领军先锋”称号的达而观信息科技(上海)有限公司(简称“达而观”)董事长陈运文近日走进新华访谈,他带着“文本智能处理专家”的愿景,用文字处理领域的特定算法,让计算机“识文断字”,希望将人从日常繁琐的文字工作中解放出来,去做更有意义、更有价值的工作。

    新华网:在智慧城市建设中,达而观致力于哪一方面的探索?

    陈运文:我们每天大概有三分之一的时间在和文字打交道。在企业里面,大家要写合同、审批证照、要起草各种文档、要填写各种表格……这些耗费了大量的时间,且容易出错。而一套智能化的机器人系统可以去做文字资料的处理填写,乃至创作工作,它能准确完成,而且效率也非常高,可以帮我们从繁琐的工作中解脱出来。

    达而观是一家专注于文本智能处理行业的企业。我们可以教会计算机系统像人一样去阅读、写作,并且灵活运用文字。这样,计算机就能完成文档资料处理工作,它们不仅可以将繁琐枯燥的工作自动化,还能不分昼夜持续工作。

    新华网:你们是怎么让计算机学会“识文断字”的?

    陈运文:我们“教”计算机运用文字的过程,其实和我们教会一个小学生学语文的过程是非常类似的。在教小学生时,我们会教他们通过认识汉字、组词造句,然后写文章。我们教会计算机系统去识文断字,其实也是这样一步一步来完成的。我们让它先认字,知道每个字的含义,再组词、造句,了解句法结构,甚至可以写出整篇文章来。

    然后,我们再给计算机“看”各行各业的专业文档资料,让计算机去进一步学习。比如说,我们给它银行的合同文本,给他制造类企业的票据证照……让计算机去分别进行阅读、学习、归纳总结各行各业文档资料的规律。

    当你有一个类似的题材,需要计算机去创作的时候,它会从过往学习的文字资料数据库中,用数学建模的方式建立起相应的算法模型,进而达到完成文字资料创作工作的水准。此时,它就可以上岗工作了。

    我相信,未来10年之内,各行各业的白领都可以配备一个机器人助手,帮助分担一些繁琐的工作。

    新华网:计算机“识文断字”的能力可以提升吗?

    陈运文:这方面训练的过程可以分为两部分,第一部分就是刚刚说的,让计算机生成数学模型去解构文字资料背后的规律。第二部分则需要一个评判的系统。这就好比你教一个小朋友学技能的时候,要让他做考卷,给他批改,并且让他知道自己错的地方怎样纠正。

    此时,我们需要大量的数据,去让计算机做训练,并用正确的结果去反复调教他,这个调教过程其实是非常漫长和辛苦的。因为计算机学习的速度比我们人类要慢得多。我们人类有举一反三的能力,学得比较快。但计算机的学习速度很慢,我们练十几次就能会的东西,它可能要训练几千次几万次才能达到接近人的水平。

    但是计算机也有优势。我们人类学技能虽快,但忘记的速度也很快,一旦不练习就会越来越生疏。而计算机的记忆能力是永恒的,一旦它掌握一个技能,它的技能水准永远不会退化。

    所以,我们经常把人和计算机在文字资料处理运用方面的能力比作龟兔赛跑:我们像兔子非常聪明,跑得很快,但是我们会打盹,会松懈;计算机就像乌龟,它一点一点进步,不断升级,从不松懈,非常有毅力。

    新华网:汉语的构词法灵活多样,还存在多音字、双关语、引申意等多种复杂意义。在为汉语打造计算机文字智能处理功能时,有怎样的难点?

    陈运文:汉语确实博大精深。我们在让计算机理解汉语时发现,汉语是一种高度抽象、高度凝练的语言,同样的一段文字用英语写要一页纸的话,用汉字也许半页纸就可以表达清楚。同时,汉语在字面意义之外,其隐含的意义也非常深刻。所以,计算机在阅读汉语的时候,要把每个汉字背后的意义汇集起来,这样才能理解字里行间的意思。

    比方说:“大漠孤烟直,长河落日圆”短短10个字,不仅描绘了千古壮观的美景,也表达了深远的意境。让计算机来读这句话的时候,它看到的不只是10个字,还有这10个字背后的意象万千。而要达到这样的水准,计算机需要阅读上百亿字的相关资料。

    所以,让计算机理解汉语,会比让它们理解英文更加复杂。虽然有时候也会觉得难,但我觉得特别有意义。我们每个人都离不开文字资料的运用和处理,所以我们的开发成果可以发挥作用。

    达而观于2018年入选吴文俊人工智能科技进步奖企业技术创新工程项目,并于2018年、2019年连续两年入选中国人工智能创新企业50强。去年,我也非常荣幸,获得了上海智慧城市建设“领军先锋”的称号。

    我们希望未来文字资料智能化处理技术能够走出国门、走向世界,不光能够处理中文,也能够处理日文、英文、法文、德文,让计算机更好地为大家服务。

【纠错】 [责任编辑: 佘灵 ]

微信扫描二维码,关注新华网

热点推荐

扫一扫

扫一扫,分享手机新华网上海频道

Copyright © 2000- XINHUANET.com All Rights Reserved.

制作单位:新华网上海频道 版权所有:新华网上海频道

010070120010000000000000011100001394568701