您好、欢迎来到现金彩票网!
当前位置:PC蛋蛋 > 最大熵 >

上海科技奖 IT儒士陈运文:他敲下的代码能替你看书写字

发布时间:2019-07-07 19:27 来源:未知 编辑:admin

  陈运文:1981年7月生,复旦大学计算机专业博士,达而观信息科技(上海)有限公司创始人及董事长。

  陈运文的办公室名叫“最大熵”,是一种算法,公司其他房间也都以算法命名,可见他对数学的喜爱。在复旦攻读计算机博士学位时,他想到要把自己的数学天赋用在攻克计算机阅读理解文字上。此后,他一头扎进文本数据的世界,用数学的方式“断文解字”。

  2015年,他创办达而观信息科技(上海)有限公司(下称“达观数据”)。眼下,已有几百家企业正在使用达观的语义理解人工智能产品:一份上市公司的招股说明书,几千页厚、上万个数据,以前需要一支专业团队写上几个月,现在一个小时就能搞定;国家知识产权局每年400多万件专利的审核资料,是用达观的系统完成的;华为公司每年有超过数万份的合同文件,达观的算法可以帮助识别其中的错别字、核对前后数据、识别潜在法律风险等……2018年,达观数据获得我国人工智能领域含金量最高的“吴文俊人工智能科学技术奖”。

  从甲骨文到电脑打字,汉字已经发展了3000多年,无论它的样式发生了多少变化,但仍属于“人的工作”的范畴。有没有想过有一天,人工智能可以帮你解决阅读、理解和写作的问题?陈运文怀揣着这样的梦想。

  陈运文说,迄今为止,文本智能处理已经走过了符号主义、语言规则、统计学习、深度学习四个阶段。在去年底斯坦福大学推出的考验阅读理解能力的SQuAD大赛上,计算机的英文阅读能力首次超过人类,这意味着人们距离1956年达特茅斯会议上麦卡锡、香农等人提出的人工智能要协助人类“断文解字”的目标,已经很接近了。

  和英文相比,计算机“理解”中文更难。中文常有主谓宾互换、倒装等灵活多变的语法结构,包含着许多成语典故等文化内涵,仅一个“断词”,就难倒了一群人。陈运文解释说,英文单词之间是有空格的,计算机很容易识别出这是一个词,但中文却由一串字组成,哪几个字是词语,计算机弄不明白。

  比如,如何让计算机知道“陈运文”是一个名字呢?他让计算机熟读百家姓,这样当计算机再次读到“陈”这个字时,就知道它可能是一个姓,再通过“喂食”大量文本,计算机可以用统计学的办法留意到人名搭配的词语,经反复练习后,当计算机再次看到“陈运文”时,就知道这是一个名字了。“古人常说‘读书破万卷,下笔如有神’,我们发现,这句话对计算机非常适用。”陈运文说。

  创办达观数据之前,陈运文曾在盛大文学、腾讯文学、百度等公司工作过,是国内互联网产业的第一批“弄潮儿”,有过数不清的创业机会。早在2011年,他所在的大数据团队就开发出了一套个性化的新闻推荐系统。

  2015年,他辞去百万年薪的工作选择创业。那时,他的身边已经有了一支好团队,团队成员曾在各种世界计算机程序大赛上披荆斩棘。“我们四年间写了两三百万行代码。”这意味着,团队已建立起一个全新的文字坐标系,其中,一个普通词语就有感情力、关系力、注意力等上万个纬度,这使得它已经能够帮助人类处理许多复杂的日常工作。

  “文字这个东西,越做越有意思。”陈运文说,他还有更大的目标,希望未来5到10年国内一半的企业能用上他们的系统。他更希望为普通消费者研发能够处理文本的“小秘书”——它能帮你润色文章,甚至只要告诉它提纲,就能帮你写出一篇思路清晰的文章。

http://cozmicfunk.com/zuidashang/203.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有