万小军:让智能写作机器人驰骋新闻现场

编者按:2020年,开云app体育 王选青年学者奖励基金设立全国性科技奖项“王选杰出青年学者奖”。每年由开云app体育 、中国计算机学会和中国工业与应用数学学会联合评选出在计算机和应用数学领域中自主创新和应用成果极为突出的杰出青年学者各一名,迄今为止该奖项已评出三届获奖者。
  王选精神激励着一代又一代北大人和科技工作者勇担使命、锐意进取、勇毅前行。为充分体现该奖项设立的目的,宣传新一代北大科学英才爱国奉献、攻坚克难的事迹,新闻网采访了北大的获奖者,并陆续推出“王选杰出青年学者奖”报道,以飨读者。

里约奥运会上,智能写作机器人Xiaomingbot曾一度吸引大众目光。穿梭在各种运动赛场上,这位初出茅庐的AI小记者与许多身经百战的人类记者相比,丝毫不逊色。半个月赛程里,Xiaomingbot横跨多个运动项目,成功报道了多场比赛,生产了上百篇流畅明晰的新闻稿件,不少人不禁感叹,机器人写作竟然已经如此智能化了。

而这一切都要归功于Xiaomingbot的幕后设计者——开云app体育 王选计算机研究所研究员、博士生导师、智源学者万小军。2023年7月7日,万小军凭借在自然语言生成方向取得的重要突破,荣获2022年度王选杰出青年学者奖。多年来,万小军在自然语言生成方向持续攻坚克难,设计研发了多个智能写作机器人,并在新闻传媒行业验证了其先进性与有效性,获得了学界和业界的广泛关注和一致好评。

万小军深情感谢了王选先生和陈堃銶老师的慷慨设奖,以及他们对后辈的鼓励和提携。他表示,作为后辈学人,自己未来还将继续在自然语言处理领域深入探索,让智能机器人拥有更加强大的功能,在更多的场景实现应用。

10153ec47a5b40649916588cd7dc8669.jpg

万小军和王选先生雕像合影

无法“计算”的机缘巧合

与计算机打了20多年的交道,万小军人生中的“第一台”计算机,是与大学室友集资购买并自行组装的。

那是20世纪90年代,互联网刚刚进入中国不久,尚未普及。计算机也还不是人们的日常必需品,上万元一台的价格,对当时大多数家庭来说,都过于高昂。万小军和他的室友们,“可能是出于一种男孩子天然的兴趣”,六个人攒了好久的钱,凑在一块儿,去中关村买了电脑配件,一起摸索着将电脑组装起来。

在北大念本科时,万小军住在43楼,“屋子很小,床挨着床,中间有张小桌子,也没有空调”。拥挤的生活空间里,这台电脑给六个人带来了不少乐趣:学编程、学软件、学设计,甚至打游戏……

为了方便使用,几个人在最初便约法三章,排了个时间表,但关于电脑的纷争,仍会难以避免地发生:“没少‘大打出手’!有的室友喜欢打游戏,沉迷《仙剑奇侠传》,常常通宵玩,另外还有位室友就会坐旁边看着,可吵了。”回忆起这段青葱岁月时,虽然说着埋怨的话,万小军的嘴角还是忍不住上扬。

跟室友闹归闹,万小军用这台电脑长了不少本事。他自学了编程技术,还在某个“留守”学校的暑假,一个人独占电脑,学会了photoshop。到大学毕业时,万小军已经可以给中关村里的一家医药信息公司兼职写程序,每个月有两三千元的收入。

提起本科四年的学习生活,万小军用了“舒适”两个字来形容。在他的记忆里,那时还没有“卷”的概念.“我们宿舍六个人GPA都不高,我在我们班30个人里排第十,已经是宿舍里最好的了。”万小军笑着调侃那时的自己,“啥也不懂,也不知道有哪些选择。”

采访过程中,面对记者一个接一个的“为什么”,万小军也的确不太能明确说出人生中许多重要决定背后的原因。

成长于湖北农村的万小军,小时候最大的梦想是当兵。“我们一个村子的名字里都有‘军’,军人多威风多光荣啊,一身戎装,保家卫国。”

高考填志愿时,正是生物学最火爆的年份,万小军颇受鼓舞,兴冲冲地把生物填作了第一志愿。奈何高考作文写跑了题,他被调剂去了信息管理专业,成了李彦宏的学弟。

出于兴趣,万小军在北大读本科期间辅修了计算机。学着学着,他又觉得“计算机比信息管理有意思多了”,索性在读研时换了专业,开始了与自然语言处理相关的研究和探索,一直到今天。

在万小军看来,计算机最擅长的事是“规整”。而他的成长经历与计算机研究之路,似乎与这两个字不大相关,反倒充满了许多无法被“计算”的机缘巧合。

万小军对此倒很看得开,“人生很多事,不能太较真,得随遇而安”。

71ceb33472cf40cfa5990c5b8b054934.jpg

万小军在工作中

二十余年磨一“剑”

万小军对待他的研究,显然要“较真”多了。多年来持续在自然语言处理这一领域深耕,万小军的研究内容主要包括针对人类语言的语义理解和自动生成两部分。

“读研的时候,我就开始从事文本信息处理相关的研究工作,当时的研究主要涉及文本检索、分类、聚类等技术,读博时开始对自动文摘技术比较感兴趣。”万小军告诉记者,刚读博士时,他有机会去到微软亚洲研究院非全职实习,这对他此后的科研经历产生了重要影响。

直到今天,万小军时不时仍会怀念那些时光,安静、简单却充实。没有太多琐事来叨扰,他如饥似渴地徜徉在他感兴趣的领域,如海绵般汲取养分。微软研究院的研究水平在当时相较高校领先很多,万小军可以接触到最前沿的研究和成果。

“我读了很多论文。那时候学校实验室没有打印机,研究院里有,还可以免费打印论文,我每次都打印厚厚一大摞带回宿舍,最后垒在一起得有一米多高。”万小军边说边向记者比划起论文的厚度。正是这一篇篇论文,帮助万小军打下了坚实的理论基础,也是在那时,他敏锐地发现自动文摘在新闻领域所具备的巨大应用价值。

工作后,万小军的研究逐渐拓展到一些其他自然语言生成技术,例如基于数据的文本生成、文本复述、文本简化等。目前,他侧重于解决语言大模型生成内容的幻觉和安全性问题。何为幻觉和安全性问题?他向记者解释道:“ChatGPT这些大模型生成的文本内容通常有不少的错误信息,即存在幻觉和虚构事实。同时,大模型会生成有害或不符合人类价值观的文本内容(例如告诉使用者如何用刀进行自我伤害),这严重阻碍了语言大模型的应用,因此我们需要想办法进行幻觉/有害内容的检测与治理。”此外,万小军目前还对自然语言生成评价技术和跨模态生成技术比较感兴趣,正在和他的学生们一起进行相关技术的探索。

功夫不负有心人,20多年磨一“剑”,万小军所研制的智能写作机器人为人工智能领域的技术进步和新闻传媒行业的技术变革作出了重要贡献,并且已经在市场上被证明具有广泛的应用价值。

2016年8月,万小军带领团队与今日头条实验室联合推出新一代AI写稿机器人——奥运AI小记者Xiaomingbot。在里约奥运会上,Xiaomingbot共撰写了457篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道,每天产出30篇以上。2017年1月,万小军团队又与南方都市报合作研发写稿机器人“小南”。小南的写作能力更强,掌握领域更广泛,可撰写的文体更复杂,包括了消费、路况、天气、赛事、财经、春运和AI简报等内容。

428ca8a0b21e423a8adfad474c34463c.jpg

万小军在学术论坛上作分享

对智能写作机器人的未来发展,万小军展露出足够的乐观:“自从语言大模型(例如ChatGPT)推出之后,机器写作能力已经超过了普通人的写作能力,可以写出不同风格的文章。此外,ChatGPT具有强大的学术写作能力,能够帮忙对学术论文进行润色和修改,从而提高学术论文的写作质量。”

不过,在万小军看来,无论智能写作机器人的能力进化到何种程度,它都无法完全取代人脑。“人类仍具有诸多优势,例如联想、创新等等,人类可以创作出极富感染力和原创性的文学作品,发表极具洞察力和预见性的深邃观点,在这些方面大模型仍难以企及。”因此,万小军认为,人类应该学会驾驭机器,与机器分工协作,帮助自身更好地工作。

谈及下一步研究规划,万小军表示,自己还会在AI机器人记者领域继续探索,希望可以尽早让AI机器人实现自动状态下的视频图像拍摄与采访、并基于这些素材自动生成深度新闻报道,这样可以让机器人记者在一些高风险场景下(例如战场)替代人类记者。此外,他还对机器辩论有着浓厚的兴趣。机器辩论指的是让机器掌握思辨能力,能够与人类辩论并战胜人类辩论高手。

风物长宜放眼量

在硕士毕业时,万小军报考了王选先生的博士,当时王选先生的身体状况已经不足以支撑他带学生,万小军便也没有机会聆教于其身侧,他一直颇感遗憾。此次获奖,万小军不禁感慨万千:“王选先生大胆创新的勇气、百折不挠的精神和淡泊名利的境界,多年来始终指引着我,鞭策我在科研道路上戒骄戒躁、持之以恒、不懈奋进。”

过去的科研经历里,万小军没少遇到沟沟坎坎。有些是科研自身的困难,“比如,如何发掘足够新颖的学术思路,如何高效掌握爆炸式增长的新技术新知识”。那科研遇到瓶颈怎么办呢?万小军笑着对记者说:“可以给自己打打气,我就是会不停地给自己打气,告诉自己能够应对这些挑战。”

还有些是科研之外的挑战,考核晋升的压力、实验室的管理问题、经费获取的困难……桩桩件件,万小军和每一位科研工作者一样感同身受。因此,他充分理解现下许多青年研究者面临的压力,但他依旧觉得,年龄焦虑没有太大必要,相反,这对科研工作者来说还会造成巨大的消耗。风物长宜放眼量,万小军表示,人生的每一个阶段都充满可能性,并不需要急于一时。

bf14ee7657454e328c99ac8ff5877d50.jpg

万小军在办公室

交谈中,万小军与记者提起了王选先生的人生经历,令他感触最深的一点是王选直到38岁才开始接触“汉字信息处理系统工程”(“748工程”)。“此前他一直是个默默无闻的小角色,没有什么资源,也捱过很长一段艰难岁月。这在年龄焦虑极为普遍的当下,几乎是不敢想象的。毕竟在世俗层面上,当时一定会有人觉得,王选先生年近不惑却依旧一事无成。”

“王选先生,还有张益唐教授,他们都是这样。我觉得,有时候可以不用太在意一些世俗的评定,规定自己一定要在多少岁达成什么目标。”在万小军看来,年轻的时候,迷茫和焦虑都是常态。最重要的,是保持一颗平常心,多去问问自己内心的声音,把自己想做的事情坚持下去。

“坚定理想,但也不要钻进死胡同里去。‘卡脖子’了,那就放一放,抬起头看看别的领域,做点别的事情,说不定‘柳暗花明又一村’。做科研也需要发散思维,思维放开了,很多时候点子也就来了。”言及至此,万小军再一次提到了“随遇而安”,“承认自己的不完美,这一点很重要。我们每个人都存在不足,我自己的不足可能比别人更多,而且有些不足终其一生都难以改变,那么在这样的条件下我自己的目标是什么,自己要想清楚并且努力达到。”

该较真时较真,该随缘时随缘,这两种迥异的态度,就这样在万小军的身上达成了一种奇妙的平衡。空闲时间,万小军将自己的生活安排得有声有色,“我会陪陪孩子,其实和学生的相处也能带给我很多快乐”。他也真诚地祝福每一位科研工作者,都能找到科研的乐趣,快乐科研,快乐生活。


转载本网文章请注明出处

Baidu
map