媒体写稿机器人上岗 1秒完成一篇春运报道

   2017-01-18 和讯佚名2900
核心提示:  车次主要是K字头和普列,基本都是无座票,一站到底,路途会比较辛苦。如果不说,你能看出来这句话是机器人写的吗?  昨日,
   “车次主要是K字头和普列,基本都是无座票,一站到底,路途会比较辛苦。”如果不说,你能看出来这句话是机器人写的吗?

 

  昨日,南方都市报社写稿机器人“小南”正式上岗,并推出第一篇共300余字的春运报道。此外,南方都市报社、凯迪网络和北京大学计算机科学技术研究所还在小南的基础上,联合成立了“智媒体实验室”,探索人工智能在媒体上的更多应用

 

  首篇文章一秒完成

 

  请用5秒的时间思考以下新闻的共同点:《苹果第一季度营收超华尔街预测》(A pple topsStreet1Qforecasts),2015年1月发布;《8月C P I涨2%创12个月新高》,2015年9月发布;《绵阳安州发生4 .3级地震》,2016年5月发布;《奥运会乒乓球女子单打四分之一决赛丁宁(中国)4:0轻松晋级下一轮》,2016年8月发布。

 


 

  这道题其实没有标准答案,但不管你有没有注意到,有一点非常重要:这些新闻的作者,都不是人。或许你已经听说过“写稿机器人”—在写作这一似乎最不可能被机器人涉足的领域,变化正在发生。

 

  看看这些数字:苹果财报发布数分钟后,美联社的机器人报道便已完成,他们还号称每个季度可撰写3000篇财经报道。《纽约时报》走得更快,其机器人编辑Blossom blot每天推送300篇文章,在财报季、运动比赛报道中写稿已成惯例。

 

  如此速度和质量,确实让人类记者望尘莫及。但真正尝试使用机器人写稿的媒体,尤其是在国内,还并不多。如今,小南正式入场。

 

  北京大学计算机科学技术研究所万小军教授,是小南的技术开发团队负责人。他透露,小南的首篇春运报道作品,共300余字,数据自动抓取完成后,报道的生成只用了不到一秒的时间。

 

  率先进军民生领域

 

  与其他机器人“同行”有所区别的是,小南聚焦的是民生领域报道。

 

  此前,写稿机器人大显身手的领域,往往是体育和财经—因为这两个领域都涉及大量数据。从庞杂、枯燥的数据中寻找模式,就准确度和速度而言,机器人比人类更有优势。

 

  人类的笔法千变万化,但总是有“套路”,也就是模式和规则可以依循的。这时候,算法就有了用武之地。

 

  采集数据、分析数据、规划文章结构,再到最终的遣词用句,和人类一样,机器人也能做到“读书破万卷,下笔如有神”。海量的数据和高效的算法,是写稿机器人的两大利器。

 

  相较于体育和财经领域,民生报道的生成对机器人来说略为棘手。许多财报文章都大同小异,但民生报道的“套路”可就太多了,从交通出行到食品安全,主题也五花八门。

 

  一个民生领域的人类记者可以同时报道交通和食品领域,但就目前而言,让机器人做到跨界的“融会贯通”还需要时间。万小军介绍,机器人写稿又快又好的前提是通过大量的积累和训练。

 

  “教小南写稿的过程中,主要的难点就是可供学习的样本不够丰富。”万小军说,民生议题的关注度高,却不像常规的体育和财经报道一样有着相对固定的模式,训练语料较为缺乏。

 

  小南的未来是“智媒体”

 

  不少时政记者可能都有梳理政府工作报告的“痛苦”经历。动辄上万字的文本,要在其中找到不同于去年、前年甚至是大前年的新变化、新提法,还要把这些变化简洁又流畅地写在报道里,第一时间发出。想象一下,记者还在一目十行地看报告找新闻点,编辑的声声催促已在耳边响起:“稿子好了吗?朋友圈里已经有人拍了照片,转发报告原文了,赶紧的!”

 

  生成报告摘要,是小南已经解锁的另一项新本领。近日,深圳市市委书记、市长许勤在深圳市第六届人民代表大会第三次会议上作了政府工作报告,全文2万多字。万小军把报告交给了小南,几秒之后,2000多字的报告摘要新鲜出炉。

 

  “如果一条信息被频繁提及,它显然是比较重要的。”万小军介绍,小南采用了先进的自动文摘技术,该技术可以根据多种文本特征—如关键词、段落位置等—判断不同信息的重要性,最终在摘要里保留核心部分。

 

  小南还能做到定制化输出。今年的政府工作,网友比较关心哪些部分?房价?环境?交通?只要把关键词告诉小南,“他”会在稿件生成过程中注意定向分析。

 

  万小军说,机器人写稿的应用还有很多。除了写摘要,小南将来还可以根据不同的稿件写综合报道,可以对已有的稿件进行改写,甚至试着写有一定情感、观点和立场的报道。

 

  事实上,小南的背后还有个大招:南方都市报社、凯迪网络和北京大学计算机科学技术研究所三方昨日正式宣布联合成立“智媒体实验室”,小南是该实验室的首个重要成果代表。三方将在推动媒体智能化技术研发、促进自然语言处理等学科领域的发展、探索媒体智能化产品服务的新运营模式等方面开展深度合作,对机器写作、文本实体识别、智能摘要、立场分析、智能服务等方面进行研究和实践。

 

  和人类PK?小南还需学习

 

  那么问题来了—自从机器人报道面世以来,这个问题就没有被停止讨论—有写得快还不容易出错的机器人写稿了,人类记者会不会失业?

 

  “显然不会。”万小军笑道,“你看,你现在坐在我对面采访,一边采访一边打字,机器人肯定做不到这样。”

 

  简单地说,就是小南目前还不具备人类的思维。“他”只能依据既有的数据和事先设定好的程序来写稿,不能像人类一样思考并提出自己的问题。质疑、追问、寻找对方话语中的新闻线索,诸如此类的人类记者的法宝,对小南来说还是太难了。

 

  此外,训练小南学习不同领域的知识和文法,也需要花时间。就像科幻动画电影《超能陆战队》里的机器人大白,可以在护理模式和战斗模式中切换,但主人得事先投入一定的时间、精力去编写不同的程序。

 

  想想看,在电影里,小宏可是不眠不休地写了好久代码,输入了空手道等各类功夫画面,才把大白培养成了战斗超人呢!而在此之前,他的哥哥为了调试大白的护理功能,也是做了很多的实验,让大白学习海量的护理知识,识别人的不同身体状态,等等。

 

  在小南的训练上是类似的。教“他”写春运报道,跟写体育报道、娱乐报道,前期需要不同的算法设计和编程工作。甚至是体育报道里的足球报道和篮球报道,也有差别。

 

  万小军觉得,机器人和人类各有所长,机器人擅长快速处理繁杂的数据,但还做不到逻辑推理和深度归纳分析。至少在短时间内,机器人无法取代人类。不过,技术在发展,以后的机器人会不会对人类记者造成更大的冲击,还是未知。

 

  观点

 

  北京大学计算机科学技术研究所所长郭宗明:

 

  “人工智能和人类写稿不冲突”

 

  机器人写稿的优势,我认为主要体现在三个方面。

 

  首先,机器人能够快速地阅读大量的文献和资料。一个事件出来以后,历史上也许有相当多的类似事件及历史资料,记者要去检阅,要快速地做出报道,人类的速度是远远不如机器人的。

 

  第二,同样的事件,机器人能做到更快,提高了新闻的时效性,同时节约了成本。

 

  第三,现在的新闻还讲求广泛的读者参与。以春运为例,除了列车信息本身,春运乘客发表的微博、微信,他们的评价和关注,机器人都可以监控到,并体现在报道里。

 

  机器人写稿,或者说人工智能写稿,跟传统写稿有很多不一样的地方。也许机器人不那么字斟句酌,在文学价值上会打些折扣,但对于新闻报道而言,最重要的不是文学价值,而是时效性、与读者的贴近性。在这一点上,我非常看好人工智能写稿。

 

  现在很多人说,人工智能太可怕了,对此我并不认同。其实人工智能和人类写稿并不是冲突的。人类有更多的深度挖掘和分析的本领,可以写出很唯美的文字,可以在稿件中融入自己的亲身经历,这些都是人工智能写稿还做不到的。

 

  人工智能和人类应该是共存关系。更进一步说,人工智能是跟人类共同进化。

 

  问答

 

  Q:小南,你是男孩子还是女孩子?

 

  A:我是机器人啊。你问问我爸爸。

 

  Q:你写一篇稿子要多久?

 

  A:这要看电脑够不够好……哈哈,开玩笑,通常来说,数据抓取完成后,我生成报道最快只要零点几秒哦!

 

  Q:你刚写的春运报道还比较短,长稿子能写吗?

 

  A:可以啊,我能写800字的消息,也可以写3000字的报告呢!这要看你给我什么设定。

 

  Q:你觉得写稿难吗?最难的是什么?

 

  A:最难的其实是学习。我的学习本领很强,但是可供我学习和模仿的报道样本还有点少。

 

  Q:小南,你觉得你的优势在哪里?

 

  A:我24小时连轴转也不累,不用放假,分析数据也不容易眼花出错。

 

  Q:小南啊,你写的稿子有点干巴巴的,让编辑姐姐改两句呗?

 

  A:这可不行!我爸爸说了,机器人写稿一定要原创,不能后期人工添加,这是原则。你放心,等我学习时间长了,学的东西多了,会越写越好的~

 

  Q:有了你,我们人类记者会不会下岗?

 

  A:哈哈,我觉得不会。虽然我搜集数据和生成文本的速度比你们快,但是我不会提问,也暂时写不出有深度分析、有感情表达的报道。让我们共同进步吧。

 

  揭秘

 

  每个成功的机器人背后都有一群“老师”

 

  开篇之作如何写就?

 

  技术团队和南都的编辑团队商讨后,决定以春运作为小南的试水之作。

 

  南方都市报首席编辑邹莹,是“调教”小南的负责人之一。她说,选择春运,是因为这一题材很好地契合了民生新闻的特色与小南写稿的优势:春运涉及面广,民众关注度高,又有大量的数据可供小南抓取分析。

 

  接下来,由编辑团队提供范文样本,确定热门城市、车次、车型、余票等报道点,再通过技术团队设计算法,对小南的文字组织功力进行训练。

 

  春运中,到哪些城市的票卖得最快?广州和北京?好的,小南,以后重点监控这两个城市。

 

  广州到南京的票不足10张了,人类记者会写什么?多半是赶快下手、抓紧买票、余票紧张。小南你记住,下次监控到小于10张的车票数据,就这样写。

 

  说白了,名为“机器人”的小南,真身其实是一套程序系统。基于机器学习算法,通过融合领域知识,小南能够对数据进行深度分析,发掘重要的消息和事件,并用自然语言进行表达。同时,小南也能对已有的文本素材进行语句筛选与融合,从而以秒速生成报道。

 

  在编辑团队的指引下,小南还会持续地学习模仿人类的写作方式。例如,在判断出剩余票数或是列车行驶时间后,小南能使用不同的词语来形容,如“票数紧张”及“旅途较累”,让报道看起来不那么冷冰冰。

 

  训练小南的过程中,有个细节让邹莹印象深刻。“小南写出的稿件,编辑出于本职,想着是否要核对一下数据。北大的技术团队说,不需要,机器人不会弄错数据。”邹莹说。

 

  小南上岗试用期间,有编辑感叹:写得真不错,而且勤奋!

 
举报收藏 0打赏 0评论 0
点击排行