未分类

/未分类

中文信息处理实验室六篇长文被ACL2021主会录用

2021-05-08T15:53:17+00:00

中文信息处理实验室六篇长文被ACL2021主会录用 日前,自然语言处理领域的顶级会议 ACL 2021陆续向作者发送录用通知,中国科学院软件研究所中文信息处理实验室六篇长文被主会录用。 下面是论文列表及介绍: 论文一 标题:TEXT2EVENT: Controllable Sequence-to-Structure Generation [...]

中文信息处理实验室六篇长文被ACL2021主会录用 2021-05-08T15:53:17+00:00

春意浓浓,寄情山水——记中文信息处理实验室春游

2021-05-07T15:08:42+00:00

春意浓浓,寄情山水——记中文信息处理实验室春游 智者乐水,仁者乐山。2021年4月11日,中文信息处理实验室部分职工及学生共同来到黑龙潭风景区,放松心情。 黑龙潭位于北京市密云区石城镇鹿皮关北面的一条全长4公里,水位落差220米的峡谷里,有春花、秋月、平沙、落雁、曲、叠、沉、悬潭等十八个名潭,千姿百态,各领风骚。 爬山对于人的体力和毅力都是极大的考验,但是实验室一行人不畏艰险、勇攀高峰。大家沿着盘山栈道,欣赏着涓涓瀑布流入清澈见底的石潭,感受着攀登陡峭山路的艰难困苦,终于在中午时分登上了黑龙潭的顶峰。 一时间湖光山色尽收眼底,就好似科研攻坚路漫漫,志在巅峰不辞遥。   山顶的温度确实比山脚低很多,但是大家围坐一团互相分享食物、交流的温馨画面顿时驱散了寒意。傍晚,实验室一行人在农家小院的饭菜香味中,结束了一天的行程。 通过这次春游活动,大家在欣赏祖国的美好河山的同时也体会到科研路上应坚持不懈,勇攀高峰。最后,中文信息处理实验室将继续不忘初心,奋勇前进。 撰稿:张文凯 责任编辑:刘汇丹

春意浓浓,寄情山水——记中文信息处理实验室春游 2021-05-07T15:08:42+00:00

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告

2021-04-21T14:40:08+00:00

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告 2021年4月13日下午,应实验室孙乐研究员和韩先培研究员的邀请,复旦大学张奇教授到访实验室,为实验室师生做了题为“模型鲁棒性分析与评测”的学术报告。 张奇老师现任复旦大学计算机科学技术学院教授、博士生导师。主要研究方向是自然语言处理,信息检索和数据密集型计算,共发表学术论文70余篇。 近年来,随着深度学习以及预训练方法的发展,深度学习模型在几乎全部自然语言处理任务中都取得了非常好的效果,在包括阅读理解在内的很多任务的标准评测集合上达到了超越人类的准确性。然而在实际应用中,很多模型的效果却大打折扣。近年来很多相关研究表明,深度神经网络模型在仅仅添加了很小的扰动的样本上,其预测效果也很可能大幅度下降。模型鲁棒性的研究也因此受到越来越多的关注。在本次报告中,张奇老师针对模型的鲁棒性、可解释性以及如何评估模型的鲁棒性三个方面进行了讲解。 尽管目前已经有一些针对NLP任务的模型鲁棒性工作,但它们大多只针对单个NLP任务,同时只有少量的数据变形方法,缺乏系统性的工具集合。针对这一问题,张老师课题组展开了大规模的鲁棒性评测工作,开发了面向自然语言处理的多语言鲁棒性评测平台TextFlint。 利用 TextFlint,张老师课题组对包括分词、词性标注、句法分析、命名实体识别等在内的自然语言处理任务的约100个模型进行了复现和验证。其他领域的测评结果也显示,现有算法在新的测评数据集上的表现都较原始结果有较大幅度下降。从以上结果可以看出,目前绝大多数模型的鲁棒性都亟待提升。 张老师从鲁棒性出发,介绍了课题组的研究工作,并对未来NLP领域的发展进行展望。报告结束后,张奇老师与实验室师生就自然语言处理领域未来发展和科研经验展开了热烈讨论。 撰稿:王怡然 责任编辑:刘汇丹

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告 2021-04-21T14:40:08+00:00

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告

2020-12-29T16:37:20+00:00

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告 2020年12月28日下午,应实验室孙乐研究员和韩先培研究员的邀请,厦门大学苏劲松教授到访实验室,为实验室师生做了题为“神经机器翻译领域自适应研究”的学术报告。 苏劲松老师现任厦门大学信息学院软件工程系教授、博士生导师。主要研究方向是自然语言处理、社会计算,共发表学术论文100余篇,包括CCF推荐列表论文68篇。 近年来,低资源神经机器翻译(NMT)受到广泛关注,多领域神经机器翻译可以利用多个领域平行语料来构造一个统一的模型从而解决领域内数据稀少的问题。 为了同时利用和共享多种领域的翻译数据构建多领域NMT,苏老师课题组提出了区分词粒度上下文的多领域神经机器翻译模型。该方法将词级别隐状态区分为领域相关和领域共享的隐状态,并根据目标词与不同领域的相关性,调整目标词在NMT训练目标中的权重。模型在大规模多领域汉英和英法语数据集上验证性能均有所提升。 用于神经机器翻译的领域适应研究集中在领域外向领域内的一次迁移训练方式,然而由于领域间的差异这样one-pass训练方式很难达到目标,为此苏老师课题组提出了迭代双向迁移的神经机器翻译训练框架。这样迭代多源知识互转移框架在机器阅读理解中也验证了其有效性。 苏老师从机器翻译的领域迁移出发,介绍了课题组的研究工作和后续的研究进展,并对未来的神经机器翻译和领域知识蒸馏研究进行总结和展望。报告结束后,苏劲松老师与实验室师生就论文细节和科研经验展开了热烈讨论。 撰稿:吴杉 责任编辑:刘汇丹

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告 2020-12-29T16:37:20+00:00

中文信息处理实验室两篇论文被AAAI2021录用

2020-12-09T12:20:27+00:00

中文信息处理实验室两篇论文被AAAI2021录用 日前,2021年的首个人工智能顶级会议 AAAI 2021公布了论文录用列表,中国科学院软件研究所中文信息处理实验室两篇长文被大会录用。 下面是论文列表及介绍:   论文一 题目:Denoising distantly supervised [...]

中文信息处理实验室两篇论文被AAAI2021录用 2020-12-09T12:20:27+00:00

中文信息处理实验室师生参加EMNLP 2020

2020-11-24T10:14:28+00:00

中文信息处理实验室师生参加EMNLP 2020 2020年11月16日至11月20日,由国际语言学会(ACL)下属的SIGDAT小组主办的自然语言处理领域的顶级国际会议EMNLP成功召开。受疫情影响,今年EMNLP 会议全程以线上形式举行。实验室的师生通过线上方式参加了此次大会,博士后林鸿宇做了线上分组报告。 EMNLP 2020共收到投稿3677篇,其中有效投稿为3359篇,接收论文数量为752篇,包括长论文602篇、短论文150篇,论文接受率为22.4%。另外,今年EMNLP也带来了一项创新:“Findings of ACL: EMNLP 2020”,它用于刊登未被主会接收,但经过程序委员会评估为足够solid的工作,其实质、质量和新颖性有足够保证。这些论文将作为ACL选集的一部分被收录。 [...]

中文信息处理实验室师生参加EMNLP 2020 2020-11-24T10:14:28+00:00

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛

2020-11-06T19:03:43+00:00

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛 2020年11月6日,第五届语言与智能高峰论坛举行,实验室孙乐研究员和韩先培研究员应邀参加论坛。孙乐研究员主持了上午的由微软亚洲研究院副院长周明博士特邀报告。韩先培研究员应邀在下午的青年科学家论坛上做了题为“开放知识获取:从启发式规则到端到端Bootstrapping网络”的报告。实验室师生以在线的方式参加了本届论坛。 本届论坛邀请了微软亚洲研究院、复旦大学、华为、百度研究院、俄勒冈州立大学等单位的特邀嘉宾做报告。 让机器理解人类语言是人工智能长期以来的梦想,经过几十年的发展,语言与智能技术发展到了什么程度,如何评价语言理解的智能水平,未来发展趋势如何?为了深入探讨这些重要问题,中国中文信息学会和中国计算机学会联合创办了“语言与智能高峰论坛”,首届论坛于2016年在北京举行,每年举行一次,之前已成功举办四届,旨在向社会公众介绍语言与智能的前沿动态和创新成果,推动我国相关领域快速发展。 撰稿:刘汇丹 责任编辑:刘汇丹

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛 2020-11-06T19:03:43+00:00

中国科学院自动化研究所何世柱副研究员应邀作学术报告

2020-10-30T17:59:22+00:00

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020年10月30日下午,应实验室孙乐研究员和韩先培研究员的邀请,中国科学院自动化研究所何世柱副研究员到访实验室,为实验室师生做了题为“融合知识的生成式对话研究”的学术报告。 何世柱老师博士毕业于中科院自动化所,现任模式识别国家重点实验室副研究员、硕士生导师,主要研究方向为知识推理和问答系统。 近年来,从大规模原始对话数据中学习生成式的对话模型受到越来越多的关注,主要方法大都基于深度学习模型,使用多层神经网络记忆对话中涉及的知识。但是,一方面,对话中涉及到的知识非常多,并且时常更新,深度学习模型仅依赖神经网络中的若干参数不可能对它们完全表示和存储;另一方面,事实上目前大部分知识常以形式化的知识图谱形式表示。因此,如何在基于深度学习模型的对话模型中利用知识图谱是一个重要研究课题,它不仅能够提升深度模型生成答复的多样性,也能够给用户提供富有内容的回复。何老师从语言知识、主题知识和世界知识三类知识的应用,介绍相关的研究工作和课题组的研究进展,并对融合知识的生成式对话研究进行总结和展望。 报告结束后,何世柱老师与实验室师生就文本生成方面的技术进行了互动。 撰稿:刘汇丹 责任编辑:刘汇丹

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020-10-30T17:59:22+00:00

九九重阳,登高赏秋

2020-10-26T12:06:08+00:00

九九重阳,登高赏秋 九月九日望遥空,秋水秋天生夕风。10月25日,正值重阳佳节,中文信息处理实验室组织教职工和学生40余人前往慕田峪长城登高望远,共赏红叶。 慕田峪长城位于北京市怀柔境内,距北京城区73公里,历史悠久,文化灿烂。景区内山峦叠嶂,树木葱郁,在中外享有“万里长城,慕田峪独秀”的美誉。 金秋十月,阳光灿烂,遍山红叶开得正欢。在攀登途中,大家观赏美妙秋景,眺望长城景观,感到心旷神怡。 离开了雄伟壮观的慕田峪长城,大家又前往果园进行采摘活动。果园里瓜果飘香,芬芳迷人,大家精心挑选果实,收获了亲近自然的美妙体验。 太阳没入山丘,夕阳余晖洒落。伴随着欢声笑语,大家踏上归程之路。休闲放松之后,实验室各位将以饱满的精神投入到科研工作中。相信在大家的辛勤地耕耘下,中文信息实验室将收获沉甸甸的果实!

九九重阳,登高赏秋 2020-10-26T12:06:08+00:00