实验室参与编写《中文信息处理发展报告2016》

介绍了中文信息处理的各种技术研究进展呢,阅读本文有利于了解信息处理发展现状,确定自己的研究方向。
内容涵盖:
一、词法、句法、文法等
发展趋势: 1) 深度学习热潮席卷了NLP的各个任务;2)多粒度分词;3)面向非规范文本的分词;4) 分词、新词发现(词语归一化)交互建模; 5)互联网文本分析和领域自适应问题。
二、语义分析
1.  词汇级语义分析: 1)词义消歧;2)词义表示与学习(word embedding)
  1. 句子级语义分析: 1)浅层语义分析:基于句法分析的结果;2)深层语义分析
  2. 篇章级语义分析:识别文本中的所有篇章结构
目前主流的语义分析方法也是基于统计的方法,该方法以信息论和数理统计为理论基础,以大规模语料库为驱动,通过机器学习技术自动获取语义知识。
发展趋势:
  • 短语/句嵌入的学习。 目前词嵌入已经在自然语言处理领域有了广泛的应用。如何为更大粒度的语言单位(如短语,甚至句子等)学习得到其相应的嵌入表示,已经成为目前研究的一个热点。
  • 基于句子级语义分析的篇章融合
  • 中文篇章分析
  • 非规范文本的语义分析
三、语篇分析
包括 机器翻译、文本摘要、自动会话、机器阅读理解等
四、 语言表示与深度学习
科学问题
  1. 语言表示的认知机理:如何构建语言白哦是和知识表示的联系,人工知识库或大规模未标记预料来自动学习语言的表示
  2. 跨语种的统一语言表示: 如何为不同语种构建一种统一的语言表示模型,利用不同语言之间的共性,从而提高各个语言的表示能力
  3. 不同粒度单位的语言表示:如何构建 一个多粒度文本的联合语义表示模型,解决“一词多义”问题
  4. 基于少量观察样本的新词、低频词表示学习
技术方法

《中文信息处理发展报告》-2016---简略摘要

  1. 词表示:word embedding 的质量非常依赖于上下文窗口大小的选择。通常,大的上下文窗口学到的词嵌入更能反映主题信息,小的上下文窗口学到的词嵌入更能反映词的功能和上下文语义信息。
研究点:1)如何获得高质量词嵌入;2)如何利用已有知识库改进词嵌入模型,并结合知识图谱和未标注预料在同一语义空间中来联合学习知识和词的向量表示。
句子表示:如何有效地才词嵌入通过不同方式的组合得到句子表示,包括
  • 神经词袋模型:词向量的平均
  • 递归神经网络:按照给定外部拓扑(如成分句法树),不断递归得到整个序列的表示。
  • 循环神经网络:将文本序列看作时间序列,不断更新得到整个序列的表示。
  • 卷积神经网络:通过多个卷积层和子采样层,得到一个固定长度的向量。
  1. 篇章表示: 一般采用层次化的方法,先得到句子编码,再以句子编码为输入,得到篇章的表示。
循环神经网络非常适合处理文本序列,广泛应用在很多自然语言处理任务中。
五、知识图谱
知识图谱以结构化的形式描述客观世界中的概念、实体间的复杂关系,将互联网的信息表达成更接近人类认知世界的形式,提供一种更好的组织、管理和理解互联网海里信息的能力。
知识图谱与大数据及深度学习一起,已经成为推动人工智能发展的核心驱动力之一。
研究内容
  • 知识表示 的 关键问题是 1) 建立什么样的知识表示形式能够准确地反映客观世界的知识; 2)建立什么样的知识表示可以具备语义表示能力; 3)知识表示如何支持高效知识推理和计算,从而使知识表示具有得到新知识的推理能力。 基于知识图谱的表示学习通过深度学习可以将知识表示成低维连续实值稠密的实值向量空间,有助于实现高效的知识计算.
  • 知识图谱构建:是知识图谱技术最为关键技术之一,信息抽取和语义集成是知识图谱构建的核心技术问题。
  • 知识图谱应用:基于知识的互联网资源融合、语义搜索、问答系统、基于知识的大数据分析和挖掘。
发展趋势
  • 融合符号逻辑和表示学习的知识表示
  • 高精确度大规模知识图谱构建: 如何从分布、异构、有噪音、碎片化的大数据中获得高质量的大规模知识图谱
  • 知识图谱平台技术:如何建立知识图谱构建的平台,提供知识图谱的构建管道技术
  • 基于知识图谱的应用研究: 何进一步应用知识图谱建立知识驱动的自然语言处理研究方法,基于知识的大数据分析和挖掘是非常值得研究的方向。
六、 文本分类聚类
发展趋势
  • 面向互联网文本的分类聚类:文本信息保护大量噪声,具有丰富的结构化或半结构化信息,伴随着大量图片视频等信息。如何恰当地利用这些异构信息构建高效的是适用于互联网文本的分类与聚类模型。
  • 神经网络文本分类模型优化:基于神经网络的文本分类模型取得了目前文本分类的最高水平。但如何建立可解释的神经网络分类模型,如何降低模型学习复杂度,如何利用有限的标注样例取得更好的分类效果是深度神经网络分类模型系带解决的问题。
  • 基于神经网络的文本聚类模型:神经网络模型没有在文本聚类任务上取得有效进展。如何充分利用深度神经网络的强大语义表示能力,设计有效的目标函数,建立基于神经网络的文本聚类模型,是文本聚类所面临的挑战。
七、信息抽取
是指从非结构化/半结构化文本(如网页、 新闻、论文文献、 微博等) 中提取指定类型的信息(如实体、属性、关系、事件、 商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术。主要应用于舆情监控、网络搜索、智能问答等,也是中文信息处理和人工智能的核心技术,是用于构建可支撑类人推理和自然语言理解的大规模常识知识库的有效手段之一。
研究内容
包括 命名实体识别、关系抽取、事件抽取和信息集成。
关键科学问题
  • 自然语言表达的多样性、歧义性和结构性
  • 目标知识的复杂性、开放性和巨大规模
  • 多源异构信息的融合与验证
发展趋势
  • 面向开放领域的可扩展信息抽取:现有有监督方法面临的问题 1)在更换预料类型后性能往往有大幅度的下降,2)无法抽取目标类别之外的语义知识,3)依赖大规模训练语料,4)复杂度高等。
  • 自学习、自适应和自演化的信息抽取系统: 需构建增量式、能够自演化的信息抽取,并研究检测抽取技术是否在当前数据上失效,根据当前数据源的特点自学习的构建高性能的抽取系统。
  • 面向多源异构数据的信息融合:需要研究跨文档、跨语言和跨媒体的融合技术,包括信息置信度衡量、冗余信息去除、信息之间的冲突、抽取信息的不确定性、缺失信息补全等。
该问题的解决依赖于海量资源共享、大规模深度机器学习技术、大规模知识资源(如知识图谱)的发展。
八、 情感分析
科学问题
  • 情感资源构建 : 类别和粒度
  • 情感信息的质量分析: 虚假用户/信息(如评论文本)识别
  • 情感分类:包括篇章级、句子级、短语级、对象和属性级
  • 情感信息抽取:抽取管道对象、评价表达、对象和评价之间的搭配等
  • 多模态情感分析:从图像、视频、语音、文字等多模态数据中分析情感表达
发展趋势
  • 面向社交媒体开放域文本的情感分析:表达隐晦、评论对象更加难以抽取、属性描述词不明确、反讽等问题
  • 基于上下文感知的情感分析
  • 跨领域跨语言情感分析:情感字典的领域相关性过强,多少领域或语言缺乏高质量的情感资源
  • 基于深度学习的端到端情感分析:情感字典、句法、语法和语义信息等如何有效结合在端到端的深度学习中
  • 新的情感分析任务:如情感解释分析、反讽、立场分析等
九、社会媒体处理
社会媒体处理研究的目标是通过挖掘社会媒体中用户生成内容和社交关系网络来衡量用户之间的相互作用,今儿发现其中蕴含的特定模式来更好地理解人类行为特点。涉及计算机科学、社会学、传播学、管理学、经济学、语言学、心理学等。
关键科学问题
  • 社会媒体客观信息挖掘,如用户画像、社交圈识别、信息传播分析
  • 社会媒体主管信息挖掘:如情感分析、消费意图挖掘
  • 基于社会媒体的应用研究:如基于社会媒体的推荐、预测
研究方法
  • 用户画像: 基于内容(UGC)的用户建模、基于关系(社交网络中的关系)的用户建模和基于行为(社交行为)的用户建模
  • 社会网络挖掘: 基于网络结构的社群识别,基于用户分享内容的社群识别
  • 社会媒体传播: 以信息为中心的预测,如信息传播范围、传播趋势、传播周期等,包括传染病模型、分类或回归模型;以用户为中心的预测,分析用户是否会参与某信息的传播;以信息和用户为中心的预测,分析个体的传播行为或传播概率预测信息的传播路径,包括独立级联模型、线性阈值模型等
  • 社会媒体情感分析:基于社会媒体的舆情监控、情感分析的深层透视,即分析情感背后的产生原因
  • 消费意图挖掘:包括显示消费意图和隐式消费意图
  • 基于社会媒体的预测:基于相关关系的预测,如总统大选预测;基于因果关系的预测
难点与趋势
  • 消除噪声数据
  • 避免数据采样有偏
十、信息推荐
科学问题
  • 用户兴趣建模, 需考虑隐式/显示兴趣数据的收集、兴趣的表示(浅层语义向量/语义知识)、兴趣的多样性、时间更新
  • 物品建模
  • 用户兴趣-物品的匹配度计算
研究难点:数据稀疏性、冷启动、大规模计算
来源:http://blog.sina.com.cn/s/blog_8165efa80102x4q3.html
2019-02-20T09:26:56+00:00