语言是思维的载体,是人际交流的重要工具,在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。自然语言处理一直是人工智能界重点关注的核心技术之一。
由于创造和使用自然语言是人类高度智能的表现,因此对自然语言处理的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。自然语言处理通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。
人工智能主要包括“感知”和“认知”两个重要的部分。其中,计算机视觉和语音识别等领域属于感知部分,而自然语言处理属于认知部分的重要内容。对一个“智能”而言,仅仅感知当然不够,理解和消化内容的认知能力才是真正意义上的核心。但要真正处理和理解语言,需要利用自然语言处理一系列基础技术,而且前一步的处理错误将导致后续处理的错误扩大。
(1)中文分词
中文分词是将一个汉字序列切分成一个个单独的词,将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词难点包括词的歧义切分和未登录词识别。切分歧义处理包括切分歧义的检测和切分歧义的消解。未登录词大致包含新涌现的通用词或专业术语和专有名词两大类。
分词主要方法可以分为基于词典和基于统计的方法,最新的方法是多种方法的混合。从目前汉语分词研究的总体水平看,F1值已经达到95%左右,主要分词错误是由新词造成的,尤其对领域的适应性较差。
(2)词性标注
词性标注是指为给定句子中的每个词赋予正确的词法标记,给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记,比如,名词、动词、形容词等。它是自然语言处理中重要的和基础的研究课题之一,也是其他许多智能信息处理技术的基础。词性标注对于后续的自然语言处理工作是一个非常有用的预处理过程,它的准确程度将直接影响到后续的一系列分析处理任务的效果。
长期以来,兼类词的词性歧义消解和未知词的词性识别一直是词性标注领域需要解决的热点问题。当兼类词的词性歧义消解变得困难时,词性的标注就出现了不确定性的问题。而对那些超出了词典收录范围的词语或者新涌现的词语的词性推测,也是一个完整的标注系统所应具备的能力。
(3)命名实体识别
命名实体识别是在句子的词序列中定位并识别人名、地名、机构名等实体的任务。 如命名实体识别:
“国务院(机构名)总理李克强(人名)调研上海外高桥(地名)时提出,支持上海(地名)积极探索新机制”。
(4)句法分析
句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。
(5)语义分析
语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。
(6)语用分析
语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。
(7)语境分析
语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。
分词、词性标注技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟,其标志就是它们已经被成功地用于文本检索、文本分类、信息抽取等
应用之中,而句法分析、语义分析技术需要对句子进行全局分析,目前,深层的语言分析技术还没有达到完全实用的程度。
基于自然语言处理基础技术,学术界和工业界在应用方面开展了文本分类、信息检索、信息抽取、知识图谱、问答系统、机器翻译、自动摘要、情感分析、信息推荐等研究,其中一些成果已经成为人们工作和生活的重要工具。
2018年6月20日,
人工智能应用学术研讨会在京召开。中国电科院王继业副院长在“人工智能重点研发方向和发展趋势”中指出自然语言处理技术要面向电力领域核心业务,构建电力知识和语料库,研究电力文本特征提取、电网本体建模、知识加工和推理等技术,分领域逐步构建电力知识图谱,先期构建调控、运检和营销等领域知识图谱,支撑电力调度机器人、电网设备智能运维和智能客服等应用;最终,形成新一代电力智能搜索和问答解决方案。综上,中国电科院已在以下几个方面开展工作:
(1)构建通用资源与电力行业语料库
语料是开展自然语言处理和文本价值挖掘的基础,将整合电力各专业知识和全业务以文本形式存在的操作规则、运维记录、调度运行记录、营销档案、客服等文本,建立基础语料库。
开展电力主题词典构建工作,利用新词发现技术和语义网络挖掘技术,构建电力行业主题词典,为电力自然语言处理提供基础资源。目前已经完成部分电力专业词典构建,并在公司科技项目查重系统中进行了应用。
(2)搭建电力自然语言处理平台
研究跟踪自然语言处理先进技术,调研各类自然语言处理工具包,并进行广泛集成;研究开发语言处理平台基础技术服务接口,包括分词、词性标注、命名实体识别、消歧、句法分析、角色标注等,为自然语言处理应用提供语言处理服务。
(3)电力知识图谱构建和应用
重点面向运检、调度、配电、营销客服等领域,研究实体及关系抽取技术,建立信息表示、知识加工、知识更新体系,构建领域知识图谱,实现数据到信息到知识再到智能,有力支撑电力业务智能应用。