
发布者:运营中心 来源: 集慧
当前压缩高价值专利的审查周期,是国务院“放管服”工作的重要内容之一。本文将人工智能技术引入专利价值评估领域,首先,给出数据挖掘技术在专利价值评估领域的应用思路,然后,选择人工神经网络作为分类预测算法,利用R数据科学编程技术,实现人工神经网络在专利价值分类预测领域的应用。
1概论随着世界经济形势的不断发展,党中央、国务院高度重视我国知识产权事业,习近平总书记多次在重要场合发表关于知识产权工作的重要论述,社会各界也对知识产权审查审批工作提出了更高的要求,国务院“放管服”改革、优化营商环境工作中明确提出,要将高价值专利审查周期压缩到17.5个月,这是新时代我国专利审查工作面临的新形势。因此,如何从大量专利申请中快速准确识别出高价值专利,并对每件专利申请给出专利价值的评估结果成为摆在知识产权工作者面前的重要课题。
伴随着云时代的到来,大数据已经渗透到各行各业,逐渐成为重要的生产要素,而知识产权领域,同样面临着如何挖掘海量数据的现实需求。数据挖掘与建模属于人工智能(AI)技术领域范畴,也是近年来“互联网+”时代下的热门技术。数据挖掘是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性的决策支持的方法、工具和过程。
分类与预测是数据挖掘领域非常重要的一种手段,分类是构造一个分类的模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别,分类模型建立在已有类别标记的数据集上,因此,分类属于有监督的学习。而预测是建立两种或以上的变量之间的函数关系,然后,进行预测和控制。
在掌握分类预测算法的基本原理之后,可以将分类预测算法应用到专利价值评估领域。首先,通过人工阅读一批专利,并同时对该批专利的专利价值给出等级分类,得到该批专利的可量化指标数据;然后,据此建立该批专利的分类模型,并校验该模型的准确度;最后,当模型的准确度满足设计需求时,可以用该模型对后续其他专利申请的专利价值直接给出等级划分,从而快速识别高价值专利,助力专利审查提质增效。
2人工神经网络算法概述
人工神经网络作为分类预测算法的一种重要算法,其实现过程同样遵循分类预测算法的三个主要步骤:首先,给出n个具有类别标记的训练样本,利用分类算法,建立分类模型得到训练规则;然后,利用剩下的k个同样具有类别标记的数据集作为检测样本,测试建立的分类规则的准确性;当上述检测样本的输出值准确度符合预期时,可以用建立好的分类模型对未知类别标记的样本进行预测,从而对未知样本数据进行机器自动分类。
在利用人工神经网络进行专利价值评估之前,有必要对人工神经网络算法的几个基本概念进行阐述。
1.1人工神经网络基本概念
人工神经网络(ArtificialNeuralNetwork,ANN)类似于生物神经元结构,ANN将神经元定义为中央处理单元,其执行数学运算以从一组输入生成一个输出,神经元的输出是输入的加权加上偏差的函数,整个神经网络的函数仅仅是对所有神经元的输出的计算,从本质上来看,ANN是一组数学函数的逼近。现对神经网络的有关术语做简单介绍。
如图1所示,任何一个神经网络均具有输入层(inputlayer),用来接受输入数据,执行处理的中间层,也称为隐含层(hiddenlayer),输出构成输出层(output)。ANN中权重是表征每个神经元对另一个神经元的影响的数值参数,权重乘以输入再加起来形成输出。激活函数是将输入转换为输出的数学函数,并提升网络的处理能力,激活函数赋予神经网络某种非线性特性,使其成为真正的通用函数逼近器。
训练神经网络是向网络提供一些样本数据并修改权重以更好地接近所需函数的行为,主要分为有监督学习和无监督学习,有监督学习包含输出,无监督学习则只提供输入。
神经网络从输入层到隐含层,然后再到输出层的处理过程称为前向传播,在每一层施加输入*权重+偏差,然后,将激活函数值传播到下一层,一旦到达输出,将计算误差,利用该误差来纠正前向传播中使用的权重和偏差,利用反向传播不断改变权重,直到误差最小化,完成网络计算,输出结果。
1.2人工神经网络的评估指标
针对人工神经网络的准确性,给出其评估指标,主要用于在测试阶段检测预测值是否等于实际值。在神经网络评估中,常用的评估方法是混淆矩阵法。
当分类的值绘制在一个n*n矩阵中时,这个矩阵称为混淆矩阵(confusionmatrix),所有的评估指标均可以从混淆矩阵中推导得出。下面以二值分类模型为例进行说明。
利用混淆矩阵还可以定义诸如真阳性、真阴性比率等模型评估指标,此外,还可以利用ROC(受试者工作特性)曲线来分析模型的性能,限于篇幅,本文不再对其他评估指标做过多阐述,感兴趣的读者可参考有关神经网络书籍。
2利用人工神经网络实现专利价值分类预测
3.1数据集的选择
正如本文概论中提到的,利用人工神经网络算法进行专利价值分类预测之前,需要通过人工阅读一批专利,并同时对该批专利的专利价值给出等级分类,因此,该批建模数据的选择至关重要。为使模型数据尽量客观,我们选择2016—2018年度国家知识产权局组织的第18届至第20届中国专利奖评选大会公布的专利文献(除外观设计专利之外)作为原始数据集。为使后续数据处理更规范,我们定义如下:获得中国专利金奖的专利,其专利价值为第一档,获得中国专利银奖的专利,其专利价值为第二档,获得中国专利优秀奖的专利,其专利价值为第三档。将上述三年总共2194件专利作为原始数据集,并命名为PatentData,利用一定的检索分析手段获得上述2194件专利的其他数据指标,以此作为建模的输入量,表2中给出了数据集中数据变量的定义描述。
在当前大数据科学技术中,能实现神经网络的编程语言有很多,诸如Python、R等数据科学语言,本文选择R语言作为编程语言,实现人工神经网络在专利价值分类预测领域的应用。
可以看出,基于当前的数据,采用单隐层网络预测结果略优于深度神经网络。如果对模型的预测结果满意,则可以将该模型部署到其他新的数据集上,实现专利价值的分类预测工作,如果对上述结果不满意,需要进一步调整模型,调整的方向主要有:扩大训练数据集,调整模型输入变量,选择合适的隐含层神经元数量,或者更换其他神经网络模型算法包,限于篇幅,本文不再选择其他神经网络进行测试,感兴趣的读者可在本文基础上进一步研究。
4结束语
专利价值评估工作是专利事业快速发展的题中应有之义,而大数据时代的科技进步为海量专利数据的信息挖掘提供了技术上的可能。本文以R数据科学编程语言作为工具,在深入研究数据挖掘技术的基础上,选择人工神经网络作为专利价值评估的手段,利用人工智能技术,实现海量专利价值评估工作的快速化、批量化,为高价值专利审查周期压缩工作提供了技术上的支持。