文章标题:基于自然语言处理的企业科技成果管理平台研究
文章作者:韩光明1 车坚女1 郭龙2,3 韩玉林1 王继鹏1
关 键 字:NLP;SVM;CNN;词语向量化处理;Swift;企业科技成果管理;AES算法
文章摘要:
企业科技成果包含数据较为复杂,并涵盖较多敏感数据,现有文本分类结果不能满足实际的保密管理需求,可能存在数据泄露或非法访问的风险。为此,设计基于自然语言处理(Natural Language Processing,NLP)的企业科技成果管理平台,以解决关键字检索不能对保密文本进行准确分类的经典问题。使用卷积神经网络(Convolutional Neural Networks,CNN)自动提取文本特征,并用支持向量机(Support Vector Machine,SVM)作为最终的分类器,构建CNN-SVM模型;采用多种不同维度的卷积核进行卷积运算,利用全连接层接收并处理来自注意力层的输出数据,采用SVM分类器对科技成果文本进行分类;通过附件管理模块实现对象存储服务(Swift Object Storage Service,Swift)部署;通过高级加密标准(Advanced Encryption Standard,AES)算法实施科技成果文本数据在传输和存储过程中的加密处理,实现企业科技成果管理平台设计。为了验证设计平台的有效性,将系统A、系统B进行对比实验,表明不同频率的数据窃取攻击下,被窃取科技成果数据不超过1 MB,检索一致性超过90%,对文档进行分类后语义涉密检查的召回率最高可达97%,说明设计平台的文档自动分类效果较好,能够对保护企业知识产权起一定作用。研究设计的企业科技成果管理平台,通过结合NLP技术和先进的加密手段,有效提升了科技成果文本的保密管理水平,能够在很大程度上防止数据泄露和非法访问,同时保证了文档分类的准确性和效率。