青岛恒昌机器人科技有限公司
新闻资讯

当前位置:网站首页 > 新闻资讯

基于文本分类的智能垃圾回收机设计

    要:

为了让垃圾回收机变得更加智能,对用户提出的生活垃圾归属问题给予快速准确的回答,提出了构建垃圾分类自动问答系统方法。利用垃圾分类问答语料库,基于文本分类,使用Word2Vec词向量和CNN卷积神经网络训练出自动问答模型。同时与传统机器学习方法进行了对比分析。

作者简介: 阳国华,上海互软信息科技有限公司,高级信息系统项目管理师,在职研究生,研究方向:人工智能。;

收稿日期:2020-05-19

基金: 上海市中小企业科技创新课题项目;

Automatic Question Answering System in Intelligent Waste Recycling Machine Based on Text Classification

YANG GuoHua JIANG Chuan

Shanghai Mutual-Soft Information Technology Co.,Ltd Department of Computer Science, Shanghai University of engineering and technology

Abstract:

In order to make the garbage collector more intelligent and give a quick and accurate answer to the user's question of household garbage ownership,this paper proposes a method to build an automatic garbage classification question answering system.Based on text classification,an automatic question answering model is trained by using Word2Vec word vector and CNN convolution neural network.At the same time,it is compared with the traditional machine learning method.


Received: 2020-05-19


0 引言

上海市制定的垃圾分类标准,由于每种类别所包含的垃圾种类繁多,对于常见的垃圾人们可以很容易辨别所属类别,但是对于平时不常见的垃圾就很难辨别了,因此出现了“你是什么垃圾”现象。

目前进驻在各城市各小区的智能垃圾回收机还没有提供帮用户回答垃圾类别的功能,使得用户在投递垃圾时要事先确定好垃圾类别时才能投递,这样不仅影响了用户体验,而且对于有些老人小孩没有这方面认识的人群相当不友好。因此为了让当前智能垃圾回收机变得更加智能,能够对用户提出的生活垃圾归属问题给予快速准确的回答,以便用户准确分类投递,本文提出了构建垃圾分类自动问答系统方法。该方法首先通过网上搜集与人工扩充方式建立“垃圾类别提问(自然语言方式提问)—垃圾所属类别”二元组问答对语料库,在对语料库进行去噪、分词、去停用词后,利用Word2Vec词向量将问句向量化,之后利用CNN卷积神经网络对预处理后的语料库进行文本分类,终训练出自动问答模型[1,2,3,4,5]。同时与传统机器学习方法进行了对比分析,实验结果表明,通过CNN训练出来的模型较传统机器学习准确率更高,进一步验证了CNN卷积神经网络构建问答系统的有效性。

1 系统总体架构

本文所提出的智能垃圾回收机自动问答系统总体架构如图1所示。主要包括智能垃圾回收机和自动问答系统服务两大块,其中智能垃圾回收机主要在原有功能基础上增加了语音处理功能,以便对用户的提问进行采集与回答。用户的提问通过智能垃圾回收机的语音采集设备输入,然后语音识别模块将用户提问的语音信号转换为自然语言,通过4G模块将问题上传到自动问答系统服务中,问答系统中训练好的预测模块接收问题输入后给出答案,后通过语音合成模块将问答系统给出的自然语言答案转换成语音信号并输出。此外问答系统服务中还提供了模型更新的功能,通过管理系统,后台管理人员可以将新的语料增加到语料库中,离线学习模块在接收到语料库更新的提示后会自动进行离线学习,然后将离线学习后生成的模型更新到预测模块中,实现了模型的升级迭代。

图1 系统总体架构

图1 系统总体架构   下载原图


2 自动问答系统

2.1 系统分析

自动问答是自然语言处理领域研究热点之一,也是人工智能和人机交互的核心研究领域。近年来,自动问答系统快速进步并影响着社会发展的众多领域[6,7]。问答系统允许用户以自然语言方式进行提问,并终返回给用户简洁而准确的答案。系统可分为开放领域问答系统和限定领域问答系统,其关键技术包括问题分析、信息检索、答案抽取三个部分[8,9]

本文提出的垃圾分类问答系统只对用户提出垃圾所属类别进行回答,因此可以归结为限定领域问答系统。用户提问垃圾所属类别时,系统会把四种(可回收垃圾、有害垃圾、干垃圾、湿垃圾)垃圾类别中的对应的一种返回给用户,因而从这个问答场景中可以把本文自动问答系统简化为文本分类问题。因此本文问答系统的核心是建立垃圾问答对语料库并对语料进行文本分类。

文本分类是自然语言中重要的处理手段,其算法很多,有基于传统机器学习的方法,包括常用的支持向量机算法(Support Vector Machine,SVM)、朴素贝叶斯算法(Naive Bayesian Classifier,NBC)、决策树算法(Decision Tree,DT)、K-近邻算法(K-Nearest Neighbor,KNN)等[10,11],但是采用这些传统的机器学习算法需要人工进行特征选取,耗时耗力,并且算法学习到的只是表层文本信息,不能理解文本的深层语义信息,分类效果不够理想。随着近年来深度学习的发展,特别是以卷积神经网络(Convolutional Neural Networks,CNN)为代表的深度学习技术在语音识别和图像识别等领域中成功应用且取得了很好的成果,使得很多国内外学者尝试利用CNN对文本进行特征提取,去掉繁杂的人工特征工程,并且在实际应用中表现出很好的分类效果[12]

为了保证自动问答系统的准确性,本文即采用CNN卷积神经网络进行文本分类,文本分类流程图如图2所示。

2.2 语料获取

语料获取采用网上获取和人工扩充方式,人工扩充根据上海市垃圾分类标准进行。终构建的问答对语料有12000条,部分语料如表1所示。

图2 文本分类流程

图2 文本分类流程   下载原图


表1 部分语料问答对     下载原表

表1 部分语料问答对

2.3 文本预处理

文本预处理在文本分类中起到非常重要的作用,文本预处理的好坏直接影响到后续模型训练的精度。文本预处理主要工作是先通过正则匹配剔除一些无用的字符,并统一数据文本编码方式为utf-8,然后采用jieba分词工具对中文问句进行分词,以“请问猪肉是什么垃圾呢”为例,分词结果为“请问/猪肉/是/什么/垃圾/呢”,分词结束后续需要去除一些停用词,比如一些常见的助词、语气词,以“请问猪肉是什么垃圾呢”为例,经分词和去停用词后句子变为“请问/猪肉/是/什么/垃圾”。

2.4 词向量化

预处理后的文本需要向量化表示才能输入到卷积神经网络进行训练。将文本进行向量化表示的方法主要有两种,一种是词袋模型,另一种是Word2Vec词向量模型。与词袋模型相比,Word2Vec词向量模型更能够表达句子语意信息[13],因此一般采用的是Word2Vec词向量法。

Word2Vec是google公司提供的的词向量训练工具,能够从大量未经过标注的语料中生成词的向量表示形式,并提供了CBOW(continuous bag of words)和Skip-gram(Continuous Skip-gram Model)两种训练模型[14]。Skip-gram模型通过给定的输入词wt来预测其上下文Swt=(wt-k,……,wt-1,wt+k,……,wt+k),其中 k为wt上下文窗口大小,即左右选取词的个数,CBOW模型则是根据上下文Swt去预测wt.Skip-gram和CBOW训练目标优化函数分别如式(1)和式(2)所示。

图片关键词 


其中,C为语料库中所有词语,k为wt上下文窗口大小。CBOW模型和Skip-gram模型包括输入、映射和输出三层,其架构图如图3所示。本文采用Word2Vec作为训练工具,用Skip-gram模型对训练数据进行训练,得到训练数据中每个词的词向量。

2.5 卷积神经网络模型

本文所构建的卷积神经网络文本分类模型包括词向量输入层、卷积层、池化层、全连接层、输出层。输入层是问句中词的词向量矩阵。问句被分词后,产生n个词语且词向量维度是d,则输入矩阵的大小为n×d。

图3 Word2Vec模型

图3 Word2Vec模型   下载原图


卷积层采用不同维度的卷积核对输入层进行卷积操作,卷积本质上是对输入矩阵的加权叠加,它是卷积内核的不同大小的文本体积h×d (h是卷积内核窗口中包含的词语个数,d代表每个词语的向量维度)。实验卷积核设计为三种尺寸,即2×d,3×d,4×d,CNN卷积运算公式如式(3)所示。

图片关键词 


其中,ci表示卷积运算的终结果,即输出矩阵和卷积核的点乘以及偏移后的激活输出。h是窗口大小,Xi:i+h-1是输入的i到i+h-1窗口中的字向量矩阵,W1是卷积核或权重矩阵,b1是偏移量,f是激活函数。在通过卷积获得特征之后提取特征以简化网络的计算复杂性,在池化层处压缩特征。

池化层操作通常有两种类型:平均值池化和大值池化。文本分类通常使用大值池来选择重要的信息。池化操作如式(4)。

图片关键词 


其中:是大合并操作的结果,并且ci(i=1,2,……,n-h+1)是卷积操作的结果。

全连接层接收来自将池化层的输入,并通过Softmax函数执行分类计算操作。分类计算如式(5)。

图片关键词 


exp表示以e为基数的指数函数,ρ是评估参数,该值由小成本函数J(ρ)估计。如式(6)。

图片关键词 


输出层,上述函数的返回值是C分量的概率值,并且每个分量对应于输出类别的概率,从而划分文本的类型信息并完成分类。终所构建的卷积神经网络文本分类模型如图4所示。

图4 卷积神经网络文本分类模型

图4 卷积神经网络文本分类模型   下载原图


3 实验与结果分析

3.1 实验数据集

本文收集的数据集有12000条,其中四种垃圾类别的分布如图5所示。为了保证模型验证的准确性,采用十折交叉验证,将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。

图5 垃圾类别分布

图5 垃圾类别分布   下载原图


3.2 实验环境与参数设置

本文实验环境配置如表2所示,CNN模型中的参数主要有sequence_len句子长度、num_classes分类数目、embedding_size词向量维度、filter_sizes卷积核维度、num_filters每个不同维度的卷积核数目、l2_reg_lambda正则化权值和drop_out参数。这些参数设置如表3所示。

表2 实验环境配置     下载原表

表2 实验环境配置

表3 CNN模型参数设置     下载原表

表3 CNN模型参数设置

3.3 实验结果分析

训练过程中,模型在训练集和测试集上的准确率随训练的轮次变化曲线如图6所示。

从图6中可以看出,经过多轮迭代训练后,模型在训练集和测试集上均表现出良好的收敛效果。从模型在训练集上的表现来看,当训练轮次数超过3次时,模型的分类精度达到90%,当训练轮次超过8次时,模型分类精度达到了95%,在后续的迭代中模型精度基本上维持在95%左右;从模型在测试集上的表现来看,当训练轮次超过3次是,模型的分类精度达到82%,当训练轮次超过8次时,模型分类精度达到了88%,后续模型精度基本上维持在88%左右。同时也可以很明显的发现模型在测试集上的准确率明显要小于训练集上的准确率,在引入正则化参数以及dropout参数后依然没有使模型在测试集上的准确率有所提高,原因可能是本文所构建的语料数据量不足。为了测试模型的有效性,本文选择了目前文本分类中应用比较广泛的传统机器学习方法作为Baseline模型进行比较。比较模型包括朴素贝叶斯、决策树、k-近邻、支持向量机。表4展示了各模型在测试数据集下的准确率。

图6 模型训练过程

图6 模型训练过程   下载原图


表4 模型对比结果     下载原表

表4 模型对比结果

实验结果4种传统机器学习分类方法中支持向量机SVM准确率高达到79.5%,而本文所采用的CNN卷积神经网络算法准确率达到了88.6%,可以看出基于深度学习卷积神经网络算法文本分类效果明显优于传统机器学习算法。

4 结语

针对目前上海市实行的垃圾分类标准,以及现有的智能垃圾回收机没有提供垃圾所属类别问答功能,进而给用户的垃圾分类带来一定的困扰,本文提出了构建垃圾分类自动问答系统方法。利用CNN卷积神经网络对垃圾问答语料库进行文本分类,并与传统机器学习方法进行了对比分析,实验表明该方法有效地提升垃圾回收机的智能化程度,对用户的提问具有较高的准确率。后续可以尝试其他深度学习算法,亦可将传统机器学习和深度学习进行算法融合,进一步提高模型的准确率。

参考文献

[1] M.Abdulla,Al Mamun,M.A.Hannan,A.Hussain,H.Basri.Integrated sensing systems and algorithms for solid waste bin state management automation[J].IEEE Sensors J.,2015,15(01):561-567.

[2] M.Gheisari,Q.Pham,M.Alazab,X.Zhang,C.FernÃandez-Campusano,G.Srivastava.Eca:An edge computing architecture for privacy preserving in iot-based smart city[J].IEEE Access,2019,7(08):155779-155786.

[3] A.S.Bharadwaj,R.Rego,A.Chowdhury.Iot based solid waste management system:Aconceptual approach with an architectural solution as a smart city application[C].IEEE Annual India Conference(INDICON),Bangalore,India,2016:1-6.

[4] S.S.Samant,N.L.Bhanu Murthy,A.Malapati.Improving term weighting schemes for short text classication in vector space model[J].IEEE Access,2019,7(11):166578-166592.

[5] M.A.Parwez,M.Abulaish,Jahiruddin.Multi-label classication of microblogging texts using convolution neural network[J].IEEE Access,2019,7(05):68678-68691.

[6] A.Bouziane,D.Bouchiha,N.Doumi,M.Malki.Question answering systems:Survey and trends[J].Procedia Computer Science,2015,73:366-375.

[7] B.Qin,T.Liu,Y.Wang,S.F.Zheng,S.Li.Chinese question answering system based on frequently asked questions[J].Journal of Harbin Institute of Technology,2003,35(10):242-247.

[8] H.Jin,Y.Luo,C.Gao,X.Tang,P.Yuan.Comqa:Question answering over knowledge base via semantic matching[J].IEEE Access,2019,7(05):75235-75246.

[9] Y.Sharma,S.Gupta.Deep learning approaches for question answering system[J].Procedia Computer Science,2018,132:785-794.

[10] Sebastiani,Fabrizio.Machine learning in automated text categorization[J].Acm Computing Surveys,2002,34(01):1-47.

[11] A.K.Uysal.On two-stage feature selection methods for text classication[J].IEEE Access,2018,6(08):43233-43251.

[12] J.Zheng,L.Zheng.A hybrid bidirectional recurrent convolutional neural network attention-based model for text classication[J].IEEE Access,2019,7(08),106673-106685.

[13] Zhi-Tong Yang,Jun Zheng.Research on chinese text classication based on word2vec[C].2016 2nd IEEE International Conference on Computer and Communications (ICCC),Chengdu,China,2016:1166-1170.

[14] D.Zhang,H.Xu,Z.Su,Y.Xu.Chinese comments sentiment classication based on word2vec and svmperf[J].Expert Systems with Applications,2015,42(04):1857-1863.


点击次数:  更新时间:2020-07-25 13:45:42  

地址:青岛市西海岸新区海滨工业园香海路168号
手机:13806390681  服务热线:0532-86131102
邮箱:qdhengchangkeji@163.com
鲁ICP备18013584号