项目级别:省级 起止时间:2021.3-2022.3
项目负责人:仇测皓 班级学号:182054126
项目组成员:仇测皓(182054126)刘世辉(192054304)李勃颍(192054321)
指导教师:张麟华、崔建青 职 称:副教授、助教
一、 项目研究目的背景
近年来,随着互联网的高速发展与普遍接入,每天有大量的文本数据产生,人工方式无法满足海量数据的处理。在这种情况下,对大规模文本数据的自动识别和处理显得尤为重要。新闻文本是其中非常重要的一类数据,对新闻文本的分类是自然语言处理领域中一项重要任务。基于传统机器学习方法的文本分类方法已趋于成熟,常见的机器学习分类算法有朴素贝叶斯算法、KNN算法、SVM算法等,这些算法在文本分类任务上取得了不错的效果,但是也存在一定的问题,比如在对文本进行特征表示时不能很好的表示语序和语义信息,而且存在数据维度高和稀疏性等问题,这些问题在一定程度上都影响着文本的分类效率。随着深度学习技术的发展,CNN、RNN、LSTM等神经网络模型逐步应用在文本分类任务上,2018年Google提出了BERT模型,BERT预训练模型也被应用在了文本分类技术中,本文基于BERT预训练模型,通过在辅助任务和主要任务(新闻分类任务)上的微调,来达到提升新闻分类模型的效果。
二、项目主要研究内容、研究方法及实施过程(包括预期目标、实验手段、实施效果等)
项目主要研究内容:
探究寻找一种辅助任务能够突破直接使用BERT模型进行新闻文本分类的天花板
预期目标:
使用BERT预训练模型首先进行辅助任务的微调训练,其次对经过微调训练后的模型进行新闻文本分类任务的训练,证明其效果优于直接使用BERT预训练模型进行新闻文本分类。
实验手段:
1. 寻找新闻文本相关数据集,选择使用新浪新闻的THUCNews。
2. 构造辅助任务所需的训练数据:对源数据集中的一个样本选择其同类的样本、不同类的样本作为辅助任务训练集中的两个样本。
3. 使用BERT模型训练辅助任务,即判断两个新闻文本是否为同一类。抽离BERT模型,将其用于主任务,即新闻文本分类任务。
4. 直接使用BERT模型训练主任务。
5. 对比试验结果
实施效果:
实验结果证明,先使用BERT预训练模型进行以两个新闻标题是否为同一类新闻的微调训练,然后再对经过微调训练后的模型进行新闻文本分类的训练,要优于直接使用BERT预训练模型进行新闻文本分类。分类准确率比Baseline要高出0.23%左右。
三、项目研究成果及创新点
项目研究成果:
设计了一种辅助任务可以提升新闻文本分类的效果,并发表论文得到录用通知书。
创新点:
创新点1:设计辅助任务提升主要任务新闻分类的效果。
创新点2:辅助任务使用主要任务的重构数据,有效利用有限的标注数据。
四、其他需要说明的事宜(包括存在问题、建议等)
存在问题及建议:使用的数据集为新闻标题,进行文本分类存在信息量少的问题,后续可以考虑在其中加入更多的特征和知识帮助更好的进行短文本分类。