更新时间:2025年3月28日
关于TextCNN:
TextCNN(Text Convolutional Neural Network)是一种专门用于文本分类的卷积神经网络。它的核心思想是利用卷积操作提取文本的局部特征,再通过池化层筛选关键信息,最终完成分类任务。
其核心流程包括:
该模型通过卷积运算捕捉词序局部模式,具有特征提取自动化、计算效率高的特点,在短文本分类任务中表现优异,典型应用包括情感分析、新闻分类等。
关于训练数据:
当前模型训练数据来自往期MBTI互猜问答,分类根据参与者自判。
由于参与互猜的玩家MBTI分布明显不均,某些较少活跃的类型训练数据不足,因此样本分布不均,较少出现的样本容易受到少量参与者个人特点的影响。
因此现阶段只能在你纠结于一些样本数大于300的类型时,起到有限的辅助作用。
训练样本数量如下:
特别提示:
在该版本的模型中,因为数据有限,所以我们将往期互猜的所有回答和MBTI一股脑作为训练样本,根据大家用词习惯(FastText)或语义倾向(TextCNN)来推断结果。也就是说不管你的内容出现在哪个回答里都是相同的结果,尽管如此还是希望你你能够认真表达自己对特定问题的看法,后续数据量足够后我们会根据不同问题分开训练不同框架的模型,将会用到你的数据,也方便你在不同模型发布后一键重测。
小站正在努力收集新的样本,也欢迎推荐你身边的现充朋友来参与互猜活动/本测试,在测试后你可以向我们提交你的自判帮助我们完善模型训练。