logo
SoulStation
登录
简答题判型-模型选择

更新时间:2025年3月28日

关于TextCNN:

TextCNN(Text Convolutional Neural Network)是一种专门用于文本分类的卷积神经网络。它的核心思想是利用卷积操作提取文本的局部特征,再通过池化层筛选关键信息,最终完成分类任务。

其核心流程包括:

    1)词向量嵌入层将文本映射为稠密矩阵。
    2)多尺度卷积核(如2-3个词窗口)并行提取局部n-gram特征。
    3)最大池化层筛选各通道最优特征。
    4)全连接层整合特征并分类。

该模型通过卷积运算捕捉词序局部模式,具有特征提取自动化、计算效率高的特点,在短文本分类任务中表现优异,典型应用包括情感分析、新闻分类等。


关于训练数据:

当前模型训练数据来自往期MBTI互猜问答,分类根据参与者自判。

由于参与互猜的玩家MBTI分布明显不均,某些较少活跃的类型训练数据不足,因此样本分布不均,较少出现的样本容易受到少量参与者个人特点的影响。

因此现阶段只能在你纠结于一些样本数大于300的类型时,起到有限的辅助作用。

训练样本数量如下:

特别提示:

在该版本的模型中,因为数据有限,所以我们将往期互猜的所有回答和MBTI一股脑作为训练样本,根据大家用词习惯(FastText)或语义倾向(TextCNN)来推断结果。也就是说不管你的内容出现在哪个回答里都是相同的结果,尽管如此还是希望你你能够认真表达自己对特定问题的看法,后续数据量足够后我们会根据不同问题分开训练不同框架的模型,将会用到你的数据,也方便你在不同模型发布后一键重测。


小站正在努力收集新的样本,也欢迎推荐你身边的现充朋友来参与互猜活动/本测试,在测试后你可以向我们提交你的自判帮助我们完善模型训练。