关键词:
语义理解
文本推荐
相似度计算
公式转化
向量化
习题推荐
摘要:
个性化推荐是互联网和人们的需求相互融合和发展的产物,它可以帮助人们从海量的互联网资源当中找到准确而有效的信息。如今在线教育的蓬勃发展,随之而来的便是线上教育资源的快速扩充。在教育方面,个性化的推荐仍然需要进一步的发展,一个优秀的推荐算法可以帮助学生及老师在这海量的资源当中获取到合适的习题资源。它不仅可以帮助学生节约寻找习题资源的时间成本,也能够抓住学生的薄弱点,进行有效针对性练习,提高学生学习效率,同时也可以为教育机构提供更好的教学资源推荐服务,具有重要的研究意义和应用价值。本文的研究对象为小学及初中的数学习题,分析数学习题的特征属性并研究出一种针对习题相似性的算法模型。数学习题特征较为复杂,不仅包含各种分类标签,同时还存在文本信息以及众多数学公式。由此本文从习题自身特征属性出发,提出了一种融合习题中数学公式和文本语义及习题标签的相似数学习题推荐算法,并对推荐算法的效果进行评估和优化,从海量的习题资源中为学生精准地找到更为合适的数学习题并进行推荐。本文的主要研究工作如下:(1)提出并实现了一种基于符号路径的数学公式相似度计算方法。本文将Math ML格式的数学公式转化为二叉树结构,其中运算数皆为叶子节点,运算符皆为非叶子节点,并根据这一特性,提取所有根节点至叶子节点的父节点的路径并计算数学公式的逻辑结构相似性,同时提取每个符号节点的子节点并计算数学公式中的语义信息相似性,两者加权计算来表示整体数学公式的相似度。(2)针对习题的其它特征属性,本文提出了一种基于语义及标签的相似度计算方法(Exercise Recommendation Algorithm of Semantic and Label Similarity,ERASLS)。该方法主要思想是通过将题目表达形式标签、知识点标签以one-hot形式特征向量化后,通过余弦相似度计算这两种标签的相似性。同时在doc2vec预训练模型上,提取习题集当中的所有题目文本信息,用以训练一个独特的数学习题文本词向量模型,通过对题目文本进行分词和清理后,输入模型得到一个分布式词向量表示的题目文本,并以此计算两道习题间的文本相似度。将标签及文本相似度通过加权得到本文提出的第二个算法。(3)在对这两种算法进行研究的基础上,本论文提出了一种将数学公式及文本语义与习题标签相结合的数学习题推荐算法,通过对比实验表明,该算法相比较于其它推荐模型在推荐准确率上提高了17%以上。学生可以通过这个算法来进行针对性的强化训练,从而持续地提升对这类习题的理解与应用。