Single-Pass关键词扩展
单次扫描关键词扩展的探索
在深入研究后,我们发现K-Means算法在实际应用中效果有限。对于Single-Pass聚类,即便采用0.6的相似度阈值,大约仍有1/3、约500个关键词单独成簇。我们选择这500个词作为研究对象,旨在探究这些单独词语是否真的与任何其他词不相关,或是聚类过程削弱了它们之间的相似性,亦或是关联词未包含在关键词表中。我们得到结论,这些词与表中其他词的关联性较弱,无需进一步验证其与多词簇内的词的关系。
验证昨日问题的同时,我们发现了新方法:在关键词有限的情况下,通过关键词聚类与词语关联检索,扩充关键词表。以下为今日实验重点:
1. 快速文本向量读取优化
在实验中,我们发现加载fastText向量耗时较长,需要改进加载策略。已发现两个fastText的Python库,其中一个来自官方,另一个则不再维护,需谨慎使用。后续将撰写系列文章详解fastText使用方法,欢迎关注。
2. 相关词语检索
在单个词语簇中,我们通过余弦相似度计算找出与词相似度最高的前top10词语,以扩展关键词。此方法对已有结果进行了优化,增加了多词簇的数量,减少了单独词语构成的簇数量。此过程证实了fastText.bin文件在向量精度上优于.fastext.vec文件。
3. 扩展后的关键词分析
结果表明,单独词语的top10相关词不在关键词表中,表明它们确实有更相关联的词。此发现进一步证实了Single-Pass不会削弱单一词语与多词簇的关联性。
关键词扩展的策略与应用
1. 语料提纯:在准备文本分类训练语料时,通过特征选择方法选出类目关键词后,可能发现包含不属于该类目的关键词。聚类分析可剔除这类干扰,提高语料纯净度。
2. 类目构建:在缺乏类目体系和关键词的情况下,聚类可作为初步分类手段,提取每个簇的关键词构建类目体系。
3. 语料构建:已知类目体系和关键词但无训练语料时,聚类可验证类目差异,通过关键词匹配预测文本类别,构建自动分类语料库。
总结,关键词扩展与聚类应用广泛,能有效提升文本分类的准确性和效率。明日将尝试可视化手段验证类目关键词的准确性,期待有良好效果。
多重随机标签