FastText文本分类

《FastText:快速的文本分类器》

《FastText原理和文本分类实战,看这一篇就够了》

1. 安装

brew install fasttext

2. 区分数据集

cat ./label_data_fasttxt.txt | sort -R > tmp
tail -n 1300 ./tmp > fasttext_data.train
tail -n 200 ./tmp > fasttext_data.valid

文件格式如下,注意标记那列一定有__label__前缀,文本列预先分好词,不同列直接用\t分开:

这个 报名 也 要 付💰 吗	__label__1
老师 特别 好 [害 羞]	__label__0

3. 训练

fasttext supervised -input fasttext_data.train -output fasttext_data -lr 0.2 -epoch 10 -wordNgrams 2

4. 预测

fasttext test fasttext_data.bin fasttext_data.valid
N 200
P@1 0.985
R@1 0.985

 

Leave a Reply

Your email address will not be published. Required fields are marked *