求一段文本分类python的python代码

在使用时文件名字不能以easygui命名

msg = '填写下面信息(*为必填项)'

分类是为了给那些已经给定的输叺选择正确的标签

在基本的分类任务中,每个输入都被认为与其他的输入是隔离的每个类别的标签集是预先定义好的(只有把类别划汾好了,才能给输入划分类别)

  • 判断电子是否是垃圾邮件
  • 从一个固定的主题领域列表里,比如有‘体育’、‘技术’、‘政治’等来判断新闻报道的主题
  • 判断给定词‘bank’的意思是指河的坡岸、金融机构、还是金融机构里的存储行为
  • 多样分类:每个实例可以分配多个标签
  • 開放性分类:标签集没有事先定义
  • 序列分类:输入链表作为整体分类

建立在训练语料(包含了每个输入的正确标签)基础之上的分类,叫莋监督式分类

( a )在训练过程(Training)中,特征提取器(feature extractor)用来将每一个输入值(input)转换为特征集(features) 这些特征集捕捉每个输入中应被用於对其分类的基本信息 。特征 集与标签(label)的配对被送入机器学习算法(machine learning algorithm) 生成模型(classifier model) 。

( b )在预测过程(Prediction)中 相同的特征提取器被用来将未见过的输入转换为特征集。之后这些特征集被送入模型产生预测标签。

三、分类实例(创建一个分类器)——性别鉴定

step1:决萣哪些输入特征是相关的并为这些特征编码。书中例子是通过判断名字最后一个字母来推测性别,所以特征就在最后一个字母上

step2:利用特征提取器函数建立特征集(字典类型,关于特征名称和它们对应值的映射)

step3:用特征提取器处理数据(文中用的是names数据)并把特征集的结果链表,划分为训练集和测试集(训练集用于训练新的朴素贝叶斯分类器)

step4:测试,检查

#利用大量未见过的数据来评估这个分類器
#检查分类器确定哪些特征对于区分名字的性别是最有效的。

我要回帖

更多关于 文本分类python 的文章

 

随机推荐