机器学习特征工程之英文中文文本的特征提取

最新推荐文章于 2022-01-24 14:10:17 发布

cccccccaaaaaaaaa

最新推荐文章于 2022-01-24 14:10:17 发布

阅读量1k

点赞数

文章标签： python 机器学习

本文链接： https://blog.csdn.net/cccccccaaaaaaaaa/article/details/105667005

版权

本文探讨了在机器学习中如何进行英文和中文文本的特征提取。通过使用one-hot编码，将英文文档中的词作为特征，并利用toarray方法将稀疏矩阵转化为离散值，标记每个词在文本中的出现次数。对于中文文本，由于没有空格分隔，需要采用不同的处理方式。下节将继续介绍中文文本的处理方法。

摘要由CSDN通过智能技术生成

作用就是：将一个英文文档中的所有词当做特征，然后用one-hot将特征位置标出来，用toarry将稀疏变换为离散后，会标注每个文本当中每个次出现的次数（文档特征识别无spare参数！字典有）

2.3.3 文本特征提取
                   单词 作为 特征
                   句子、短语、单词、字母
                   特征：特征词
                   方法1：CountVectorizer
                        1）统计每个样本特征词出现的个数：
                        如图1所示该类会自动将单个字母剔除。只留下字母串当作特征值，统计特征值在数据中出现的次数，并按一句一句的输出一维数组，表明按照顺序的每个特征值所存在的个数。
                        ps：与字典特征提取对比，字典是输入字典型数据以后，比如输入了三个字典（三个样例），每个字典两个特征值(见上一个总结)，则最后将三个样本的两个特征值将变成位置变量以及对应值（若特征值等于字符串，则位置对应值1。若为数字，则对应值为数字）。而文本特征提取是将输入文本剔除单个字符，然后对应于每个特征值在每个句子出现几次
                        2）内置函数如图二：与字典特征提取一样。其中建议将特征名（第三个）打出来，好看每次处理的特征值

图一
在这里插入图片描述
图二
代码实现：

from sklearn.feature_extraction.text import CountVectorizer
def count_demo():
    """
    文本特征抽取：CountVecotrizer
    :return:
    """
    data = [

最低0.47元/天解锁文章

cccccccaaaaaaaaa

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

机器学习特征工程之英文中文文本的特征提取

热门文章

最新评论

最新文章

目录