处理分类数据
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
分类数据具有
一组特定的可能值。例如:
- 国家公园内的不同物种
- 特定城市的街道名称
- 电子邮件是否为垃圾邮件
- 房屋外部的颜色是绘制的
- 分箱数字,具体说明请参阅使用数值
Data 模块
数字也可以是分类数据
可以对真实的数值数据进行有意义的乘法运算。例如,假设有一个模型,用于根据房屋的面积预测其价值。请注意,一个有用的房价评估模型通常取决于
数百项功能。尽管如此,在其他条件相同的情况下, 只有 200 平方块的房屋
约为 100 平方米的相同房屋价值的两倍
米。
通常,您应将包含整数值的特征表示为分类数据,而不是数值数据。例如,假设有一个邮政编码地图项,其中值为整数。如果您以数值(而非分类)来表示此特征,则表示您要求模型找出不同邮政编码之间的数值关系。也就是说,您可以指示模型
将邮政编码 20004 视为邮政编码的两倍(或一半)
10002。将邮政编码表示为分类数据可让模型
并单独计算每个邮政编码的权重。
编码
编码是指将分类数据或其他数据转换为数值向量
可用于训练的模型。必须进行这种转换,因为模型
仅使用浮点值进行训练;模型无法基于字符串进行训练,
"dog"
或 "maple"
。本单元将介绍
编码方法。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-07-27。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-07-27。"],[],[]]