C.J.H

have fun


  • 首页

  • 标签

  • 分类

  • 归档

结巴分词代码阅读

发表于 2017-10-16 | 分类于 自然语言处理
代码结构结巴分词的代码结构如下图所示。extra_dict目录下存放的是分词需要的外部数据,主要包括字典数据dict.txt、各词的idf数据idf.txt和分词前需要过滤的停用词表stop_words.txt;jieba目录是主要的程序目录,该目录下analyse为tfidf、textrank等对 ...
阅读全文 »

理解二分类指标

发表于 2017-10-07 | 分类于 数据挖掘
评估一个分类算法效果的指标主要有准确率(precision)、召回率(recall)、AUC、gini系数和F1等,在不同的应用场景下这些指标都有相应的用处。 混淆矩阵以上的指标的计算都依赖于一个混淆矩阵,如下表所示,这个混淆矩阵包括四个变量TP、FP、FN、TN,分别表示实际为正确,预测也为正确; ...
阅读全文 »

协同过滤实践

发表于 2017-10-04 | 分类于 推荐系统
花了两个周末的时间尝试了一下基于用户相似度的协同过滤算法(userCF),主要目的除了对这种算法加深一下理解外,还想对推荐系统的数据集划分方式、评测指标、推荐的参数选择有一些实际的了解。算法本身虽然比较简单,但是实际工程中还是有不少学问的,尤其是当推荐的用户和候选商品规模比较庞大的情况下,如何合理的 ...
阅读全文 »

逻辑回归整理

发表于 2017-10-03 | 分类于 机器学习
逻辑回归是一种思想简单但是非常实用的算法,主要用来处理数据规模庞大、维度较高且对实时性有一定要求的分类问题。目前我知道的逻辑回归在工业界的应用主要有点击率预估、用户分群;在较为复杂的分类或者回归问题中逻辑回归可以用来当作stage1的分类算法,对初始数据进行一个预分类保证用于训练的数据足够干净;此外 ...
阅读全文 »

利用Git Pages和Hexo搭建个人博客

发表于 2017-10-03 | 分类于 前端
一直以来都想要搭建一个个人博客,前段时间花了一些时间在git pages上面注册了一个个人站点,用Hexo构建博客框架,并添加主题。这篇文章把这个搭建的过程记录一下,后续对这个系统的优化也会逐步更新到这篇博客。 创建git page项目首先在自己的github账户中创建一个github项目,项目名称 ...
阅读全文 »

鸟哥的linux私房菜整理(1)---文件系统、磁盘

发表于 2017-10-02 | 分类于 linux
本文用于整理鸟哥的linux私房菜中关于文件系统、磁盘相关的知识,主要包括下面几个方面: linux用户组与权限配置 linux目录配置 linux文件和目录管理 linux文件系统和磁盘挂载 linux压缩和打包相关 linux用户组与权限配置基本权限linux任何一个文件或目录都具有Use ...
阅读全文 »

Hello World

发表于 2017-10-02
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in ...
阅读全文 »
ChengJiaHui

ChengJiaHui

7 日志
6 分类
9 标签
© 2017 ChengJiaHui
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.3