读取 语料库 .txt 文件
抽取词表,不同的词及其词频。输出文件格式:
每行一个词及其词频,按照词频从小到大排序,
取消语料中的分词和词性标记。
基于该词表,编写 FMM 及 BMM 程序,
输入:没有分过词的文本或者一段文本,
输出:分词结果
针对“语料库 .txt ”文件,实现基于 TF-IDF 的检索系统。(每一行看做是一个文档)
输入 不超过 8 个字的短语,系统首先自动进行分词,按照这些分子在所有文档中的 TF-IDF
的值 求和 排序返回前 10 项结果。
提示:注意检索速度,提前计算每个文档的词频并存储。
利用LSB算法将自己姓名隐藏到一张彩色图片 (R通道)中。
可以从图片中提取出隐藏的信息。