大数据搜索与挖掘
作者: 张华平
出版时间:2014年6月
出版社:中国科技出版传媒股份有限公司
- 中国科技出版传媒股份有限公司
- 9787030403186
- 1-1
- 73116
- 0045159482-4
- 平装
- B5
- 2014年6月
- 390
- 300
- 管理学
- 图书情报与档案管理
- G254.9
- 软件、计算机
- 研究生、本科
《大数据搜索与挖掘》可为高校计算机专业、计算机语言学专业和人工智能专业等师生的教学和科研工作提供帮助,也可为从事大数据搜索与挖掘、中文自然语言处理、信息检索与搜索引擎技术研发的工程技术人员和希望了解上述技术的爱好者等提供参考。
《信息科学技术学术著作丛书》序
序
前言
第1章 绪论
1.1 大数据
1.2 云计算及Hadoop简介
1.3 Web搜索、全文索引与Lucene简介
1.3.1 Web搜索
1.3.2 全文索引
1.3.3 Lucene简介
1.4 大数据挖掘
1.5 本书主要内容及其知识点
1.6 本章小结
参考文献
第2章 大数据搜索挖掘综述
2.1 常用的信息检索模型
2.1.1 传统布尔检索与扩展布尔检索模型
2.1.2 向量空间模型
2.1.3 概率检索模型
2.1.4 语言模型
2.2 自然语言理解与处理概述
2.3 中文词法分析中的分词处理
2.3.1 基于词典和规则的汉字分词
2.3.2 基于大规模语料库的统计学习的分词方法
2.3.3 规则和统计方法相结合的汉字分词方法
2.4 未登录词及其识别
2.4.1 命名实体及其识别
2.4.2 未登录词与新词识别
2.5 有意义串及其识别
2.6 词典组织与管理
2.6.1 基于Trie索引树的词典管理
2.6.2 基于哈希表的词典管理
2.7 文本分类
2.8 文本聚类
2.8.1 文本表示
2.8.2 相似度度量
2.8.3 聚类算法体系
2.9 话题识别与跟踪
2.10 句子及其检索
2.10.1 传统的文档检索方法
2.10.2 信息过滤方法
2.10.3 分类方法
2.10.4 语义比较方法
2.10.5 隐马尔可夫模型方法
2.10.6 自动文摘方法
2.11 句子级新信息检测
2.11.1 词重叠度
2.11.2 最大区间相关度
2.11.3 余弦冗余度
2.11.4 命名实体触发方法
2.11.5 统计机器翻译模型
2.11.6 LexRank方法
2.12 本章小结
参考文献
第3章 大数据检索与分词
3.1 概述
3.2 分词对中文信息检索的影响
3.3 分词精度与检索性能的关系
3.4 大数据应用环境下中文信息检索的分词算法及其特点
3.4.1 分词算法的时间性能要求高
……
第4章 基于层次隐马尔可夫模型的浅层词法分析
第5章 大数据语言新特征发现
第7章 大数据文本自动摘要
第8章 JZSearch大数据精准搜索引擎
第9章 面向大数据的句子检索与新颖性监测
第10章 人物追踪中的数据预处理与属性抽取
第11章 人物模型组织与基于事件的信息处理
附录A ICTCLAS/NLPIR 2014汉语分词系统介绍
附录B NLPIR大数据搜索与挖掘共享开发平台