NLP基础
内容纲要
一 NLP
1 主要范畴
- 文本朗读
- 语音合成
- 中文自动分词
- 词性标注
- 句法分析
- 自然语言生成
- 文本类
- 信息检索
- 信息抽取
- 文字校对
- 问答系统
- 自动摘要
- 文字蕴含
2 研究难点
- 单词的边界定义
- 不规范的输入
- 词义的消歧
- 句法的模糊性
- 语言行为与计划
二 NLP涉及的知识
1 词处理
- 分词,词性标注,实体识别,词义消歧
2 语句处理
- 语法分析,语义分析,机器翻译,语音合成
3统计语言模型
- N-Gram统计模型
- 马尔科夫模型 (时间和状态)
- 隐马尔科夫模型
三 NLTK库
Natural Language Toolkit -----20世纪80年代
1 特点
自带语料库,词性分类库
自带分类,分词
强大的社区支持
还有很多很多的简单版wrapper
2 词性标注的分类
- 基于规则的词性标注
- 基于隐马尔科夫模型HMM的词性分类
- 基于转移的词性标注
- 基于转移与隐马尔科夫模型相结合的词性标注
3 词性标注的方法
- NLTK(英文)
- Jieba(中文)
4 分词难点
- 分词的标准
- 切分歧义
- 新词
5 分词算法
- 基于词典的分词算法
- 正向最大匹配法 左→右
- 逆向最大匹配法 右→左
- 双向匹配分词 左→中←右
- 全切分路径选择 切成往多切
- 基于统计的分词算法
- HMM
- 隐马尔科夫模型
- CRF
- 条件随机场
- 深度学习
四 TF-IDF
TF-IDF → 统计文本出现的频率
TF:Term Frequency 衡量一个特任在文档中出现的有多频繁
TF(t)= (t出现在文档中的次数)/(文档中的term总数)
IDF:Inverse Document Frequency 衡量一个term有多重要
IDF(t)=log_e(文档总数/含有t的文档总数)
TF-IDF = TF*IDF
1 作用
- 提取文本向量的特征
2 使用
- scikit-learn
- NLTK(优点:快速简单 缺点:不够准确)
共有 0 条评论