NLP基础

内容纲要

一 NLP

1 主要范畴

  • 文本朗读
  • 语音合成
  • 中文自动分词
  • 词性标注
  • 句法分析
  • 自然语言生成
  • 文本类
  • 信息检索
  • 信息抽取
  • 文字校对
  • 问答系统
  • 自动摘要
  • 文字蕴含

2 研究难点

  • 单词的边界定义
  • 不规范的输入
  • 词义的消歧
  • 句法的模糊性
  • 语言行为与计划

二 NLP涉及的知识

1 词处理

  • 分词,词性标注,实体识别,词义消歧

2 语句处理

  • 语法分析,语义分析,机器翻译,语音合成

3统计语言模型

  • N-Gram统计模型
  • 马尔科夫模型 (时间和状态)
  • 隐马尔科夫模型

三 NLTK库

Natural Language Toolkit    -----20世纪80年代

1 特点

自带语料库,词性分类库
自带分类,分词
强大的社区支持
还有很多很多的简单版wrapper

2 词性标注的分类

  • 基于规则的词性标注
  • 基于隐马尔科夫模型HMM的词性分类
  • 基于转移的词性标注
  • 基于转移与隐马尔科夫模型相结合的词性标注

3 词性标注的方法

  • NLTK(英文)
  • Jieba(中文)

4 分词难点

  • 分词的标准
  • 切分歧义
  • 新词

5 分词算法

  • 基于词典的分词算法
    • 正向最大匹配法 左→右
    • 逆向最大匹配法 右→左
    • 双向匹配分词 左→中←右
    • 全切分路径选择 切成往多切
  • 基于统计的分词算法
    • HMM
    • 隐马尔科夫模型
    • CRF
    • 条件随机场
    • 深度学习

四 TF-IDF

TF-IDF → 统计文本出现的频率
TF:Term Frequency 衡量一个特任在文档中出现的有多频繁
TF(t)= (t出现在文档中的次数)/(文档中的term总数)
IDF:Inverse Document Frequency 衡量一个term有多重要
IDF(t)=log_e(文档总数/含有t的文档总数)
TF-IDF = TF*IDF

1 作用

  • 提取文本向量的特征

2 使用

  • scikit-learn
  • NLTK(优点:快速简单 缺点:不够准确)
THE END
分享
二维码
< <上一篇
下一篇>>