检索类聊天机器人

内容纲要

一 特点

  1. 需要数据库比较大
  2. 回答比较自然

二 检索匹配

  • 基于检索的技术----专业领域的知识
  • 基于模式匹配的技术----问题和答案相对应
  • 基于自然语言理解的技术----阅读和理解
  • 基于统计翻译模型的技术----概率学进行统计

三 关键技术

1 计算相似度

  • 余弦相似度(Consine Similaryity)向量角度的余弦相似度
  • 皮尔森相关系数(Prarson Correlation Cofficient)
  • 信息检索--词频--逆文档频率(TF-IDf)

    2 分类

    (1)贝叶斯分类

  • KNN-聚类 把很多点聚集在一起,找到最核心的点
  • SVM-效果好,并且不复杂
  • CNN
  • LSTM
    流程
  • 先验概率:主观的一种判断。经历推导的概率
  • 后验概率:通过Bayes定理,用先验概率计算出

    (2)扑贝叶斯分类

  • 加上条件独立假设的贝叶斯方法就是扑素贝叶斯分类方法(Naive Bayes)
  • 缺点:失去了词语之间的顺序信息
  • 优点:重复词
  • 多项式模型
  • 伯努利模型----缺少一些词频信息

    四 应用

    文本情感分析
    拼写纠错

    食用技巧

    1. 取对数 → 哈希表
    2. 转换权重 → 哈希表 二分类
    3. 选取topk的关键词 → 最贴切topk
    4. 分割样本 → 一定量的词成正比
    5. 位置权重 → 位置x权重
THE END
分享
二维码
< <上一篇
下一篇>>