检索类聊天机器人
内容纲要
一 特点
- 需要数据库比较大
- 回答比较自然
二 检索匹配
- 基于检索的技术----专业领域的知识
- 基于模式匹配的技术----问题和答案相对应
- 基于自然语言理解的技术----阅读和理解
- 基于统计翻译模型的技术----概率学进行统计
三 关键技术
1 计算相似度
- 余弦相似度(Consine Similaryity)向量角度的余弦相似度
- 皮尔森相关系数(Prarson Correlation Cofficient)
- 信息检索--词频--逆文档频率(TF-IDf)
2 分类
(1)贝叶斯分类
- KNN-聚类 把很多点聚集在一起,找到最核心的点
- SVM-效果好,并且不复杂
- CNN
- LSTM
流程 - 先验概率:主观的一种判断。经历推导的概率
- 后验概率:通过Bayes定理,用先验概率计算出
(2)扑贝叶斯分类
- 加上条件独立假设的贝叶斯方法就是扑素贝叶斯分类方法(Naive Bayes)
- 缺点:失去了词语之间的顺序信息
- 优点:重复词
- 多项式模型
- 伯努利模型----缺少一些词频信息
四 应用
文本情感分析
拼写纠错食用技巧
- 取对数 → 哈希表
- 转换权重 → 哈希表 二分类
- 选取topk的关键词 → 最贴切topk
- 分割样本 → 一定量的词成正比
- 位置权重 → 位置x权重
共有 0 条评论