基于sklearn库,搭建一个简单的问答系统

日期: 2018-12-06 09:22:57 / 人气: 3577

第一部分: 在这部分里,首先需要去读取给定的文件,并把文件里的内容读取到list里面。这部分的任务主要需要文件IO操作方面的基本知识。


第二部分: 处理已有的字符串数据,并把它们转换成词袋向量。这部分内容涉及到一些简单的字符串预处理技术(比如过滤掉一些没用的字符、分词等),还有就是基于sklearn的把字符串转换向量的过程。本部分的内容需要字符串操作、分词、词袋模型相关的基础知识。

部分: 对于用户的新输入,返回答案。 这是最后一部分,也就是等我们创建完词袋向量之后,我们就可以输入一些新的问题,然后从库中找出最合适的答案。这部分的任务涉及到余弦相似度、简单搜索排序等方面基础知识。

输入问题,查看结果


print(answer("谁知道网上找兼职工作的网站"))

 
搜索结果如下:

这里没有对返回数据进行过清洗,否则体验会更好一些…

--------------------- 
作者:简单随风 
来源:CSDN 
原文:blog.csdn.net/lt326030434/article/details/82909589