一、取和分析
本次研究的方法论是智能语义分析处理方法,简单来说,就是通过信息分类、聚类和情感判断来实现对语义的分析。
具体分析方法:爬虫技术-信息归类算法-情感判断算法
1、爬虫技术:
由于我们需要快速地把大众点评网上聚集着的大量评论抓取下来,因此,会采用网络爬虫技术来实现快速抓取。网络爬虫技术是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问网页与相关的链接,获取所需要的信息。
2、信息归类算法:
对于所抓取的信息,我们需要对其进一步梳理:因为原始评论一般都比较长且复杂,需要根据语义,对原始评论语句进行分类整理。信息归类算法是通过确定好的分析结构框架,对原始评论进行切分,再对切分好的语义单元进行归类。
3、情感判断算法:
对归类好的语句,我们还需要了解到其语义是正或负面,也因此,需要使用情感判断算法对具体语义单元进行判别。
情感判断(正面负面意见划分):是NRP学科里的一个领域。情感判断目的是判断一篇文章或一段话是正面或负面,此算法以统计学为主,结合数学、计算机、语言学和人工智能等领域的知识,通过对足够量(一般在几千万条)语句的学习,建立一个情感判断机制。
建立判断机制后,只要输入新特征(新的句子),此机制即可进行自行判断,把此句子进行切分,切分成为几个语句单元,与之前学习好的样本进行匹配:此机制会将语句单元变成一千万维的向量,与之前学习过的语句特征向量进行匹配。然后输出针对此句子匹配后的正负概率值,通过这个值的判断,就可以分出正面评价和负面评价。
备注:
1. 本次研究所抓取的数据源皆是从大众点评平台公开呈现的消费者原始评论,对于点评网根据内部算法所得出的结构化数据(如口味、服务、环境)的评分未抓取。
2. 本次研究所有的技术处理方式和分析模型的解释权均为零点餐e通所有