一、概述 (1)数据描述 数据来源:本项目数据全部来自华北水利水电大学官网通知页,链接:https://www5.ncwu.edu.cn/channels/5.html 数据获取:日期,发文部门,标题,内容,通知链接等,并将这些数据存储为CSV格式并转存到数据库中。 (2)整体步骤 第一步:从网页上获取HTML内容 第二步:分析网页内容并提取需要的信息 第三步:将获取到的信息整理并保存 第四步:将数据统计,分析
一、概述 1.数据来源 本次数据分析使用的数据来源腾讯视频的《奔跑吧》第九季第八期的弹幕数据。 2.数据概述 数据格式为JSON格式数据,包含在回调函数中,需使用正则表达式提取出来后再进行后续数据分析操作 3.依赖包及格式文件介绍 requests库是一个常用的用于http请求的模块,它使用python语言编写,基于urllib,采用 Apache2 Licensed 开源协议的 HTTP 库,可以方便的对网页进行
朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。
逻辑回归(logistic regression)是统计学习中的经典分类方法。其多用在二分类{0,1}问题上。最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑回归模型与最大熵模型都属于对数线性模型。
k近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。