基于Python实现的论坛帖子情感分析

news/2024/7/8 4:11:24

一、课程项目

Scuinfo文本分类分析

二、项目类容

爬取川大匿名社区SCUinfo在一段时间内的帖子,对其进行情感分类分析,包括情绪分类(积极,消极),帖子内容关联分析等。

三、个人工作完成报告

3.1 工作概述

负责数据收集、预处理以及简单的情感分析

3.2 爬虫方案

scuinfo为动态加载网页,并且有移动端验证,尝试使用scrapy爬取数据失败,需要对爬虫进行大量定制优化,为了提高开发效率,最终使用了之前爬取QQ空间采用的方式:使用selenium库调用firefox浏览器驱动,该再通过代码模拟人为操作浏览器。获取到对应页面数据后,使用etree和xpath选取相应的目标节点数据。

  • 优点:轻松解决网页动态加载,登录验证,移动端验证等问题

  • 缺点:该方式需要一直保持浏览器前台运行,并且只能为单线程模式,爬取效率相对较低

关键代码如下所示:

 

点击此处下载文档和源码

 


http://www.niftyadmin.cn/n/3102299.html

相关文章

MAC地址格式

随机配置一个mac地址,发现有的会报出Cannot assign requested address。 错误码是EADDRNOTAVAIL。 检查不是组播地址也不是全0地址。 组播地址就是第一个字节最低位为1,问题就是在这里。 发现第一个字节最低位为1时该函数就会返回0,driver中的…

分别基于WIN32 API界面编程和Cocos2d-x实现的两个版本FlappyBird游戏

1 开发背景 游戏程序设计涉及了学科中的各个方面,鉴于目的在于学习与进步,本游戏《Flappy Bird 》采用了两个不同的开发方式来开发本款游戏,一类直接采用win32底层API来实现,另一类采用当前火热的cocos2d-x游戏引擎来开发本游戏。…

基于WIN32 API界面编程实现的贪吃蛇游戏

1 设计目的和任务 本次期末大作业采用课程设计的形式进行,作为《Windows编程》课程的期末考核。要求综合运用Windows编程的相关知识,完成大作业的相关内容,并撰写设计报告。其目的和任务是: 巩固和加深学生对本课 程基本知识的理…

定制调试诊断工具和实用程序

定制调试诊断工具和实用程序——摆脱DLL"地狱"(DLL Hell)的困扰(一)原著:Christophe Nasarre编译:NorthTibet 下载源代码:Debugsrc0206.exe (583KB)原文出处:Windows XP&a…

产品经理需要的技能,我有吗?

经常被问产品经理需要哪些技能?或许能说出二三,但是更多时候我在思忖,我是否有这些技能? 一.逻辑能力 产品经理需要把用户所有的操作情况都考虑到,尽可能多的考虑使用场景,这需要严谨的逻辑分析能力。而我作…

远程音视频(摄像头、麦克风)监控(amccap)/mms流媒体直播服务器编程实现

转自:http://hi.baidu.com/it_security/blog/item/315f36d0f382eadb562c8474.html 远程音视频(摄像头、麦克风)监控(amccap)/mms流媒体直播服务器编程实现2009-03-10 00:41使用windows media encoder sdk V9.0 (wMencsdk/wm encoder/wmencoder)。 稍作改进可以1&…

SharePoint 2010 工作流解决方案:将 SharePoint Designer 可重用工作流导入 Visual Studio(1)...

将 SharePoint Designer 可重用工作流导入 Visual Studio 在 SharePoint Designer 中创建的工作流(即,声明性工作流)由 XML 语句组成,而非由代码组成。 SharePoint Designer 2010 引入了可重用工作流,它们是可由 Share…