本科毕业设计论文
基于大数据和ALS算法实现的房源智能推荐系统Intelligent recommendation system based on big dataand ALS algorithm
毕业设计论文原创性声明
本人郑重声明所呈交的毕业设计论文 是本人在指导老师的指导下独立进行的设计研究工作及取得的成果论文中引用他人的文献、数据、 图件、资料均已明确标注出论文中的结论和结果为本人独立完成不包含他人已经发表或撰写的作品及成果。对本文的研究作出贡献的个人和集体均已在论文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。
毕业论文作者签字 签字日期 年 月 日
成绩评定
注毕业设计论文成绩按百分制评定。答辩成绩不及格的评分低于60分的 则该毕业设计论文总评成绩为答辩成绩。
内容摘要
目前现有的房源信息不够透明化大多中介混淆市场 内含不为人知的商业链。有经验的租客们会通过周边房价走势和走访周边房源对比调研、筛选适合自己的房源。
同时对于用户工作地点需求和各种人群类型如大学生群体年轻小资或者中年人他们希望居住的环境要求各不相同各类型条件限制这也加大了用户租房的难度。当今的租房市场并不够透传统的实体中介已经跟不上需求。文章将介绍传统的租房信息与移动互联相结合运用大数据收集各类房源信息聚合数据跨平台整合信息最后通过计算机软件开发相关技术开发出一款智能房源推荐平台推荐给用户。整个推荐系统目的就是为了解决item和us er的匹配问题本项目采用最经典的就是CF的方法本质上是构建user和item的特征表达你可以想办法用抽取特征的网络结构来提取这个表达形式也就是常说的emb edd ing方法。然后就可以直接用us er的emb和所有ite m的emb计算相似度按照相似度高低返回推荐结果。想办法构造巧妙的或者新颖的方式抽取特征最后选用现代化web框架Sp ring B o o t+Vue完成平台搭建
关键词房源推荐系统 ALS算法 大数据 数据采集
Abstract
At present, the existing housing information is not transparent enough.Most intermediaries confuse the market and contain unknowncommercial chains.Experienced tenants will use the surrounding housingprice trends and visit the surrounding houses for comparative research toscreen for suitab le houses.
At the same time,for the user's work place needs and various types ofpeople such as college students,young petty bourgeoisie,or middle-agedpeople, they want to live in different environmental requirements.Varioustypes of conditions and restrictions have also increased the difficulty ofus ers renting hous es.Today's rental market is not transp arent enough,andtraditional physical intermediaries can no longer keep up with demand.The article will introduce the combination of traditional rentalinformation and mobile internet,use big data to collect various types ofhousing information aggregation data, integrate information acrossplatforms, and finally develop a smart housing recommendation platformrecommended to users through computer software development relatedtechnologies. The purpose of the entire recommendation system is tosolve the matching problem between item and user. The most classicmethod used in this project is the CF method. Essentially, it is toconstruct the feature expression of user and item.You can find a way toextract this expression using the network structure of extracted features.Form,which is often referred to as the embedding method.Then you candirectly use the emb of the user and the emb of all items to calculate thesimilarity, and return the recommendation results according to thesimilarity. Find a way to construct ingenious or novel ways to extractfeatures, and finally choose the modern web framework SpringBoot+Vue to complete the platform construction.
Keywords:House recommendation system ALS algorithm Big datahouse platform
目录
第一章 绪论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1
1. 1项目的开发背景. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1
1.2项目的开发目的. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1
1.3项目的开发意义. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1
1.4国内的研究现状和发展趋势. . . . . . . . . . . . . . . . . . . . . . . . .1
1.5项目的设计思路. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2
第二章 平台综述及相关技术选型介绍. . . . . . . . . . . . . . . .3
2. 1 Python简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3
2.2 Scrapy爬虫框架简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3
2.3 JAVA语言简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4
2.4 Hbase简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5
2.5本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6
第三章 推荐算法介绍与平台推荐引擎实现. . . . . . . . . . . . 7
3. 1主流推荐算法介绍. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7
3.2协同过滤算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7
3.2. 1基于模型的协同过滤. . . . . . . . . . . . . . . . . . . . . . . . . .7
3.2.2基于内存的协调过滤算法. . . . . . . . . . . . . . . . . . . . . .7
3.3系统中的推荐算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
3.4系统中的推荐引擎架构介绍. . . . . . . . . . . . . . . . . . . . . . . . .9
3.4. 1架构模块介绍. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10
3.4. 2基于房源用户画像的用户相似度计算方法. . . . . . . . 10
3.5本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11
第四章租房推荐平台实现. . . . . . . . . . . . . . . . . . . . . . . . .12
4. 1系统功能模块的设计与实现. . . . . . . . . . . . . . . . . . . . . . . .12
4. 1. 1前台首页设计与实现. . . . . . . . . . . . . . . . . . . . . . . . .12
4. 1. 2分享小组设计与实现. . . . . . . . . . . . . . . . . . . . . . . . .13
4. 1. 3大数据个性化条件筛选房源功能. . . . . . . . . . . . . . .15
4. 1.4智能推荐房源功能. . . . . . . . . . . . . . . . . . . . . . . . . .17
4.2后台的设计与实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18
4.2. 1后台登录页面. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18
4.2. 2用户管理模块. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18
4.2. 3房源列表信息. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
4.2.4城市分类列表信息. . . . . . . . . . . . . . . . . . . . . . . . . . .19
4.3本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .20
第五章 结论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21
参 考文 献. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .22
致 谢. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .23
广东东软学院本科毕业设计论文
第一章绪论
1 . 1项目的开发背景
目前现有的房源信息不够透明化大多中介混淆市场内含不为人知的商业链。有经验的租客们会通过周边房价走势和走访周边房源对比调研、筛选适合自己的房源。
同时对于用户工作地点需求和各种人群类型如大学生群体年轻小资或者中年人他们希望居住的环境要求各不相同各类型条件我限制这也加大了用户租房的难度。随着城市化建设经济发展就业人群流动相较市场的庞大需求当今的租房市场并不够透传统的实体中介已经跟不上需求。文章将介绍传统的租房信息与移动互联相结合运用大数据收集查阅信息跨平台整合信息最后推荐给用户。
1 .2项目的开发目的
对于所有人来说衣食住行是我们在社会上生活的必需品在房价频频高涨的现在对于所有社会上打拼的人或者说所有踏入社会的年轻人来说都会参与到租房市场。
研究数据展示现在我国的租房人口数量约为2亿主要由流动人口和大学毕业生组成住房租赁市场为1.3万亿。 随着城市化进程的发展流动人口规模的不断增加为租住人口提供了基础。到2030年 国内有需要租房的需求将达到2.9亿人口市场规模将超过4亿人口
1 .3项目的开发意义
1基于用户协同过滤算法进行探索通过数据挖掘等前沿技术研究在Web端和移动端相关系统的设计与实现。
2为平台用户提供一个拥有多项功能的且具有良好数据可视化和友好交互的系统。
3对房源进行数据采集标记分析处理通过用户协同过滤相似度处理让房源推荐平台更加智能,更懂用户。
4给缺乏房源信息和需要租房的用户带来便利。
1 .4国内的研究现状和发展趋势
回顾国内外相关领域研究,学者们在丰富用户兴趣特征、构建协同过滤个性化推荐方面已经做了很多研究工作,协同过滤算法是当前推荐系统中应用最广泛的推荐算法从社交网络数据再到情景融入数据,基于此,本文在协同过滤方法的
1
广东东软学院本科毕业设计论文
基础上加上从不同网站爬取的数据进行系统设计通过爬取不同网站数据弥补协同过滤算法数据缺失问题。获取足够多的房源信息提取有效历史租赁成功信息和租房房源真实评价做出基本的房源地理位置区分商圈地铁主要核心公交站等 房价价格排序房类型排序等并且通过预测模型适合每一位独一无二的用户的优质房源推荐给用户选择同时记录下用户的选择信息不断补充数据中心的用户数据反复进行ALS运算这样就能在后期给所有用户推送出更优更符合用户群体的准确租房房源信息。
1 .5项目的设计思路
协同过滤算法是当前推荐系统中应用最广泛的推荐算法在互联网各个领域都有实际的应用价值如电影推荐短视频推荐电商商品推荐等等。这些场景大都可以通过一种基于用户的协同过滤算法去实现主要采集用户对这些Item的用户History与Action去计算用户之间相似度通过邻K算法去找到最近邻居通过设定参数比重预测对item的分值然后将分值最高的前x个项目返回给用户就完成了推荐行为。
一般来说用户对项目的评分能够较精准的反映用户对项目的喜爱程度而标签标注作为一种用户行为蕴含了用户对项目内容和属性的深入理解[4] 。文献
[5]通过对项目的标签进行简单的计数统计来求得用户对项目标签的偏好向量但是这种方法在计算用户对标签兴趣偏好时会出现热门标签权重较大的问题这样就导致了被用户选择过的稀缺标签很难给用户进行推荐造成权重偏差降低了推荐结果的准确性并且未能充分反映用户的兴趣偏好。针对以上问题本文引入TF-IDF的思想对用户的项目标签偏好进行计算。
TF-IDF是一种加权技术采用一种统计方法来评估某一个特征词在一个语料库中的重要程度[6] 。将其思想应用到用户偏好计算上若用户选择某个标签越频繁这个标签被选择的人数又越少并且这个标签在整个标签集中的占比越小则我们认为用户对这个标签的偏好程度越高。公式如下
由公式能够推出若一个标签选择人数较多且在整个标签集中的自身占比较高即热门标签则计算结果偏低若用户选择冷门标签相较于其他用户而言用户更关注此标签且该标签对于该用户的重要程度更高这样就能在一定程度上很好的区分和明确用户的偏好提高推荐准确率。
2
halocloud怎么样?halocloud是一个于2019下半年建立的商家,主要提供日本软银VPS,广州移动VDS,株洲联通VDS,广州移动独立服务器,Halo邮局服务,Azure香港1000M带宽月抛机器等。日本软银vps,100M/200M/500M带宽,可看奈飞,香港azure1000M带宽,可以解锁奈飞等流媒体,有需要看奈飞的朋友可以入手!点击进入:halocloud官方网站地址日本vp...
hostkvm在2021年3月新上线洛杉矶新VPS业务,强制三网接入中国联通优化线路,是当前中美之间性价比最高、最火热的线路之一,性价比高、速度非常好,接近联通AS9929和电信AS4809的效果,带宽充裕,晚高峰也不爆炸。 官方网站:https://hostkvm.com 全场优惠码:2021(全场通用八折,终身码,长期) 美国 US-Plan0【三网联通优化线路】 内存:1G CPU:...
hostround怎么样?大硬盘服务器,高防服务器。hostround,美国商家,2017年成立,正规注册公司(Company File #6180543),提供虚拟主机、VPS云主机、美国服务器、荷兰服务器租用等。现在有1款特价大硬盘独服,位于达拉斯,配置还不错,本月订购时包括免费 500Gbps DDoS 保护,有兴趣的可以关注一下。点击直达:hostround官方网站地址美国\荷兰独立服务器...