旅游类UGC数据有哪些对这些数据进行分析研究是否具有价值。

谢邀,这个问题我很感兴趣,不过可能要先做一些Review,因此先简要的讲一些观点。首先是数据的来源,从微博,大众点评,Twitter,Yelp这类网站获取的,大部分是点评信息,也就是所谓的Review,最近正好看过几篇论文是讲Review Helpfulness,因此,研究对景点,目的地的点评实用度,进行智能推荐,这应该是一条路子。至于数据的获取方式,应该比较简单,除了Yelp对点评提取有限制,其他几个都有详细的API可供使用。另外的数据来源,我想还包括穷游网,蚂蜂窝这样的旅游游记网站,数据获取的方式会比较复杂,因为这样的网站并不一定提供API,所以需要直接从页面提取,另外提取出来的内容是大文本,需要进行大文本分析,也就是Text Mining,可以进行Semantic, Sentiment Analysis,寻找对景点的评价和评级,进行智能推荐。另外,还可以进行Association Rule Mining, 寻找景点之间的关联度,这样可以推荐旅行的路线,或者一些联动性的分析。第三种数据来源,则应该是各种旅行社,酒店,飞机预订的网站数据,这些数据则更难获取,因为大部分为不公开的数据,且时效性强,不过数据的价值更高,针对性的可以对旅游的预算,价格的趋势,飞行路线的优化,进行统筹规划。一次旅行大体可以分为 初步想法,线路规划,材料准备,旅行中,旅行回来的总结 几个部分,上面说的也都有针对性,点评主要出现再规划和旅行中,游记则可能覆盖前三个部分,预订则是规划部分的重中之重。我认为还有其他数据来源,具体可能需要先做一下研究。最后回答下第二个问题,这些数据的分析研究是有价值的,但不同部分的研究成熟程度不一样,有些已经被很多学者完成了,有些则还是待开发的处女地,寻找出一个好的Gap和好的Research Question,往往是研究获得成功的第一步。以上只是我的一些初步想法,等我有时间看看相关的论文再上来修改。Over!
■网友
还不太会用,正好最近在关注文本分析这一块,对旅游文本分析很有兴趣,说说我所了解的。初衷是想写实证分析方面的文章,但数据获取太难,需要较多的时间精力(非我本职工作),后来发现可以从文本分析着手,原始资料来源于各大旅游论坛的游记、点评;目前常见的分析方法有高频词分析(有专门的软件,如ROST),情感分析(多用于对旅游目的地形象分析),满意度分析(最近看的一篇文章用KANO模型结合文本做的分析),共词分析(例如分析多篇文章的关键词,使用共词矩阵,社会网络分析等),时空分析(游客路径和时空共现等等,这里面也有很多分析用到的是照片的分析)文本处理起来还是感觉很繁琐,特别是有些意义相近的词,全都要进行清洗,处理起来我觉得还是挺烦的,希望多交流
■网友
对用户原创内容进行分析是有价值的,补充一些文献。1.基于微博大数据的西安国内游客日内时间分布模式研究-唐佳-人文地理基于游客生成的大规模微博签到数据研究国内游客的日内时间分布模式。2.基于自媒体平台的“旅游者”时空行为研究—以W教授的微信“朋友圈”为例-苟思远-旅游学刊基于微信平台的朋友圈,获取特殊“旅游者” W教授2014年逐日活动记录,挖掘其日常活动内容、足迹、照片、情绪等时空信息,综合运用内容分析法、 GIS空间热点分析和追踪分析技术对采集到的数据进行时空表达,探究其时空行为特征。3.基于网络文本内容分析的太白山背包旅游行为研究-赵振斌-人文地理通过对陕西省太白山相关网站论坛游记的文本内容进行分析, 总结太白山背包客行为特征的高频词。
■网友
最近正好做了一个旅游点评数据的数据分析,主要做了旅游热点分析后续可以做下情感分析。
只爬取了旅游产品的旅游评论,应用场景比较有限。如果点评能结合更多用户真实数据对用户推荐、用户回访都有实际价值。
【旅游类UGC数据有哪些对这些数据进行分析研究是否具有价值。】


推荐阅读