给query的每一个term计算一个权重（term weight）先展现个结果

先展现个结果北京故宫票价多少钱北京到哈尔滨火车票价多少RANK_0表示这个term是核心词,，RANK_1表示基本词，RANK_2表示可省略词。RANK_X后面的数字表示该term的权重，区间是。可以看出，在第一个query中，”北京“是普通词，而在第二个query中，“北京”是核心词。该结果来源于这个开源项目Query Term Analyzer。具体算法和工程代码在项目的网站上有介绍。整体上是采用机器学习的方法，将term的权重转换为分类与ranking问题。原始语料主要来自于用户query以及相应的点击行为，通过聚类以及统计算法生成训练模型所需要的语料。主要特征包括如下几个方面：1.通过ngram考虑query的语法结构（CRF model）；2.通过language model考虑term对于query质量的贡献；3.term自身以及与query的信息（位置，长度等）；4. 全局统计信息。其中前三个明显是与具体上下文相关的。在项目中，以上这些特征都是各种语言通用的，这里提供一个中文的demo package(http://1drv.ms/1eew2QX)，下载后请参考使用（需要安装.NET Framework 4.5版本）
■网友
【给query的每一个term计算一个权重（term weight）】 可参考下面几种做法，如果能拿到点击日志时，效果相比于其他方法是比较好的
星轨数据：Query词权重方法（1） - 基于语料统计星轨数据：Query词权重方法（2） - 基于点击日志星轨数据：Query词权重方法（3） - 基于有监督学习星轨数据：Query词权重方法（4）- beyond 词粒度

■网友
能具体讲解下，怎么从点击数据来生成标注数据么？根据点击文档标题词和query词交集？这里的词权重怎么归一化？

给query的每一个term计算一个权重（term weight）

推荐阅读

星球大战|ILMxLAB与Nomadic正在开发《不朽维达-光剑道场：星球大战VR体验》

中国新闻网客户端|驻乌干达使馆提醒中国公民关注乌疫情发展

[细说历史视频]帮派组织墨家为何消失了？不适应社会就要被淘汰，秦朝统一天下

虎扑|他们显然是世界上最好的球队之一，贝尔萨：利物浦是冠军

祝珍明被开除公职：严重违反家庭美德、社会公德

肾病@肾病不要拖，吃饭若有3种“异常”，很可能是尿毒症要“上门”

白小白的衣橱|大街上随处可见的阔腿裤别穿了，“鲨鱼裤”才是时髦，大长腿必备

新型冠状病毒肺炎@男子造谣“北京晚间大面积消杀、消毒”，被拘

有关马云的励志故事?关于成功名人的故事马云

护肤|八大美白误区，小心烂脸，别再被珍珠粉骗了

人为啥会听从他人的领导

[中国日报网]海报 | 中国经济为全球战“疫”注入源源动力

家有汽车|速看丨高新西一路新板桥港桥东（南北辅道）即将实施临时交通限制措施

婴幼儿什么时候长牙？这5个“信号”告诉妈妈：我长牙了

何炅和小保姆的瓜爆了，炸上热搜！果然，他还是出事了！

『乐居财经』布局无人驾驶汽车领域，佳兆业科创集团：联手一清创新

backspace是什么意思键盘backspace键失灵

清朝|魏璎珞备受乾隆帝宠爱，从封号可以看出！

「运势」7月份3生肖运势爆棚，喜事连连，横财运旺摇身变土豪！

95岁老艺术家黄宗英去世！编剧作品获国际大奖，三位前夫都已离世