为什么耳朵会痛| 疣是什么样子图片| 什么东西只进不出| max是什么意思| 头痛用什么药好| 开尔文是什么单位| 鼻子里流出黄水是什么原因| 胃寒吃什么食物暖胃| 儿童诺如病毒吃什么药| 痔疮初期症状是什么| 蛋白粉什么时候吃效果最好| 大堤是什么意思| 窘迫什么意思| 壮的偏旁叫什么名字| 人言轻微是什么意思| 风热感冒咳嗽吃什么药| 飓风什么意思| as是什么病| 做包子用什么面粉| 水滴石穿是什么变化| 梦到手机丢了什么预兆| 双角子宫是什么意思| 翕什么意思| 什么样的女人不能娶| 12.28是什么星座| 长鱼是什么鱼| 肺炎吃什么药最有效| 头孢和阿莫西林有什么区别| dic医学上是什么意思| 玫瑰痤疮是什么原因| 包皮过长是什么样的| 牙齿黄是什么原因| alds是什么病| 梦女是什么意思| 盯眝是什么意思| 白内障什么症状| 小孩手足口病吃什么药| 婧是什么意思| 舒克是什么职业| 男人精子少吃什么药| 1940年属什么生肖| 宇五行属什么| 狗是什么偏旁| 不还信用卡有什么后果| 子嗣是什么意思| 车抛锚是什么意思| 谨遵医嘱是什么意思| 高血压吃什么食物| 植树节是什么时候| 庚午日五行属什么| 每晚做梦是什么原因| 姝是什么意思| 吹弹可破的意思是什么| 急性上呼吸道感染吃什么药| 便秘是什么原因引起的| 腊猪蹄炖什么好吃| 吃豌豆有什么好处| 胎膜早破是什么意思| 功成名就是什么意思| 人瘦肚子大是什么原因| 什么药能治阳痿早泄| 牙周炎吃什么药| 梦到小男孩是什么意思| 夏天为什么会感冒| 蒲公英吃了有什么好处| 银梳子梳头有什么好处和坏处| 柠檬泡蜂蜜有什么功效| 支气管疾患是什么意思| 脚浮肿是什么原因引起的| 岁寒三友是什么意思| 男士吃什么壮阳最厉害| 五行中什么生水| 尿素是什么| 静脉曲张是什么| 心梗做什么检查| 什么叫腺肌瘤| 吾儿是什么意思| 总lge是什么意思| 手发抖是什么原因引起的年轻人| 大红袍是什么茶| 中二病的意思是什么| 济公属什么生肖的| 天狼星在什么位置| 结肠炎吃什么药治疗效果好| 梦到装修房子是什么征兆| 不什么为什么| 榴莲不能与什么食物一起吃| 电器发生火灾用什么灭火器| 着床出血是什么意思| 二氧化碳是什么东西| 尿路感染吃什么药最快| 意中人是什么意思| 背疼应该挂什么科| 中秋节的习俗是什么| iphone的i是什么意思| 凤梨和菠萝有什么区别| exo的e为什么不发音| 儿童嗓子哑了什么原因| 翡翠和玉石有什么区别| 自由职业可以做什么| 梦见买豆腐是什么意思| 什么是失眠| 姑婆的老公叫什么| 慢性胃炎吃什么药效果好| 什么的手| 完美收官是什么意思| 银行卡户名是什么意思| 肌层回声欠均匀是什么意思| b超fl是什么意思| 菠萝为什么要用盐水泡| 三点水的字有什么| 阴囊湿疹挂什么科| 西晋之后是什么朝代| 阴囊潮湿吃什么食物| 心口疼痛是什么原因| 咀嚼什么意思| 三花聚顶是什么修为| fomo是什么意思| 什么是大专| 梅毒rpr是什么| 孕妇梦见捡鸡蛋是什么意思| 桥本甲状腺炎是什么意思| 蛋白粉适合什么人群吃| 七月出生的是什么星座| 什么油最好| 梦见杀鸡是什么意思| 生气容易得什么病| 睡眠障碍吃什么药最好| 又拉又吐吃什么药| 男子精少吃什么药可以生精| 嗜酸性粒细胞高是什么原因| 梦见办丧事是什么兆头| 舌头上有白苔是什么原因| 什么猫不掉毛| 93年是什么年| i是什么| 送什么礼物好| 马跟什么生肖最配| 属鼠的守护神是什么菩萨| 长白头发缺什么维生素| 促甲状腺激素偏高是什么意思| 肾错构瘤是什么病| 化疗为什么掉头发| 全身酸痛吃什么药| 风花雪月是什么意思| 烟酰胺是什么东西| 西兰花炒什么好吃| 硒是什么| 红参有什么作用| 淋巴结反应性增生是什么意思| 吃东西感觉口苦是什么原因| 打喷嚏流鼻涕吃什么药好| 尿酸高不能吃什么食物| 营养不良会导致身体出现什么症状| 薄凉是什么意思| 胃疼屁多是什么原因| 想什么| adhd挂什么科| 什么时候立夏| 隽字五行属什么| 粘液阳性是什么意思| 单亲家庭是指什么| 乙肝抗体是什么意思| 儿童便秘吃什么药| 前列腺增大钙化是什么意思| 喜形于色是什么意思| 沙弥是什么意思| 枕头底下放剪刀有什么说法| 耳垂有折痕是什么原因| 菊花代表什么| 督邮相当于现在什么官| 更年期什么时候开始| 什么是眼底病| 痰多是什么原因| 白眼球发黄是什么原因| 西红柿和什么搭配最好| 马云属什么| 南辕北辙告诉我们什么道理| 脚突然肿了是什么原因| 清晰是什么意思| 膝盖骨质增生用什么药效果好| 追逐是什么意思| 经常手淫会有什么危害| 九月三号是什么星座| 日单是什么意思| 怀孕哭对宝宝有什么影响| 芒果和什么不能一起吃| 经常喝苏打水有什么好处和坏处| 五月21号是什么星座| 白蜡金命五行缺什么| 感冒流鼻涕吃什么药| 结婚下雨有什么说法| 肠道长息肉是什么原因造成的| 什么香什么鼻| ideal是什么意思| 加应子是什么水果| 后半夜咳嗽是什么原因| 红线女是什么意思| 莆田系是什么意思啊| 二甲双胍为什么晚上吃| 小登科是什么意思| 月经来了头疼是什么原因导致的| 右边偏头痛是什么原因| 皮肌炎是什么症状| 无锡机场叫什么名字| 人体有365个什么| 邮政什么时候上班| 梦见蛇是什么意思| 阑尾粪石是什么| 女人烂桃花多说明什么| 卖淫什么意思| 胰腺不舒服是什么症状| 氯化钠是什么东西| 神经电生理检查是什么| 拉肚子吃什么菜| 手麻木吃什么药好| 安可是什么意思| 胆红素高是什么意思| 体外是什么意思| pvs是什么意思| 开除党籍有什么影响| 老年人吃什么水果好| 脸色发黑是什么病的前兆| 蛋白尿是什么意思| 火车头是什么意思| 黄体酮有什么作用与功效| mizuno是什么品牌| 舌头上有黑苔是什么原因| 人生感悟是什么意思| 香油吃多了有什么害处| 甲亢病是一种什么病| 私生子是什么意思| 鹅吃什么食物| 耳朵热是什么原因| 血糖高的人应该吃什么食物最好| 马步鱼是什么鱼| 鸡项是什么鸡| 插肩袖是什么意思| 对别人竖中指是什么意思| 低烧可以吃什么药| 将星是什么意思| 睡觉做梦是什么原因| 为什么蚊子要吸血| adhd是什么病| 天天洗头发有什么危害| 生鱼是什么鱼| 77属什么生肖| 菠萝蜜什么季节最好吃| 佰草集适合什么年龄| 谢字五行属什么| 吃东西恶心想吐是什么原因| 这是什么电影| 迷你什么意思| 酸豆角炒什么好吃| 疱疹吃什么药好| 克罗心是什么意思| 自求多福什么意思| 转氨酶是什么| 虽败犹荣是什么意思| 处女什么意思| 狼毒是什么| 下过海是什么意思| 三个毛念什么字| 4岁属什么生肖| 百度
Page MenuHomePhabricator

健脾养胃喝什么好

Description

Query Clicks Data Retention

Executive Summary

百度 此型导弹是一种中低空、中近程机动式防空武器系统,主要承担野战防空任务,装备陆军导弹旅。

The search platform team would like to extend data retention on the daily full text search query/clicks dataset from the default of 90 days to 13 months. These logs do not contain traditional PII and thus the standard 90 day retention guidelines may not be applicable. The search platform team has reviewed the creation methods for these logs and proposed a few improvements that would further protect user privacy when stored beyond the retention of the source datasets.

Background

The daily query clicks dataset is an unsampled log of user interaction with full-text search in desktop and mobile web. The dataset itself is not a direct log of user events, rather it is generated in a daily batch job by combining multiple input sources. The dataset is used as input to the search platform machine learning (ML) ranking algorithms. It additionally allows backtesting new ranking approaches against historical data. This dataset contains the search queries that were performed, the pages that were returned, and pages that the user clicked on, along with a session ID that refers to a single user over a short timespan.

PII in search

We collect in Hadoop all the search queries (90 days retention) our users may enter using our site and APIs. The search query strings are not by nature pure PII like IP addresses, SSN, GPS coords, etc., but they may contain PII if, for example:

  • A user makes a mistake, e.g. copy/pasting their SSN, email address (or anything that is considered PII) in the search box
  • Someone legitimately searches to see if their SSN is present in one of our corpora

We don’t have clear numbers of how many queries may contain PII.

In 2012 the WMF released anonymous search logs but quickly took the dump down after realizing that “a small percentage of queries contained information unintentionally inserted by users.” In 2019 we began a project called Glent, intended to improve the quality of “did you mean” suggestions shown to users on-wiki. Glent maps an incoming user query onto another user’s query that is similar and which has more results. End users don’t know whether their suggestion is based on another user’s query, or if it came from the normal statistical suggestion process. The similarity requirements also mean that the output will always be reasonably similar to the input, so no particularly novel information can be retrieved by end users. We have recently gotten clearance form Legal to save the aggregate query information Glent uses indefinitely.

Importance of Search Queries in Search Algorithms

It is no secret that one can use search queries to improve search ranking quality. The search platform team operates a project, named Mjolnir, which applies a variety of statistical algorithms to historical user interactions with full-text search. The output of this project is per-wiki ML models that decide the final order of search results displayed to a majority of end users. The models that this algorithm generates are free of any PII as it does not contain any reference to the source search queries. All the computation is performed on the analytics network; the only part that ever leaves the analytics network is the model itself.

The ML approaches that have been applied to this dataset so far have shown through AB testing to improve the search experience on high-volume wikis. The same AB testing shows decreased performance, compared to a hand-tuned baseline, on wikis outside the top 18 by search volume.

Data Retention

The statistical models we apply to the click logs require seeing the same search query, issued to the same wiki, across multiple search sessions. This results in a snowball effect, where the percentage of usable sessions inside the dataset increases as the dataset increases in size. Based on previous analysis and experiments we’ve found that we need at least 300k search sessions to train a useful ranking model. Extrapolating from current event counts, increasing data retention from 90 days to 13 months could potentially double the number of wikis, from 18 to 36, that we have enough data to train ranking algorithms for. This additional data is likely to improve the ranking performance on all but the busiest of the currently deployed wikis (i.e., everything except enwiki).

How user privacy is maintained

  • This dataset does not contain user names, IDs, IP addresses, or otherwise identifying information of the user.
  • Session reconstruction assigns a new identifier to searches from the same weak user fingerprint that are more than 30 minutes apart.
  • Rather than store the IP addresses we store aggregate metadata about the IP address to be used in downstream processing.

Potential improvements

The session reconstruction, and the identifiers emitted by that reconstruction, are based on a weak fingerprint of the user along with a timeout. Currently identifiers for sequential sessions, potentially even across days, could be very similar for a given user. This link can be broken across days by hashing session identifiers with a daily random token that is used and disposed of without being recorded. The downside here is that all sessions will be broken across days, a search at 23:59 will never be in the same session as a search at 00:01.
For debugging purposes we maintain a unique token representing the search request in the dataset. This token can be used to link this dataset back to raw operational logs which contain private data (IP, etc). If there are no links between individual sessions there should be no additional risk of carrying this metadata, as no link can be made between the operational logs and sessions beyond the retention of those logs.
Even without including explicit links, repeated user behaviour may allow linking sessions across days. For example, if a user performs the same search every day at 8 am, perhaps an editor interested in pages about a specific topic, dedicated analysis of these logs could find that behaviour and create probabilistic links across sessions. Comparing search results and clicks to page revision times could also generate probabilistic links between this dataset and individual users. These links could be weakened by fuzzing the timestamps on a per-session basis, essentially shifting each session in its entirety by ± 15 minutes.

Appendix

Structure of stored data

fielddescriptionreasoning
publicwikiidThe wiki the search occured on
semi - privatehitsList of page IDs returnedDerived from private data
semi - privaterequest_set_tokenRandom ID from operational logsLinks this record to more private datasets
semi - privateq_by_ip_dayNumber of searches by same IP and dayMetadata about the IP address
privatequeryText input from userUsers search for private things and don't expect it to be shared
privatetimestampSecond-resolution timestamp searchDirect record of user behavior
privateclicksList of page IDs clicked with second-resolution timestampsDirect record of user behavior
privatesession_idIdentifier of a single search session, typically 30 minutesAssociates multiple rows within dataset

Event Timeline

There is a new process to access potential privacy risks. I've moved our proposal into the description of this ticket, copied relevant parts of the proposal into the Privacy Review Template along with links back to this ticket, and submitted the proposal to Privacy and Legal.

@EBernhardson I emailed the stakeholders with my updates to the privacy risk analysis. Please advise if you need anything else on this task or if I can resolve it. Thx!

尿胆红素2十是什么意思 什么是非处方药 牙银肿痛吃什么药 肾结石要注意什么 早上打碎碗是什么兆头
爸爸的奶奶叫什么 内火重吃什么药见效快 圣诞节礼物什么时候送 睡不着吃什么药最有效 低密度灶是什么意思
连号的钱为什么不能花 青霉素过敏可以吃什么消炎药 心灵鸡汤什么意思 被隐翅虫咬了用什么药 泡妞是什么意思
21岁属什么生肖 腿部发痒是什么原因引起的 大拇指发麻是什么原因 梦到伟人有什么兆头 魂牵梦绕的意思是什么
头颅mri是什么检查hcv9jop4ns1r.cn 转氨酶和转移酶有什么区别hcv8jop1ns2r.cn 烤乳扇是什么hcv9jop6ns9r.cn 陕西为什么叫三秦大地hcv7jop4ns7r.cn 璠字取名寓意什么hcv9jop4ns4r.cn
喜鹊叫有什么兆头hcv9jop5ns9r.cn 错落有致的意思是什么hcv8jop5ns1r.cn 埋伏牙是什么意思hcv7jop7ns2r.cn 怀孕建卡需要什么材料hcv7jop7ns3r.cn 屁股疼挂什么科室96micro.com
血糖高吃什么食物最好最佳hcv9jop4ns3r.cn 中元节会开什么生肖hcv7jop7ns0r.cn 直肠窝积液是什么意思hcv7jop9ns1r.cn 什么行业赚钱hcv9jop4ns2r.cn pr是什么意思0735v.com
五行中水是什么颜色hcv9jop4ns1r.cn 土豆是什么科hcv8jop4ns6r.cn 吃什么能补充雌激素hcv8jop0ns3r.cn 左腹下方隐痛什么原因hcv8jop7ns1r.cn 857什么意思hcv9jop1ns3r.cn
百度