注册 登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

To be completed

我回来了

 
 
 

日志

 
 

数学之美  

2010-12-11 21:34:55|  分类: 读的不只是书 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
今天在看文中信息处理的论文,读起中文论文就是爽啊,而且大多数不需要费什么脑子,不知道这是因为我看的论文比较简约还是因为它们比较空洞,看着看着就看到分析百度分词算法的,自己试了下,确实应该是基于专有词词典和普通词典的正向最大匹配,不过百度就是百度,词库确实强大,也许google中文分词的劣势就在于此吧。看完百度不由想起google,翻出大一暑假看的《数学之美》又读了一遍,当时读的时候会为偶尔看到的一些图论算法所眼前一亮,现在看感到各个部分都觉得很亲切。读完做点笔记。

  • 数学之美 一 统计语言模型
用条件概率的表示句子S=w1w2...wn 出现的概率,并使用马尔可夫假设:假定任意一个词wi的出现概率只同它前面的词 wi-1 有关,来简化问题。
  • 数学之美 二 谈谈中文分词
先介绍了基于词典的分词(正向、逆向最大/最小匹配);对于歧义句的处理,介绍了用概率统计的方法来消歧。
  • 数学之美 三 隐含马尔可夫模型在语言处理中的应用
隐含马尔可夫模型在语音识别、机器翻译中的应用。
  • 数学之美 四 怎样度量信息?
香农提出的信息熵的概念。另含论文《语信息熵和语言模型的复杂度》
  • 数学之美 五 简单之美:布尔代数和搜索引擎的索引
倒排索引,用布尔运算进行查询。
  • 数学之美 六 图论和网络爬虫 (Web Crawlers)
用Crawler采集网页,Hash判重。
  • 数学之美 七 信息论在信息处理中的应用
用统计得出的互信息处理机器翻译中歧义词的问题。
  • 数学之美 八 贾里尼克的故事和现代语言处理
语音识别与自然语言处理专家。
  • 数学之美 九 如何确定网页和查询的相关性
TF/IDF:文本频率和逆文本频率计算网页与查询的相关度。
  • 数学之美 十 有限状态机和地址识别
用有限状态自动机识别地址进行精确匹配,基于概率的有限状态自动机进行模糊匹配。
  • 数学之美 十一 Google 阿卡 47 的制造者阿米特.辛格博士
简约之美。
  • 数学之美 十二 余弦定理和新闻的分类
向量空间模型中,用夹角余弦判断相近程度。
  • 数学之美 十三 信息指纹及其应用
用伪随机数对网页hash。
  • 数学之美 十四 谈谈数学模型的重要性
1. 一个正确的数学模型应当在形式上是简单的。
2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。
3. 大量准确的数据对研发很重要。
4. 正确的模型也可能受噪音干扰,而显得不准确;这时我们不应该用一种凑合的修正方法来弥补它,而是要找到噪音的根源,这也许能通往重大发现。
  • 数学之美 十五 繁与简 自然语言处理的几位精英
自然语言处理大师马库斯:自然语言文法分析器
布莱尔:拼音转换
  • 数学之美 十六 不要把所有的鸡蛋放在一个篮子里 最大熵模型
简洁的最大熵模型,复杂的参数训练实现。
  • 数学之美 十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
订阅了Matt Cutts的BLOGhttp://www.mattcutts.com/blog/。虽然不是很了解SEO,但是感觉上是搜索引擎作弊的一种好听的说法。
  • 数学之美 十八 矩阵运算和文本处理中的分类问题
奇异值分解,现在感到自己线性代数的功底挺弱的,以后要补补。
  • 数学之美 十九 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)
感觉比较高深,又是需要训练的模型。
  • 数学之美 二十 自然语言处理的教父 马库斯
语料库在自然语言的研究中十分重要。
  • 数学之美 二十一 布隆过滤器(Bloom Filter)
垃圾邮件的判断,有一定误判可能,但是概率很小。
  • 数学之美 二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
RSA公钥密码。
  • 数学之美 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律
编码的长度的最小值等于信息熵,目前输入法还有很大的提升空间。
  • 数学之美 二十四 从全球导航到输入法——谈谈动态规划
最短路径算法。维特比算法怎么不介绍了呢?
  评论这张
 
阅读(340)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018