限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: muyang-0410
最近,谷歌 开源了一个帮助开发者写 代码的程序合成工具 TF-Coder。
用过 框架的应该都知道,在操纵张量时,需要跟踪多个维度、张量形状和数据类型兼容性,当然还需要考虑数学正确性。此外, 有数百种操作,找到要使用的正确操作也是一项挑战。
那么,除了直接对张量操纵进行编码以外,如果仅通过一个说明性示例进行演示,就能自动获取相应的代码呢?这个想法听起来很诱人,而 Coder(TF-Coder)使这成为可能!
TF-Coder 的原理是:给出期望张量变换的输入 – 输出示例,TF-Coder 运行组合搜索,找出能够执行此变换的 表达式,并最终输出对应的 代码。
给出输入 – 输出示例,TF-Coder 在 1.3 秒内找出解决方案。
TF-Coder 的合成算法如下所示:
下面的动图展示了使用 TF-Coder 解决张量操纵问题的过程:
那么,TF-Coder 工具可以在哪些场景中起到作用呢?
TF-Coder:通过示例进行 编程
假如你想将包含 M 个元素的向量(下例中指‘rows’)和包含 N 个元素的向量(下例中指‘cols’)依次进行相加,生成一个包含所有成对和的 M x N 矩阵。
使用 TF-Coder,你只需提供一个输入 – 输出示例(M=3,N=4)即可完成该操作,无需逐行进行编程。
例如输入张量为:
inputs = {
rows : [10, 20, 30],
cols : [1, 2, 3, 4],
}
对应的输出张量为:
output = [[11, 12, 13, 14],
[21, 22, 23, 24],
[31, 32, 33, 34]]
基于以上输入 – 输出信息(默认情况下已经输入到 TF-Coder Colab 中),TF-Coder 工具将在一秒内自动找到合适的 代码:
tf.add(cols, tf.expand_dims(rows, 1))
这个简单的例子旨在说明 TF-Coder 利用示例进行编程的思想。而 TF-Coder 的功能不止于此,它还可用于更难的编程问题中。
TF-Coder 帮你找到正确的函数
假设你正在处理数值特征,如某个物品的价格。数据集中的价格范围很广,例如从低于 10 美元到超出 1000 美元不等。如果这些价格被直接用作特征,则模型可能出现过拟合,在模型评估阶段可能难以处理异常价格。
为了解决上述问题,你可能需要使用 ,来将数字价格转换为类别特征。例如tf.expand_dims,使用 边界 [10, 50, 100, 1000] 意味着低于 10 美元的价格应归入 0,10 美元至 50 美元的价格应归入 1,依此类推。
在选择 边界之后,如何使用 将数值价格映射到 索引呢?例如,给出以下 边界和物品价格:
# Input tensors
boundaries = [10, 50, 100, 1000]
prices = [15, 3, 50, 90, 100, 1001]
计算每个项的 编号:
# Output tensor
bucketed_prices = [1, 0, 2, 2, 3, 4]
尽管 具备多种 操作,但要弄清楚哪种操作适合执行这种 ,也是比较棘手的事情。由于 TF-Coder 可以通过行为识别数百个 操作,因此你可以通过提供输入 – 输出示例来查找正确的操作:
# Input-output example
inputs = {
boundaries : [10, 50, 100, 1000],
prices : [15, 3, 50, 90, 100, 1001],
}
output = [1, 0, 2, 2, 3, 4]
只需几秒钟,TF-Coder 就能输出以下解决方案:
tf.searchsorted(boundaries, prices, side= right )
TF-Coder:用聪明的方式结合函数
现在我们来看另一个问题:计算一个 0-1 张量tf.expand_dims,它可以找出输入张量每一行中的最大元素。
# Input tensor
scores = [[0.7, 0.2, 0.1],
[0.4, 0.5, 0.1],
[0.4, 0.4, 0.2],
[0.3, 0.4, 0.3],
[0.0, 0.0, 1.0]]
# Output tensor
top_scores = [[1, 0, 0],
[0, 1, 0],
[1, 0, 0],
[0, 1, 0],
[0, 0, 1]]
注意,如果一行内相同的最大元素重复出现(如 中的第三行),则标记第一次出现的最大元素,这样 的每一行都只有一个 1。
与上一个问题不同,这里不存在可执行该计算的 函数。在文档中搜索「max」,你可能找到 tf.、tf. 和 tf.,但也不清楚到底该用哪一个?tf. 输出 [0.7, 0.5, 0.4, 0.4, 1.0],tf. 输出 [0, 1, 0, 1, 2],tf. 不合适,因为它只能容纳两个参数。这些函数似乎都与该示例的期望输出关联不大。
而 TF-Coder 可以帮你解决这类棘手问题。你可以将这个问题写成输入 – 输出示例的形式:
# Input-output example
inputs = {
scores : [[0.7, 0.2, 0.1],
[0.4, 0.5, 0.1],
[0.4, 0.4, 0.2],
[0.3, 0.4, 0.3],
[0.0, 0.0, 1.0]],
}
output = [[1, 0, 0],
[0, 1, 0],
[1, 0, 0],
[0, 1, 0],
[0, 0, 1]]
TF-Coder 结合使用 tf. 和 tf.,得到问题的解:
tf.cast(tf.one_hot(tf.argmax(scores, axis=1), 3), tf.int32)
通过对 操作组合进行详细搜索,TF-Coder 通常能够发现优雅的解决方案,从而简化步骤,加速 程序。
TF-Coder:用更少的 debug,写出准确的代码
考虑通过将每一行除以该行之和,把整数出现次数列表归一化为概率分布。例如:
# Input tensor
counts = [[0, 1, 0, 0],
[0, 1, 1, 0],
[1, 1, 1, 1]]
# Output tensor
normalized = [[0.0, 1.0, 0.0, 0.0],
[0.0, 0.5, 0.5, 0.0],
[0.25, 0.25, 0.25, 0.25]]
即使你知道可用的函数(tf. by tf.),写出正确的代码也并非易事。第一次尝试可能是这样的:
# First attempt
normalized = tf.divide(counts, tf.reduce_sum(counts, axis=1))
但是以上代码是正确吗?我们需要考虑许多潜在的问题:
而使用 TF-Coder,你只需要给出以下输入 – 输出示例:
# Input-output example
inputs = {
counts : [[0, 1, 0, 0],
[0, 1, 1, 0],
[1, 1, 1, 1]],
}
output = [[0.0, 1.0, 0.0, 0.0],
[0.0, 0.5, 0.5, 0.0],
[0.25, 0.25, 0.25, 0.25]]
TF-Coder 给出解决方案:
tf.cast(tf.divide(counts, tf.expand_dims(tf.reduce_sum(counts, axis=1), axis=1)), tf.float32)
TF-Coder 生成以上解决方案时,可以确保代码在示例输入上运行时能够准确生成示例输出。TF-Coder 的解决方案避免了不必要的步骤。你可以快速找出以上潜在问题的答案:需要采用额外的 tf. 步骤,使张量形状与除法兼容;tf. 的答案必须是 tf. 类型。
通过这种方式,TF-Coder 可以帮助开发者编写简单准确的代码,且无需痛苦的 debug 过程。
局限性
不过,TF-Coder 也有其局限性。目前它可以在一分钟内找到涉及 3 到 4 种运算的解决方案,但短时间内找到涉及 6 种及以上操作的解决方案,对它来说还是太过复杂。此外,TF-Coder 尚不支持复张量、字符串张量或 。
TF-Coder 支持操作的完整列表,参见:#=
此外,TF-Coder 只能保证解决方案对给出的输入 – 输出示例有效。该工具会搜索一个与给定输入 – 输出示例相匹配的简单 表达式,但有时候「过于简单」,不能按预期进行泛化。尽可能让示例无歧义会有所帮助,这一般可以通过向输入和输出张量添加更多数值来实现。
– EOF –
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: muyang-0410